Kandinsky Video+Audio Preview: Первые результаты в генерации видео с синхронным аудио

Лаборатория

Владимир Корвяков

Лаборатория Сбер

Тезисы

В последнее время генерация видео переживает бурный рост и развитие. В 2025 году Сбер представил семейство моделей Kandinsky 5, позволяющих генерировать изображения и 10-секундные HD-ролики по текстовому запросу или первому кадру. Кроме того, модель Kandinsky 5 Video Pro стала лучшей open-source моделью генерации видео в мире.

Однако перед нами стоит ряд вызовов, решение которых существенно улучшит качество генерации и расширит возможности моделей. В первую очередь это улучшенное понимание запроса и генерация видео с синхронным звуком.

Я расскажу о текущих результатах экспериментов, где мы реализуем подход к решению этих проблем. Приведу технические детали новой архитектуры, процесса её обучения и возможности использования.

Ключевые темы и технологии

Использование AI

Аудитория

Специалист по данным / Специалист по машинному обучению

Уровень сложности

Средний

Лаборатория

Сбер

Владимир Корвяков

30 мая, 15:00 (GMT+7)

Лаборатория Сбер

Kandinsky Video+Audio Preview: Первые результаты в генерации видео с синхронным аудио

Владимир Корвяков

Тезисы

Ключевые темы и технологии

Аудитория

Уровень сложности

Владимир Корвяков

Владимир Корвяков

Другие спикеры Лаборатория

Сергей Кольцов

Сергей Бережной

Антон Резников

Андрей Кулешов

Алексей Смирнов

Дмитрий Чуканов

Юлия Жмакина

Диана Гердт

Сергей Тращенков

Ольга Лукьянова

Татьяна Фёдорова