Top.Mail.Ru

Kandinsky 6 Video: новые возможности генерации видео с синхронным звуком

Лаборатория

Тезисы

В последнее время генерация видео переживает бурный рост и развитие. В 2025 году Сбер представил семейство моделей Kandinsky 5, позволяющих генерировать изображения и 10-секундные HD ролики по текстовому запросу или первому кадру. Кроме того, модель Kandinsky 5 Video Pro стала лучшей Open Source моделью генерации видео в мире.

Однако перед нами стоит ряд вызовов, решение которых существенно улучшит качество генерации и расширит возможности моделей. В первую очередь это улучшенное понимание запроса и генерация видео с синхронным звуком.

Расскажу о релизе моделей Kandinsky 6 Video, в котором мы осуществляем подход к решению этих проблем. Приведу технические детали новой архитектуры, процесса её обучения и возможности использования.


Ключевые темы и технологии

Использование AI


Аудитория

Специалист по данным / Специалист по машинному обучению


Уровень сложности

Средний

Сбер
Владимир Корвяков

Окончил МГТУ им. Баумана по специальности «системы управления летательными аппаратами». В Ракетно-космической корпорации «Энергия» им. С. П. Королёва участвовал в разработке человеко-машинных интерфейсов для пилотируемых космических аппаратов «Союз» Международной космической станции и тренажёров для подготовки экипажей.

С 2018 по 2024 год в Московском исследовательском центре Huawei проводил исследования и разработку в области компьютерного зрения, глубокого обучения, мультимодальной обработки данных и генеративного искусственного интеллекта. С 2019 года возглавлял группу инженеров-исследователей, специализирующихся на и оптимизации обучения и инференса нейросетей.

В настоящее время возглавляет в Сбере Центр Efficient AI в управлении базовых моделей Kandinsky и занимается оптимизацией нейросетей Kandinsky для эффективной генерации видео и изображений.

Автор шести патентов в области нейронных сетей и цифровой обработки изображений.

Другие спикеры Лаборатория