Сбер создал новую версию генеративной модели творчества — Кандинский 3.0. Усовершенствованную нейросеть продемонстрировали на конференции Сбера по искусственному интеллекту и машинному обучению AI Journey, которая проходит 22-24 ноября.
Новая версия, по сравнению с предыдущими, лучше понимает текстовый запрос пользователя. Нейронная сеть теперь может создавать еще более фотореалистичные изображения, генерировать полноценные художественные картины и произведения искусства с эскизами. Кроме того, в новой модели улучшена функция редактирования изображений и возможность их завершения в режиме бесконечного холста (закрашивание и закрашивание).
Пользователи обновленной Kandinsky Neural Network 3.0 могут создавать видеоролики с использованием текстовых описаний в режиме анимации. Запрос генерирует четырехсекундное видео с выбранным анимационным эффектом, частотой кадров 24 кадра в секунду и разрешением 640×640 пикселей.
Также на конференции AI Journey о запуске рассказал первый заместитель председателя совета директоров Сбербанка Александр Ведяхин. Кандинский видео — первая в России генеративная модель для создания полноценных видеороликов с использованием текстовых описаний.
Архитектура Кандинского Видео состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, формирующих структуру видеосюжета, а второй отвечает за генерацию кадров интерполяции, обеспечивающих плавность движений в конечном видео. Оба блока основаны на новой модели синтеза изображений на основе текстовых описаний Кандинский 3.0.
Сгенерированный формат видео представляет собой непрерывную сцену с движением объекта и фона. Именно это отличает видеоролики, синтезированные по модели «Кандинский Видео», от анимационных видеороликов, в которых динамика достигается за счет имитации зависания камеры над относительно статичной сценой. Нейронная сеть создает видеоролики с разрешением 512 х 512 пикселей и разными соотношениями сторон. Модель была обучена на наборе данных, содержащем более 300 000 пар текст-видео. Создание видео занимает до трех минут.
Оценить возможности нейросети Кандинского Видео можно на сайте платформа fusionbrain.ai И в Телеграм-ботгде вы можете отправить запрос на доступ.
Ранее, в начале сентября, Сбер открытый доступ в нейросеть GigaChat для всех пользователей. До этого он работал в тестовом режиме по запросам, а также на «умных» устройствах Сбера, подконтрольных «Салюту».