Китайская компания Shengshu Technology сообщила о новых возможностях своего инструмента Vidu, который использует искусственный интеллект для преобразования текста в видео. Теперь технология позволяет создавать видеоролики, объединяя до трех изображений в единый клип, что делает продукт конкурентом разработок OpenAI, таких как Sora.
Новые функции Vidu и популярность в TikTok
Инструмент Vidu предоставляет возможность пользователям из разных стран генерировать 8-секундные видеоролики на основе текстовых запросов. Одна из популярных функций сервиса — создание видео из двух фотографий профиля с обнимающимися людьми — стала настоящим трендом на платформе TikTok.
Недавно Vidu научился объединять три изображения в единое видео с визуальной согласованностью. Например, при использовании изображений футболки, человека и мопеда создается ролик, где человек в футболке едет на мопеде.
По словам главного технического директора компании Фаня Бао, способность объединять несколько изображений с сохранением согласованности стала ключевой инновацией инструмента:
«Мы с самого начала осознали проблему визуальной согласованности и сосредоточились на ее качественном решении».
Конкуренция с OpenAI
В феврале OpenAI заявила, что её модель Sora также способна генерировать одноминутные видеоролики на основе текстовых запросов. Однако публичная демонстрация этой функции пока не состоялась. Vidu же уже доступен для пользователей, активно развивает функционал и находит свое применение в различных бизнес-сферах.
Финансовая модель и аудитория
Vidu активно используется рекламодателями, аниматорами и представителями других сфер для создания контента. Генеральный директор Shengshu Цзяюй Тан рассказал, что ежемесячная стоимость услуги для одного клиента варьируется от 100 тыс. до 1 млн юаней (примерно от 13,8 тыс. до 138,7 тыс. долларов).
Компания также работает над решением вопросов авторского права. В случае необходимости Shengshu может заключать соглашения с художниками, чтобы их стиль мог быть использован для рекламы. По словам Тан, серьезных судебных разбирательств, связанных с использованием изображений, пока не возникало.
Ограничения и защита данных
Shengshu ввела строгие ограничения на использование своего инструмента. Vidu запрещает создание контента с изображениями знаменитостей, обнаженных людей, сцен насилия и других «чувствительных» материалов. Кроме того, для личных фотографий применяется система уничтожения данных в соответствии с международными стандартами защиты информации.
Инвестиции и развитие
Shengshu Technology была основана в прошлом году при поддержке крупных компаний, включая Baidu Ventures, дочернюю структуру Alibaba Ant Group, а также китайские стартапы Zhipu AI и Qiming Venture Partners. Искусственный интеллект Vidu работает на арендованных облачных серверах в Китае и за рубежом.
Конкуренты на рынке
В октябре Meta* (запрещена на территории РФ) анонсировала запуск своей новой модели искусственного интеллекта Movie Gen, способной создавать реалистичные видео- и аудиоклипы по запросу пользователя. Эта технология также заявлена как конкурент решений от OpenAI и других стартапов в сфере генерации медиа, таких как ElevenLabs.
Инструмент Vidu от Shengshu Technology продолжает набирать популярность, предлагая пользователям новые возможности для создания видео. При этом компания активно решает вопросы безопасности и соответствия глобальным стандартам, что усиливает её позиции на рынке.