Модель распространяется по принципу open-source и позволяет создавать ролики, качество которых не уступает творениям коммерческих аналогов.
Компания HPC-AI Tech представила Open-Sora 2.0 — модель искусственного интеллекта с открытым исходным кодом для генерации видео. В отличие от коммерческих решений, эта система достигает сопоставимого качества при значительно меньших затратах на обучение. Разработчики утверждают, что обучение Open-Sora 2.0 обошлось всего в 200 тысяч долларов. Это в десять раз меньше, чем у аналогичных моделей от крупных технологических компаний.
Скриншот: HPC-AI Tech
Ключевые особенности Open-Sora 2.0
Open-Sora 2.0 использует инновационные методы обучения, которые позволяют повысить качество итогового результата. Кроме того, она предлагает пользователям гибкие возможности управления процессом генерации.
- на первом этапе модель обучается на видео низкого разрешения, и это позволяет ей освоить основные принципы движения и структуры сцены;
- затем она переходит к обработке изображений и их преобразованию в видеоряд, и это улучшает её способность к созданию реалистичных кадров;
- на заключительном этапе модель дообучается для генерации видео с более высоким разрешением, сохраняя при этом плавность и детализацию движений.
- обучение модели ускоряется в 5,2 раза по сравнению с традиционными методами;
- генерация видео становится в 10 раз быстрее, что делает модель более эффективной в реальных сценариях использования.
- создание видео на основе текстового описания;
- генерация анимации на основе загруженного изображения, позволяющая пользователям превращать статичные картинки в динамичные сцены.
Кроме того, модель позволяет управлять интенсивностью движения объектов в видео, предоставляя пользователям больше контроля над конечным результатом.
Ограничения и перспективы
Несмотря на серьёзные достижения по качеству видео и стоимости обучения, Open-Sora 2.0 имеет некоторые ограничения. Сейчас модель генерирует видео разрешением 768×768 пикселей и продолжительностью до пяти секунд при частоте в 128 кадров. Однако даже при таких ограничениях качество получаемого контента сопоставимо с коммерческими моделями вроде Runway Gen-3 Alpha или HunyuanVideo.
Скриншот: HPC-AI Tech
Одно из ключевых преимуществ Open-Sora 2.0 — её открытость. Все ресурсы модели доступны для исследователей и разработчиков, а это способствует развитию технологий генерации видео и снижению барьеров для их использования.
Разработчики продолжают развивать и совершенствовать модель. По их словам, в будущем Open-Sora 2.0 может стать хорошей альтернативой коммерческим решениям для создания видео на основе ИИ.