HunyuanVideo-Foley

Генерирует звуки и атмосферу для видео по самому ролику и текстовому описанию. Цена - 10 ₽ за видео.

Описание

HunyuanVideo-Foley - нейросеть для генерации звука под видеоряд. Её разработала Tencent Hunyuan: модель анализирует, что происходит в кадре, учитывает текстовую подсказку и создаёт фоновую атмосферу, шумы действий и другие Foley-звуки - то есть звуки шагов, ударов, шорохов, движения предметов и похожие детали.

По заявлениям создателей, модель рассчитана на точную синхронизацию звука с движением в кадре и на более чистый результат, чем у многих открытых решений. Авторы отдельно делают упор на 48 кГц аудио - это высокое качество звука без ощущения грубой "черновой" генерации.

Разработчики пишут, что HunyuanVideo-Foley обучали на большом мультимодальном наборе данных объёмом около 100 тысяч часов. В описании проекта они заявляют сильные результаты по качеству аудио, совпадению со смыслом сцены и попаданию в тайминг - то есть модель старается добавлять звук именно в тот момент, когда в кадре что-то происходит.

Как это работает

Сначала нейросеть смотрит на видео: кто движется, что падает, где есть резкие действия, спокойный фон или смена сцены. Потом она сопоставляет это с вашим текстом. Например, можно подсказать "добавь тихий дождь, гул улицы и шаги по мокрому асфальту" - и модель будет ориентироваться и на картинку, и на описание.

Такой подход нужен, чтобы звук не был случайным. Без текста модель может опираться в основном на то, что видно в кадре, а подсказка помогает задать настроение: сделать сцену тревожной, уютной, шумной, пустой или более кинематографичной.

Настройки

Видео - загрузка одного ролика, для которого нужно сгенерировать звук.
Задание - текстом можно описать, какие именно звуки добавить и какую атмосферу вы хотите получить. Лучше писать конкретно: не "сделай красиво", а "слышны шаги, лёгкий ветер, далёкие машины и скрип двери".

Для чего подойдёт

Озвучить немое видео, где есть движения, но нет среды - например, прогулку по улице, съёмку в парке или кадры из поездки.
Добавить атмосферу в короткий ролик для соцсетей: шум кафе, улицы, дождя, мастерской, офиса.
Быстро набросать звуковой черновик для сцены, чтобы понять, как ролик будет восприниматься со звуком.
Подготовить ролик с эффектами действий - шаги, удары, шуршание одежды, движение предметов.
Сделать тестовую озвучку для анимации, рекламы, игрового фрагмента или учебного видео.

Ограничения

Лучше всего такие модели справляются с шумами и атмосферой, а не с точной речью персонажей. Сложные сцены с несколькими одновременными действиями могут звучать менее убедительно: один звук попадёт хорошо, другой - уже мимо.

Ещё одна типичная проблема для генерации Foley - повторяемость или не совсем естественная фактура звука. Иногда результат выходит кинематографичным, но не совсем похожим на реальную запись с микрофона. Поэтому для важного ролика обычно полезно сделать несколько попыток с разными подсказками.

Чем отличается от аналогов

Главная особенность HunyuanVideo-Foley - акцент именно на видео-ориентированной генерации звуков с учётом текста, а не просто на создании аудио по описанию. В материалах проекта Tencent отдельно выделяет синхронизацию с действием в кадре, баланс между картинкой и текстом и высокое качество итогового звука.

На фоне многих открытых моделей авторы заявляют более сильные результаты по четырём направлениям: чистота аудио, совпадение со сценой, точность по времени и общее сходство распределения звуков с реальными данными. Для обычного пользователя это означает простую вещь: модель заточена не просто "что-то шуметь", а стараться попадать в событие и настроение ролика.