Генерирует звуки и атмосферу для видео по самому ролику и текстовому описанию. Цена - 10 ₽ за видео.
HunyuanVideo-Foley - нейросеть для генерации звука под видеоряд. Её разработала Tencent Hunyuan: модель анализирует, что происходит в кадре, учитывает текстовую подсказку и создаёт фоновую атмосферу, шумы действий и другие Foley-звуки - то есть звуки шагов, ударов, шорохов, движения предметов и похожие детали.
По заявлениям создателей, модель рассчитана на точную синхронизацию звука с движением в кадре и на более чистый результат, чем у многих открытых решений. Авторы отдельно делают упор на 48 кГц аудио - это высокое качество звука без ощущения грубой "черновой" генерации.
Разработчики пишут, что HunyuanVideo-Foley обучали на большом мультимодальном наборе данных объёмом около 100 тысяч часов. В описании проекта они заявляют сильные результаты по качеству аудио, совпадению со смыслом сцены и попаданию в тайминг - то есть модель старается добавлять звук именно в тот момент, когда в кадре что-то происходит.
Сначала нейросеть смотрит на видео: кто движется, что падает, где есть резкие действия, спокойный фон или смена сцены. Потом она сопоставляет это с вашим текстом. Например, можно подсказать "добавь тихий дождь, гул улицы и шаги по мокрому асфальту" - и модель будет ориентироваться и на картинку, и на описание.
Такой подход нужен, чтобы звук не был случайным. Без текста модель может опираться в основном на то, что видно в кадре, а подсказка помогает задать настроение: сделать сцену тревожной, уютной, шумной, пустой или более кинематографичной.
Лучше всего такие модели справляются с шумами и атмосферой, а не с точной речью персонажей. Сложные сцены с несколькими одновременными действиями могут звучать менее убедительно: один звук попадёт хорошо, другой - уже мимо.
Ещё одна типичная проблема для генерации Foley - повторяемость или не совсем естественная фактура звука. Иногда результат выходит кинематографичным, но не совсем похожим на реальную запись с микрофона. Поэтому для важного ролика обычно полезно сделать несколько попыток с разными подсказками.
Главная особенность HunyuanVideo-Foley - акцент именно на видео-ориентированной генерации звуков с учётом текста, а не просто на создании аудио по описанию. В материалах проекта Tencent отдельно выделяет синхронизацию с действием в кадре, баланс между картинкой и текстом и высокое качество итогового звука.
На фоне многих открытых моделей авторы заявляют более сильные результаты по четырём направлениям: чистота аудио, совпадение со сценой, точность по времени и общее сходство распределения звуков с реальными данными. Для обычного пользователя это означает простую вещь: модель заточена не просто "что-то шуметь", а стараться попадать в событие и настроение ролика.