MMaudio v2

Генерирует звуковую дорожку для видео по самому ролику и текстовому описанию, чтобы добавить эффекты, фоновые шумы и нужную атмосферу. Цена - 0,2 ₽ за 1 секунду аудио.

Описание

MMaudio v2 - нейросеть для генерации звука под видео. Она смотрит на ролик, учитывает ваш текстовый запрос и создаёт аудиодорожку, которая должна совпадать с происходящим в кадре: например, шаги, шум улицы, плеск воды, скрип, удары или общий фон сцены.

По заявлениям авторов MMAudio, модель рассчитана на создание более качественного и синхронного звука, чем многие открытые аналоги. В научной публикации разработчики пишут, что сделали упор сразу на три вещи: качество аудио, смысловое совпадение с описанием и попадание в тайминг видео. Там же сказано, что модель умеет работать не только от видео, но и от текста, а на генерацию 8-секундного фрагмента у неё уходит около 1,23 секунды.

Разработчики модели - команда из University of Illinois Urbana-Champaign, Sony AI и Sony Group Corporation. Их работа принята на CVPR 2025 - это одна из заметных конференций по компьютерному зрению и ИИ.

Как это работает

MMaudio v2 анализирует картинку по кадрам и сопоставляет её с вашим описанием. Дальше модель собирает звуки, которые подходят сцене по смыслу и по моменту появления. Например, в кадре открывается дверь - звук должен появиться в нужную секунду, а не где попало. За счёт этого дорожка ощущается привязанной к действию, а не просто наложенной сверху.

Отдельный плюс этой модели в том, что она обучалась учитывать и видео, и текст. Поэтому можно не просто попросить "сделать звук", а уточнить характер сцены: тревожная, тихая, уличная, бытовая, с акцентом на конкретные события.

Настройки

Видео - загружаете один ролик в формате MP4, MOV или WEBM.
Задание - текстом описываете, какие звуки нужны. Чем конкретнее запрос, тем понятнее результат. Например: "шаги по мокрому асфальту, далёкие машины, лёгкий ветер".
Негативный промпт - список того, чего в звуке быть не должно. Подойдёт, когда нужно убрать музыку, лишний шум, гул или искажения.
Длительность - длина итоговой аудиодорожки в секундах, от 1 до 60. От этого же считается цена.
Шаги генерации - сколько времени модель тратит на просчёт результата. Больше шагов могут дать более аккуратный звук, но обработка идёт дольше.
Сила следования промпту - насколько строго модель держится вашего описания. Низкое значение даёт больше свободы, высокое - сильнее привязывает результат к тексту.
Игнорировать исходный звук - переключатель на случай, когда не нужно опираться на аудио из ролика и хочется сгенерировать новую дорожку почти с нуля.

Для чего подойдёт

озвучить немое видео, где есть только картинка без атмосферы
добавить фоновый шум в короткий ролик: кафе, дождь, улица, офис, лес
сделать звуки для предметной съёмки, где нужны щелчки, трение, удары, механика
быстро собрать черновую озвучку для анимации или раскадровки
оформить короткий клип для соцсетей, чтобы сцена не казалась пустой
проверить идею саунд-дизайна до работы с полноценным монтажом вручную

Ограничения

Такие модели лучше справляются с короткими сценами и понятными действиями в кадре. На сложных роликах, где сразу много источников звука, результат может быть менее точным: часть эффектов окажется смазанной, а акценты - не в тех местах.

Ещё один момент - нейросеть генерирует звук по вероятности, а не "знает", что реально происходило на съёмке. Поэтому редкие, специфические или очень тонкие звуки она может передать приблизительно. В таких случаях помогает более подробный промпт и негативный промпт, чтобы отсечь лишнее.

Чем отличается от аналогов

MMaudio v2 выделяется тем, что делает упор именно на синхронизацию звука с видео, а не просто на генерацию "под настроение". Авторы отдельно подчёркивают, что модель обучали так, чтобы она лучше совмещала визуальные события и текстовые подсказки. Это полезно там, где важно попадание в момент: шаг, удар, всплеск, движение предмета.

Ещё одно отличие - модель выросла из исследовательской работы 2025 года, где авторы заявляют сильные результаты среди открытых video-to-audio моделей по качеству, совпадению с описанием и синхронности. Для обычного пользователя это означает простую вещь: MMaudio v2 больше заточена под озвучку конкретной сцены, чем под абстрактную генерацию фонового звука.