Генерирует звуковую дорожку для видео по самому ролику и текстовому описанию, чтобы добавить эффекты, фоновые шумы и нужную атмосферу. Цена - 0,2 ₽ за 1 секунду аудио.
MMaudio v2 - нейросеть для генерации звука под видео. Она смотрит на ролик, учитывает ваш текстовый запрос и создаёт аудиодорожку, которая должна совпадать с происходящим в кадре: например, шаги, шум улицы, плеск воды, скрип, удары или общий фон сцены.
По заявлениям авторов MMAudio, модель рассчитана на создание более качественного и синхронного звука, чем многие открытые аналоги. В научной публикации разработчики пишут, что сделали упор сразу на три вещи: качество аудио, смысловое совпадение с описанием и попадание в тайминг видео. Там же сказано, что модель умеет работать не только от видео, но и от текста, а на генерацию 8-секундного фрагмента у неё уходит около 1,23 секунды.
Разработчики модели - команда из University of Illinois Urbana-Champaign, Sony AI и Sony Group Corporation. Их работа принята на CVPR 2025 - это одна из заметных конференций по компьютерному зрению и ИИ.
MMaudio v2 анализирует картинку по кадрам и сопоставляет её с вашим описанием. Дальше модель собирает звуки, которые подходят сцене по смыслу и по моменту появления. Например, в кадре открывается дверь - звук должен появиться в нужную секунду, а не где попало. За счёт этого дорожка ощущается привязанной к действию, а не просто наложенной сверху.
Отдельный плюс этой модели в том, что она обучалась учитывать и видео, и текст. Поэтому можно не просто попросить "сделать звук", а уточнить характер сцены: тревожная, тихая, уличная, бытовая, с акцентом на конкретные события.
Такие модели лучше справляются с короткими сценами и понятными действиями в кадре. На сложных роликах, где сразу много источников звука, результат может быть менее точным: часть эффектов окажется смазанной, а акценты - не в тех местах.
Ещё один момент - нейросеть генерирует звук по вероятности, а не "знает", что реально происходило на съёмке. Поэтому редкие, специфические или очень тонкие звуки она может передать приблизительно. В таких случаях помогает более подробный промпт и негативный промпт, чтобы отсечь лишнее.
MMaudio v2 выделяется тем, что делает упор именно на синхронизацию звука с видео, а не просто на генерацию "под настроение". Авторы отдельно подчёркивают, что модель обучали так, чтобы она лучше совмещала визуальные события и текстовые подсказки. Это полезно там, где важно попадание в момент: шаг, удар, всплеск, движение предмета.
Ещё одно отличие - модель выросла из исследовательской работы 2025 года, где авторы заявляют сильные результаты среди открытых video-to-audio моделей по качеству, совпадению с описанием и синхронности. Для обычного пользователя это означает простую вещь: MMaudio v2 больше заточена под озвучку конкретной сцены, чем под абстрактную генерацию фонового звука.