Kling Video-to-Audio

Генерирует подходящие звуковые эффекты и фоновую музыку по вашему видео, чтобы ролик не был «немым». Цена - 7 ₽ за 1 видео.

Описание

Kling Video-to-Audio - нейросеть, которая берёт короткий видеоролик и создаёт к нему звук: шумы и эффекты (SFX) плюс фоновую музыку (BGM). Инструмент относится к экосистеме Kling от компании Kuaishou и заточен именно под «озвучку по картинке», когда нужно, чтобы звук попадал в происходящее на экране.

По описаниям в источниках, Kling Video-to-Audio умеет автоматически подбирать и синхронизировать звуки под события в кадре (например, шаги, всплески воды, движение машин), а также добавлять фоновую музыку под настроение сцены. Отдельно упоминается режим ASMR - он усиливает «микро-детали» и эффект близкого микрофона, чтобы шорохи и фоли звучали более иммерсивно.

Как это работает

Вы загружаете видео (до 20 секунд), а модель «смотрит», что происходит в кадре: движения, действия, окружение. Дальше она генерирует звуковую дорожку, стараясь попасть по таймингу - например, чтобы удар двери звучал в момент хлопка, а волны шли фоном, пока в кадре море.

Если добавить текстовые подсказки, вы как бы направляете модель: какие именно звуки нужны и какая музыка должна играть. Подсказки можно оставить пустыми - тогда нейросеть попытается озвучить видео сама.

Настройки

Видео - загрузите один ролик в формате MP4/MOV/WebM (длительность до 20 секунд).
Промпт для звуковых эффектов - коротко перечислите, какие именно звуки вы хотите слышать. Пример: «шаги по мокрому асфальту, проезжающие машины, далёкий гром». Можно оставить пустым.
Промпт для фоновой музыки - опишите стиль музыки и настроение. Пример: «лёгкая лоу-фай музыка, спокойная, без вокала». Можно оставить пустым.
ASMR-режим - делает акцент на детальных, «близких» звуках (шуршание, царапанье, щелчки, касания). Полезно для роликов, где важны мелкие действия руками или предметами.

Для чего подойдёт

Озвучить немой клип для соцсетей: чтобы в видео с прогулкой появились шаги, ветер и город на фоне.
Быстро сделать «черновой саунд-дизайн» для короткой сцены: понять, какой звук вообще нужен, прежде чем записывать или искать его вручную.
Добавить атмосферу в ролик: дождь, лес, море, шум кафе - когда картинка есть, а «воздуха» не хватает.
Сделать ASMR-сценку: нарезка, упаковка, работа инструментом, рисование - когда важны тихие детальные звуки.

Ограничения

Ограничение по длительности: видео до 20 секунд - для длинных роликов придётся делать озвучку кусками.
Иногда звук может получиться «примерно подходящим», но не идеально точным по конкретным предметам (типичная проблема таких моделей) - помогает уточнять промпты и пробовать несколько вариантов.
Если в видео много разных событий одновременно (толпа, транспорт, музыка, речь), нейросети сложнее угадать, что сделать главным - лучше явно указать приоритет в промптах (например: «главное - шаги и дождь, музыка еле заметно»).

Чем отличается от аналогов

Kling Video-to-Audio - это именно «видео -> озвучка», то есть модель отталкивается от картинки и старается подогнать звук под действия в кадре. В отличие от генераторов «текст -> звук», здесь проще получить синхронизацию (когда звуки возникают в нужные моменты), а ASMR-режим полезен для сцен, где важны мелкие фоли-детали.