VEED Lipsync

Синхронизирует движение губ в видео с новой аудиодорожкой, чтобы человек в кадре выглядел так, будто говорит именно этот звук. Цена - 5 ₽ за 1 секунду видео.

Описание

VEED Lipsync - это нейросеть от VEED для замены движения губ в готовом видео под новую аудиодорожку. Вы загружаете ролик и отдельный звук, а система перестраивает артикуляцию так, чтобы речь в кадре совпадала с новым аудио.

По заявлениям создателей, инструмент рассчитан на озвучку, локализацию, обновление рекламных роликов без пересъёмки и массовую обработку видео для разных языков. VEED пишет, что модель автоматически подгоняет форму рта, тайминг речи и мимику, без ручной покадровой правки.

Компания делает упор на простую схему работы: нужны всего два файла - видео и аудио. В описании сервиса сказано, что итогом становится готовый MP4 с уже синхронизированными губами, а сам инструмент работает с разными пропорциями кадра.

Как это работает

Модель смотрит на лицо в исходном ролике, находит рот и сопоставляет движения со звуками новой дорожки. Затем она меняет только область артикуляции, стараясь сохранить остальную мимику и движения головы, чтобы видео не выглядело полностью перерисованным.

Лучше всего такой подход срабатывает там, где человек говорит в кадре достаточно ясно, лицо видно спереди, а речь записана чисто. Для дубляжа интервью, коротких обращений, обучающих роликов и рекламных вставок это обычно самый понятный сценарий.

Настройки

В интерфейсе здесь всё просто:

Видео - исходный ролик, в котором нужно поменять движение губ
Аудио - новая дорожка, под которую нейросеть подстроит речь в кадре

По загружаемым форматам всё довольно привычно: для видео подходят MP4, MOV и WEBM, для звука - MP3, WAV, M4A, AAC, FLAC, OGG и OPUS. Длина видео - от 1 до 600 секунд.

Для чего подойдёт

переозвучить видео на другой язык, чтобы губы меньше выбивались из новой речи
заменить голос в рекламном ролике, когда текст изменился, а переснимать человека не хочется
сделать новую версию обучающего видео с другим диктором
подогнать речь персонажа под заранее записанный аудиофайл
быстро выпустить несколько версий одного обращения для разных стран или аудиторий

Ограничения

VEED отдельно отмечает, что lip sync лучше работает на видео с одним говорящим человеком, фронтальным ракурсом и чистым звуком. На сложных сценах - например, когда человек говорит боком, закрывает рот рукой, быстро двигается или в кадре сразу несколько лиц - результат может быть менее точным.

Есть и практическое ограничение по длине: в этой версии можно загрузить видео до 600 секунд. Для длинных лекций или больших интервью материал придётся делить на части.

Чем отличается от аналогов

Главное отличие VEED Lipsync - узкая специализация именно на синхронизации готового видео с новой аудиодорожкой. Это не генератор говорящих аватаров с нуля, а инструмент для тех случаев, когда ролик уже снят и нужно аккуратно заменить речь.

Ещё один плюс - минимальное число настроек. Такой формат подойдёт людям, которым не хочется разбираться в сложном редакторе: загрузил видео, добавил звук, получил новую версию. Но за эту простоту приходится платить меньшей гибкостью - тонко настраивать поведение модели вручную тут почти нечем.