Bytedance LatentSync

Синхронизирует движения губ на видео с вашим аудио, чтобы персонаж выглядел так, будто говорит именно этот текст. Цена - 5 ₽ за секунду видео.

Описание

Bytedance LatentSync - нейросеть для липсинка: вы загружаете видео и отдельную аудиодорожку, а модель подстраивает движения рта (и чуть-чуть нижнюю часть лица) так, чтобы речь на видео совпадала со звуком.

По заявлениям разработчиков, LatentSync делает липсинк “от конца до конца” на базе latent diffusion (диффузии в скрытом пространстве) - то есть она не пытается сначала угадать “движения точками”, а сразу учится связывать звук и картинку. Авторы также делают упор на более плавное видео без мерцания между кадрами (темпоральная согласованность) и на улучшения в новых версиях: в 1.6 заявлено более чёткое качество за счёт обучения на 512×512, а в 1.5 - более ровная картинка во времени и лучшее поведение на китайской речи.

Как это работает

Если по-простому, LatentSync “слушает” ваш звук и одновременно “смотрит” на лицо в видео. Дальше она перерисовывает область рта по кадрам так, чтобы артикуляция совпала с тем, что слышно в аудио, при этом старается сохранить внешность человека, освещение и общий стиль ролика.

Настройки

Видео - загрузите ролик (MP4/MOV/WebM) длительностью от 1 до 10 минут. Чем крупнее лицо в кадре и чем меньше поворотов головы, тем обычно лучше совпадёт рот со звуком.
Аудио - загрузите звук (MP3/WAV/M4A/AAC/FLAC/OGG/OPUS). Лучше, когда голос чистый: без музыки поверх и без сильных шумов.

Для чего подойдёт

Озвучить ролик на другом языке, чтобы губы выглядели естественно (например, для семейного видео или школьного проекта).
Заменить “плохой” звук на чистую запись и синхронизировать рот, если исходник снимали на шумной улице.
Сделать говорящую версию видео с дикторским текстом для презентации на работе.
Подогнать реплики в коротком скетче или поздравлении, когда вы записали голос отдельно.

Ограничения

Если лицо маленькое в кадре, закрыто руками/микрофоном, или человек часто резко поворачивается, качество липсинка может заметно падать.
Сложные условия (тени на лице, сильное размытие, низкое качество исходного видео) могут дать артефакты - “дрожание” рта или небольшие искажения.
Это именно липсинк: модель не “переснимает” всё видео заново, а в первую очередь правит область рта, поэтому она не заменит полноценную анимацию лица для любых движений.

Чем отличается от аналогов

LatentSync выделяется тем, что построен вокруг подхода со Stable Diffusion в “скрытом” (latent) пространстве и дополнительно обучается так, чтобы лучше слушать аудио, а не “угадывать” рот по картинке. В свежих версиях разработчики отдельно улучшали проблему размытости и плавность по времени, чтобы кадры меньше “мигали” и рот выглядел стабильнее.