Bytedance LipSync

Синхронизирует движения губ в видео под вашу озвучку, чтобы казалось, что человек на экране говорит именно этот текст. Цена - 5 ₽ за секунду видео (округление в большую сторону).

Описание

Bytedance LipSync - нейросеть для липсинка: она берёт ваше видео с лицом и отдельную аудиодорожку, а затем подгоняет движения губ и рта под речь, чтобы совпадали слова и артикуляция.

По заявлениям разработчиков из ByteDance, это end-to-end решение (то есть без “склеивания” множества промежуточных шагов вручную), которое использует подход на базе audio-conditioned latent diffusion (диффузия в “скрытом” представлении) и умеет лучше ловить связь между звуком и картинкой. В их обновлениях также упоминаются улучшения вроде меньшей “мыльности” картинки (версия 1.6, обучение на 512×512) и более ровного видео без дрожания/скачков по времени (версия 1.5 - упор на временную согласованность).

Как это работает

Если по-простому, модель “слушает” вашу аудиодорожку и одновременно “смотрит” на кадры видео. Дальше она аккуратно меняет область рта (и иногда нижнюю часть лица), чтобы рот открывался/закрывался и формировал звуки в нужные моменты. При этом остальная часть кадра старается оставаться похожей на оригинал, чтобы человек выглядел тем же, а менялась именно речь на лице.

Настройки

В форме всего два параметра - это хорошо: не нужно разбираться в тонких настройках.

Видео - исходный ролик, где видно лицо. Подойдут форматы MP4/MOV/WebM, длительность 1-10 минут.
Аудио - озвучка, под которую нужно подогнать губы (MP3/WAV/M4A/AAC/FLAC/OGG/OPUS).

Совет: лучше всего работают ролики, где лицо крупно в кадре, без резких поворотов головы, а звук - чистый, без музыки поверх голоса.

Для чего подойдёт

Озвучить ролик на другом языке, чтобы губы выглядели “по-настоящему”, а не как при обычной переозвучке.
Исправить дикторскую дорожку: например, вы перезаписали голос, а видео переснимать не хочется.
Сделать “говорящую голову” для обучения: объяснялка, лекция, инструктаж - но с более аккуратной синхронизацией рта.
Подогнать слова в рекламном или презентационном видео, если текст слегка поменялся в последний момент.

Ограничения

Если лицо далеко, закрыто рукой/микрофоном, в маске или в сильном профиле - синхронизация часто заметно хуже.
Очень эмоциональная мимика, быстрые повороты головы и плохой свет могут давать артефакты: “плывущий” рот, странные зубы, мелкую дрожь.
Если в аудио много шума, эха или одновременно говорят несколько людей, модель может путаться, когда и как двигать губами.
Обычно лучше получается, когда в кадре один говорящий - с несколькими лицами задача сложнее.

Чем отличается от аналогов

Упор на диффузионный подход (через “латентное” представление) - по задумке разработчиков, это помогает делать результат более естественным и лучше сохранять внешний вид по кадрам.
В обновлениях модели отдельно подчёркиваются улучшения по “ровности” видео во времени (меньше мерцания) и работе с более высоким разрешением, чтобы картинка не выглядела размытой.