Синхронизирует движения губ в видео под вашу озвучку, чтобы казалось, что человек на экране говорит именно этот текст. Цена - 5 ₽ за секунду видео (округление в большую сторону).
Bytedance LipSync - нейросеть для липсинка: она берёт ваше видео с лицом и отдельную аудиодорожку, а затем подгоняет движения губ и рта под речь, чтобы совпадали слова и артикуляция.
По заявлениям разработчиков из ByteDance, это end-to-end решение (то есть без “склеивания” множества промежуточных шагов вручную), которое использует подход на базе audio-conditioned latent diffusion (диффузия в “скрытом” представлении) и умеет лучше ловить связь между звуком и картинкой. В их обновлениях также упоминаются улучшения вроде меньшей “мыльности” картинки (версия 1.6, обучение на 512×512) и более ровного видео без дрожания/скачков по времени (версия 1.5 - упор на временную согласованность).
Если по-простому, модель “слушает” вашу аудиодорожку и одновременно “смотрит” на кадры видео. Дальше она аккуратно меняет область рта (и иногда нижнюю часть лица), чтобы рот открывался/закрывался и формировал звуки в нужные моменты. При этом остальная часть кадра старается оставаться похожей на оригинал, чтобы человек выглядел тем же, а менялась именно речь на лице.
В форме всего два параметра - это хорошо: не нужно разбираться в тонких настройках.
Совет: лучше всего работают ролики, где лицо крупно в кадре, без резких поворотов головы, а звук - чистый, без музыки поверх голоса.