Синхронизирует движения губ на видео с вашим аудио, чтобы персонаж выглядел так, будто говорит именно этот текст. Цена - 5 ₽ за секунду видео.
Bytedance LatentSync - нейросеть для липсинка: вы загружаете видео и отдельную аудиодорожку, а модель подстраивает движения рта (и чуть-чуть нижнюю часть лица) так, чтобы речь на видео совпадала со звуком.
По заявлениям разработчиков, LatentSync делает липсинк “от конца до конца” на базе latent diffusion (диффузии в скрытом пространстве) - то есть она не пытается сначала угадать “движения точками”, а сразу учится связывать звук и картинку. Авторы также делают упор на более плавное видео без мерцания между кадрами (темпоральная согласованность) и на улучшения в новых версиях: в 1.6 заявлено более чёткое качество за счёт обучения на 512×512, а в 1.5 - более ровная картинка во времени и лучшее поведение на китайской речи.
Если по-простому, LatentSync “слушает” ваш звук и одновременно “смотрит” на лицо в видео. Дальше она перерисовывает область рта по кадрам так, чтобы артикуляция совпала с тем, что слышно в аудио, при этом старается сохранить внешность человека, освещение и общий стиль ролика.
LatentSync выделяется тем, что построен вокруг подхода со Stable Diffusion в “скрытом” (latent) пространстве и дополнительно обучается так, чтобы лучше слушать аудио, а не “угадывать” рот по картинке. В свежих версиях разработчики отдельно улучшали проблему размытости и плавность по времени, чтобы кадры меньше “мигали” и рот выглядел стабильнее.