Bytedance LipSync

Синхронизирует движения губ в видео под вашу озвучку, чтобы казалось, что человек на экране говорит именно этот текст. Цена - 5 ₽ за секунду видео (округление в большую сторону).

0/1
0/1

Описание

Bytedance LipSync - нейросеть для липсинка: она берёт ваше видео с лицом и отдельную аудиодорожку, а затем подгоняет движения губ и рта под речь, чтобы совпадали слова и артикуляция.

По заявлениям разработчиков из ByteDance, это end-to-end решение (то есть без “склеивания” множества промежуточных шагов вручную), которое использует подход на базе audio-conditioned latent diffusion (диффузия в “скрытом” представлении) и умеет лучше ловить связь между звуком и картинкой. В их обновлениях также упоминаются улучшения вроде меньшей “мыльности” картинки (версия 1.6, обучение на 512×512) и более ровного видео без дрожания/скачков по времени (версия 1.5 - упор на временную согласованность).

Как это работает

Если по-простому, модель “слушает” вашу аудиодорожку и одновременно “смотрит” на кадры видео. Дальше она аккуратно меняет область рта (и иногда нижнюю часть лица), чтобы рот открывался/закрывался и формировал звуки в нужные моменты. При этом остальная часть кадра старается оставаться похожей на оригинал, чтобы человек выглядел тем же, а менялась именно речь на лице.

Настройки

В форме всего два параметра - это хорошо: не нужно разбираться в тонких настройках.

  • Видео - исходный ролик, где видно лицо. Подойдут форматы MP4/MOV/WebM, длительность 1-10 минут.
  • Аудио - озвучка, под которую нужно подогнать губы (MP3/WAV/M4A/AAC/FLAC/OGG/OPUS).

Совет: лучше всего работают ролики, где лицо крупно в кадре, без резких поворотов головы, а звук - чистый, без музыки поверх голоса.

Для чего подойдёт

  • Озвучить ролик на другом языке, чтобы губы выглядели “по-настоящему”, а не как при обычной переозвучке.
  • Исправить дикторскую дорожку: например, вы перезаписали голос, а видео переснимать не хочется.
  • Сделать “говорящую голову” для обучения: объяснялка, лекция, инструктаж - но с более аккуратной синхронизацией рта.
  • Подогнать слова в рекламном или презентационном видео, если текст слегка поменялся в последний момент.

Ограничения

  • Если лицо далеко, закрыто рукой/микрофоном, в маске или в сильном профиле - синхронизация часто заметно хуже.
  • Очень эмоциональная мимика, быстрые повороты головы и плохой свет могут давать артефакты: “плывущий” рот, странные зубы, мелкую дрожь.
  • Если в аудио много шума, эха или одновременно говорят несколько людей, модель может путаться, когда и как двигать губами.
  • Обычно лучше получается, когда в кадре один говорящий - с несколькими лицами задача сложнее.

Чем отличается от аналогов

  • Упор на диффузионный подход (через “латентное” представление) - по задумке разработчиков, это помогает делать результат более естественным и лучше сохранять внешний вид по кадрам.
  • В обновлениях модели отдельно подчёркиваются улучшения по “ровности” видео во времени (меньше мерцания) и работе с более высоким разрешением, чтобы картинка не выглядела размытой.

Мы используем файлы cookie и данные сервисов веб-аналитики, собираемые посредством «Яндекс Метрика». Продолжая использовать сайт, Вы соглашаетесь с обработкой таких данных на условиях Политики обработки в отношении файлов cookie.