InfiniteTalk Video

Синхронизирует движения губ и речь в видео по загруженному аудио, чтобы персонаж выглядел говорящим естественно. Цена: Fast - 3 ₽/сек., Обычная - 480p: 6 ₽/сек., 720p: 12 ₽/сек.

Описание

InfiniteTalk Video - нейросеть для «озвучки» видео: вы загружаете ролик и отдельную аудиодорожку, а на выходе получаете видео, где губы (и часто мимика) подстраиваются под речь.

По заявлениям авторов InfiniteTalk, модель заточена не только на рот: она старается согласовать с аудио ещё и движения головы, выражение лица и даже позу, чтобы результат выглядел живее. Ещё одна заявленная особенность - поддержка очень длинных роликов (вплоть до «почти любой длины»), при этом обещают более стабильную «личность» персонажа без сильных скачков внешности по ходу видео.

Как это работает

Если по-простому, InfiniteTalk «слушает» ваш звук и по нему понимает, когда и какие звуки произносит человек. Дальше она перерисовывает области лица (в первую очередь рот) кадр за кадром так, чтобы артикуляция совпадала с аудио. В отличие от совсем простых липсинк-решений, здесь часто меняются и микродвижения - например, лёгкие повороты головы и мимика, чтобы речь не выглядела «приклеенной».

Настройки

Режим (Fast / Обычная) - выбор между скоростью и качеством. Fast обычно быстрее и дешевле, но может давать более заметные артефакты. Обычная - дольше, зато качество выше.
Качество (480p / 720p) - доступно только в режиме «Обычная». 480p обычно берут для черновика и тестов, 720p - когда нужно аккуратнее лицо и меньше «мыла».
Видео - исходный ролик (MP4/MOV/WebM), который нужно «подружить» с новым звуком.
Аудио - дорожка речи (MP3/WAV/M4A и др.). Практический совет: лучше, когда голос записан чисто, без музыки и сильного шума - так губы попадают точнее.
Маска (необязательно) - картинка-маска, которая помогает ограничить область изменений. Полезно, если хотите, чтобы нейросеть меньше трогала фон, одежду или другие части кадра.
Задание (необязательно) - короткая подсказка словами, чего вы хотите добиться (например, попросить сделать артикуляцию точнее или добавить эмоции).

Для чего подойдёт

Переозвучить короткое видео под новый текст: например, заменить реплики в поздравлении, не переснимая себя заново.
Сделать «говорящую голову» для учебного ролика: записали голос - и под него синхронизировали выступление.
Привести в порядок дубляж, если звук записан отдельно от видео и рот заметно «не попадает».
Быстро подготовить несколько версий одного и того же ролика с разной озвучкой (например, для разных аудиторий) - когда важнее скорость, чем идеальная кинематографичность.

Ограничения

Как и у многих аудио-управляемых липсинк-моделей, результат может слегка менять исходное видео: где-то «поплывёт» мимика, появятся мелкие искажения лица или дрожание деталей.
На сложных сценах (профиль, закрытый рот, руки у лица, быстрые повороты, плохой свет) синхронизация может ухудшаться.
Для длинных роликов иногда встречается «хвост» по длительности: выходное видео может получиться чуть длиннее аудио из-за того, как модель собирает ролик кусками, и тогда финал приходится подрезать под звук.

Чем отличается от аналогов

Делает упор на «дубляж по аудио» не только губами, но и более широкими движениями (голова/мимика/поза), поэтому часто выглядит естественнее, чем решения, которые двигают только рот.
Заявлена поддержка очень длинных видео без сильного «расползания» внешности персонажа, что важно для лекций, подкастов и длинных озвучек.