LTX-2 Lipsync

Делает липсинк-видео: оживляет лицо на фото так, чтобы губы и мимика попадали в загруженное аудио. Цена зависит от разрешения: 480p - 3 ₽/сек., 720p - 4 ₽/сек., 1080p - 5 ₽/сек.

Описание

LTX-2 Lipsync - нейросеть для липсинка: вы загружаете аудио и портретное фото, а на выходе получаете короткое видео, где человек на снимке “говорит” вашим голосом (движения губ подстраиваются под звук).

По заявлениям разработчиков семейства LTX (Lightricks), их подход делает акцент на согласованности звука и картинки - чтобы речь и движения рта выглядели синхронно, без ощущения “голос отдельно, лицо отдельно”. Также они продвигают идею “production-ready” (пригодно для рабочих задач), где важны предсказуемость результата и контроль над тем, что получается.

Как это работает

Вы даёте два входа:

аудио (что именно “говорит” человек),
фото (как выглядит лицо).

Дальше модель анализирует звук (ритм, паузы, звуки речи) и подбирает движения губ и лёгкую мимику так, чтобы они выглядели естественно. Проще говоря: аудио задаёт “как говорить”, а фото - “кому говорить”.

Настройки

Аудио - ваш голос/реплика/фраза. Лучше, когда звук чистый, без сильной музыки и шумов - так губы попадают точнее.
Фото - один портрет. Самый надёжный вариант: анфас, лицо крупно, рот хорошо виден, без рук у лица и без масок/микрофона перед губами.
Задание - текстом можно подсказать стиль: например “лёгкая мимика”, “спокойное выражение”, “как в студии”. Это полезно, если хотите меньше “кривляний” и больше естественности.
Качество (480p / 720p / 1080p) - выбор разрешения итогового видео. Для аватарки в мессенджере часто хватает 480p-720p, для презентации или публикации - обычно удобнее 1080p.

Для чего подойдёт

Сделать “говорящую” открытку: поздравление от имени персонажа на фото на 10-15 секунд.
Оживить старое семейное фото для короткого ролика (например, чтобы “сказать” одну фразу на память).
Быстро записать мини-объявление для рабочего чата: загрузили фото + озвучку - получили понятное видео.
Сделать говорящий аватар для сторис/презентации, когда не хочется сниматься на камеру.

Ограничения

Длина ролика ограничена короткими отрезками (по формату - аудио 5-20 секунд), так что для длинных монологов придётся делать несколько клипов.
Качество сильно зависит от исходного фото: если рот закрыт, лицо в полоборота или есть сильные тени/размытие - липсинк чаще выглядит хуже.
Сложные случаи (борода закрывает губы, ярко выраженный профиль, сильная мимика, крики/пение) могут давать менее точные движения рта - это нормальная “болезнь” большинства lip-sync инструментов.