LTX-2 Lipsync
Делает липсинк-видео: оживляет лицо на фото так, чтобы губы и мимика попадали в загруженное аудио. Цена зависит от разрешения: 480p - 3 ₽/сек., 720p - 4 ₽/сек., 1080p - 5 ₽/сек.
Описание
LTX-2 Lipsync - нейросеть для липсинка: вы загружаете аудио и портретное фото, а на выходе получаете короткое видео, где человек на снимке “говорит” вашим голосом (движения губ подстраиваются под звук).
По заявлениям разработчиков семейства LTX (Lightricks), их подход делает акцент на согласованности звука и картинки - чтобы речь и движения рта выглядели синхронно, без ощущения “голос отдельно, лицо отдельно”. Также они продвигают идею “production-ready” (пригодно для рабочих задач), где важны предсказуемость результата и контроль над тем, что получается.
Как это работает
Вы даёте два входа:
- аудио (что именно “говорит” человек),
- фото (как выглядит лицо).
Дальше модель анализирует звук (ритм, паузы, звуки речи) и подбирает движения губ и лёгкую мимику так, чтобы они выглядели естественно. Проще говоря: аудио задаёт “как говорить”, а фото - “кому говорить”.
Настройки
- Аудио - ваш голос/реплика/фраза. Лучше, когда звук чистый, без сильной музыки и шумов - так губы попадают точнее.
- Фото - один портрет. Самый надёжный вариант: анфас, лицо крупно, рот хорошо виден, без рук у лица и без масок/микрофона перед губами.
- Задание - текстом можно подсказать стиль: например “лёгкая мимика”, “спокойное выражение”, “как в студии”. Это полезно, если хотите меньше “кривляний” и больше естественности.
- Качество (480p / 720p / 1080p) - выбор разрешения итогового видео. Для аватарки в мессенджере часто хватает 480p-720p, для презентации или публикации - обычно удобнее 1080p.
Для чего подойдёт
- Сделать “говорящую” открытку: поздравление от имени персонажа на фото на 10-15 секунд.
- Оживить старое семейное фото для короткого ролика (например, чтобы “сказать” одну фразу на память).
- Быстро записать мини-объявление для рабочего чата: загрузили фото + озвучку - получили понятное видео.
- Сделать говорящий аватар для сторис/презентации, когда не хочется сниматься на камеру.
Ограничения
- Длина ролика ограничена короткими отрезками (по формату - аудио 5-20 секунд), так что для длинных монологов придётся делать несколько клипов.
- Качество сильно зависит от исходного фото: если рот закрыт, лицо в полоборота или есть сильные тени/размытие - липсинк чаще выглядит хуже.
- Сложные случаи (борода закрывает губы, ярко выраженный профиль, сильная мимика, крики/пение) могут давать менее точные движения рта - это нормальная “болезнь” большинства lip-sync инструментов.