LongCat Avatar
Создаёт говорящее видео: оживляет лицо на фото и синхронизирует мимику и губы с вашим аудио. Цена: 480p — 7 ₽/сек., 720p — 14 ₽/сек.
Описание
LongCat Avatar - нейросеть, которая делает «говорящее видео» из одного фото и аудиодорожки: вы загружаете портрет, добавляете запись речи (или пения) - и на выходе получаете ролик, где человек на фото говорит вашим голосом.
По заявлениям создателей, LongCat Avatar делает упор на реализм, выразительные движения (не только рот, но и мимика/повороты головы) и стабильность на длинных фрагментах, чтобы внешность не «плыла» по ходу видео. Также подчёркивается сохранение личности (identity сохранение) - то есть лицо должно оставаться узнаваемым кадр за кадром, а губы - попадать в звук.
Как это работает
Всё устроено довольно просто:
- вы даёте нейросети исходник - одно фото (лучше портрет, где лицо видно прямо, без сильных теней и закрытого рта рукой);
- добавляете аудио;
- модель подстраивает движения губ и лица под звук и собирает готовый видеоролик.
На практике качество сильнее всего зависит от исходного фото (чёткий портрет = меньше «пластика» и артефактов) и от аудио (чистая речь без шума = более понятная артикуляция).
Настройки
- Задание - текстом описываете, какой должна быть подача. Например: «спокойная мимика, без резких движений, чёткая артикуляция». Это помогает направить результат, если вам нужна не просто «болталка», а определённый характер.
- Фото - исходное изображение человека (или персонажа), которого нужно «оживить».
- Аудио - запись голоса/речи/пения (до 120 секунд).
- Качество (480p или 720p) - выбираете разрешение итогового видео. 720p выглядит заметно приятнее на лице, но выходит дороже.
Для чего подойдёт
- Озвучить старую фотографию родственника для семейного поздравления (например, короткое «С днём рождения» голосом из аудио).
- Сделать «говорящую голову» для школьного проекта или презентации на работе, когда не хочется записывать себя на камеру.
- Быстро собрать видеовизитку: один портрет + заранее записанный текст.
- Оживить персонажа для короткого ролика: автор читает реплику, а герой «произносит» её на видео.
Ограничения
- Лучше всего работает с портретами анфас. Если лицо сильно повернуто, закрыто волосами/руками, в очках с бликами - могут появляться странности в области рта и глаз.
- Слишком эмоциональная или шумная запись (музыка, эхо, хлопки) иногда ухудшает синхронизацию губ.
- По отзывам пользователей, качество может быть неравномерным: на одних фото получается очень убедительно, на других - заметно проще и «мультяшнее», чем ожидаешь.
Чем отличается от аналогов
По описаниям и сравнительным материалам от авторов, LongCat Avatar старается решать две типичные проблемы «говорящих аватаров»:
- чтобы лицо не менялось со временем (меньше «дрейфа личности»);
- чтобы движения не были деревянными и повторяющимися, особенно на более длинных кусках аудио.
При этом в вашем интерфейсе главный выбор - это баланс цены и качества (480p/720p) и короткая подсказка в поле «Задание», которая помогает задать нужную манеру.