LongCat Avatar

Создаёт говорящее видео: оживляет лицо на фото и синхронизирует мимику и губы с вашим аудио. Цена: 480p — 7 ₽/сек., 720p — 14 ₽/сек.

Описание

LongCat Avatar - нейросеть, которая делает «говорящее видео» из одного фото и аудиодорожки: вы загружаете портрет, добавляете запись речи (или пения) - и на выходе получаете ролик, где человек на фото говорит вашим голосом.

По заявлениям создателей, LongCat Avatar делает упор на реализм, выразительные движения (не только рот, но и мимика/повороты головы) и стабильность на длинных фрагментах, чтобы внешность не «плыла» по ходу видео. Также подчёркивается сохранение личности (identity сохранение) - то есть лицо должно оставаться узнаваемым кадр за кадром, а губы - попадать в звук.

Как это работает

Всё устроено довольно просто:

вы даёте нейросети исходник - одно фото (лучше портрет, где лицо видно прямо, без сильных теней и закрытого рта рукой);
добавляете аудио;
модель подстраивает движения губ и лица под звук и собирает готовый видеоролик.

На практике качество сильнее всего зависит от исходного фото (чёткий портрет = меньше «пластика» и артефактов) и от аудио (чистая речь без шума = более понятная артикуляция).

Настройки

Задание - текстом описываете, какой должна быть подача. Например: «спокойная мимика, без резких движений, чёткая артикуляция». Это помогает направить результат, если вам нужна не просто «болталка», а определённый характер.
Фото - исходное изображение человека (или персонажа), которого нужно «оживить».
Аудио - запись голоса/речи/пения (до 120 секунд).
Качество (480p или 720p) - выбираете разрешение итогового видео. 720p выглядит заметно приятнее на лице, но выходит дороже.

Для чего подойдёт

Озвучить старую фотографию родственника для семейного поздравления (например, короткое «С днём рождения» голосом из аудио).
Сделать «говорящую голову» для школьного проекта или презентации на работе, когда не хочется записывать себя на камеру.
Быстро собрать видеовизитку: один портрет + заранее записанный текст.
Оживить персонажа для короткого ролика: автор читает реплику, а герой «произносит» её на видео.

Ограничения

Лучше всего работает с портретами анфас. Если лицо сильно повернуто, закрыто волосами/руками, в очках с бликами - могут появляться странности в области рта и глаз.
Слишком эмоциональная или шумная запись (музыка, эхо, хлопки) иногда ухудшает синхронизацию губ.
По отзывам пользователей, качество может быть неравномерным: на одних фото получается очень убедительно, на других - заметно проще и «мультяшнее», чем ожидаешь.

Чем отличается от аналогов

По описаниям и сравнительным материалам от авторов, LongCat Avatar старается решать две типичные проблемы «говорящих аватаров»:

чтобы лицо не менялось со временем (меньше «дрейфа личности»);
чтобы движения не были деревянными и повторяющимися, особенно на более длинных кусках аудио.
При этом в вашем интерфейсе главный выбор - это баланс цены и качества (480p/720p) и короткая подсказка в поле «Задание», которая помогает задать нужную манеру.