Создаёт говорящее видео: оживляет лицо на фото и синхронизирует мимику и губы с вашим аудио. Цена: 480p — 7 ₽/сек., 720p — 14 ₽/сек.
LongCat Avatar - нейросеть, которая делает «говорящее видео» из одного фото и аудиодорожки: вы загружаете портрет, добавляете запись речи (или пения) - и на выходе получаете ролик, где человек на фото говорит вашим голосом.
По заявлениям создателей, LongCat Avatar делает упор на реализм, выразительные движения (не только рот, но и мимика/повороты головы) и стабильность на длинных фрагментах, чтобы внешность не «плыла» по ходу видео. Также подчёркивается сохранение личности (identity сохранение) - то есть лицо должно оставаться узнаваемым кадр за кадром, а губы - попадать в звук.
Всё устроено довольно просто:
На практике качество сильнее всего зависит от исходного фото (чёткий портрет = меньше «пластика» и артефактов) и от аудио (чистая речь без шума = более понятная артикуляция).
По описаниям и сравнительным материалам от авторов, LongCat Avatar старается решать две типичные проблемы «говорящих аватаров»: