LongCat Avatar

Создаёт говорящее видео: оживляет лицо на фото и синхронизирует мимику и губы с вашим аудио. Цена: 480p — 7 ₽/сек., 720p — 14 ₽/сек.

Перетащите файлы сюда
или нажмите, чтобы выбрать
JPG/JPEG/PNG/WebP/HEIC/HEIF, 1 файл.
0/1
Перетащите файлы сюда
или нажмите, чтобы выбрать
MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл. Длительность: до 120 секунд.
0/1

Описание

LongCat Avatar - нейросеть, которая делает «говорящее видео» из одного фото и аудиодорожки: вы загружаете портрет, добавляете запись речи (или пения) - и на выходе получаете ролик, где человек на фото говорит вашим голосом.

По заявлениям создателей, LongCat Avatar делает упор на реализм, выразительные движения (не только рот, но и мимика/повороты головы) и стабильность на длинных фрагментах, чтобы внешность не «плыла» по ходу видео. Также подчёркивается сохранение личности (identity сохранение) - то есть лицо должно оставаться узнаваемым кадр за кадром, а губы - попадать в звук.

Как это работает

Всё устроено довольно просто:

  1. вы даёте нейросети исходник - одно фото (лучше портрет, где лицо видно прямо, без сильных теней и закрытого рта рукой);
  2. добавляете аудио;
  3. модель подстраивает движения губ и лица под звук и собирает готовый видеоролик.

На практике качество сильнее всего зависит от исходного фото (чёткий портрет = меньше «пластика» и артефактов) и от аудио (чистая речь без шума = более понятная артикуляция).

Настройки

  • Задание - текстом описываете, какой должна быть подача. Например: «спокойная мимика, без резких движений, чёткая артикуляция». Это помогает направить результат, если вам нужна не просто «болталка», а определённый характер.
  • Фото - исходное изображение человека (или персонажа), которого нужно «оживить».
  • Аудио - запись голоса/речи/пения (до 120 секунд).
  • Качество (480p или 720p) - выбираете разрешение итогового видео. 720p выглядит заметно приятнее на лице, но выходит дороже.

Для чего подойдёт

  • Озвучить старую фотографию родственника для семейного поздравления (например, короткое «С днём рождения» голосом из аудио).
  • Сделать «говорящую голову» для школьного проекта или презентации на работе, когда не хочется записывать себя на камеру.
  • Быстро собрать видеовизитку: один портрет + заранее записанный текст.
  • Оживить персонажа для короткого ролика: автор читает реплику, а герой «произносит» её на видео.

Ограничения

  • Лучше всего работает с портретами анфас. Если лицо сильно повернуто, закрыто волосами/руками, в очках с бликами - могут появляться странности в области рта и глаз.
  • Слишком эмоциональная или шумная запись (музыка, эхо, хлопки) иногда ухудшает синхронизацию губ.
  • По отзывам пользователей, качество может быть неравномерным: на одних фото получается очень убедительно, на других - заметно проще и «мультяшнее», чем ожидаешь.

Чем отличается от аналогов

По описаниям и сравнительным материалам от авторов, LongCat Avatar старается решать две типичные проблемы «говорящих аватаров»:

  • чтобы лицо не менялось со временем (меньше «дрейфа личности»);
  • чтобы движения не были деревянными и повторяющимися, особенно на более длинных кусках аудио.
    При этом в вашем интерфейсе главный выбор - это баланс цены и качества (480p/720p) и короткая подсказка в поле «Задание», которая помогает задать нужную манеру.