LongCat Avatar 1.5 Multi

Создаёт видео с двумя говорящими персонажами из одной фотографии и двух аудиодорожек, синхронизируя речь и мимику. Цена зависит от разрешения: 480p - 6 ₽/сек., 720p - 12 ₽/сек.

Изображение*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

JPG/JPEG/PNG/WebP/HEIC/HEIF, 1 файл. На фото должны быть два человека: слева и справа.

0/1

Аудио слева*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл. Для расчёта цены учитывается суммарная длительность двух аудио, но не больше 64 секунд.

0/1

Аудио справа*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл. Если сумма двух дорожек больше 64 секунд, лишняя часть автоматически не учитывается в цене.

0/1

Порядок речи*

Разрешение*

Задание

0 / 2000

Описание

LongCat Avatar 1.5 Multi - это модель для генерации видео с говорящими аватарами, созданная командой Meituan LongCat. Она берёт одно фото, где есть два человека, и две отдельные аудиодорожки, после чего собирает ролик, в котором персонажи разговаривают, слушают друг друга и двигаются в кадре.

По заявлениям создателей, версия 1.5 рассчитана не только на обычный липсинк, но и на более сложные сцены: диалоги между несколькими персонажами, пение, анимацию стилизованных героев и длинные ролики с сохранением внешности персонажа от кадра к кадру. Разработчики отдельно делают упор на стабильность видео, выразительные движения и корректное поведение говорящего и слушающего в одной сцене.

Авторы модели утверждают, что она заточена под реальные задачи, а не только под красивые демо. В описании модели упоминаются сценарии для презентаций, интервью, рекламы, разговорных роликов и анимированных персонажей. Для формата Multi это особенно полезно, когда нужно оживить сразу двух людей на одном фото, а не собирать сцену из двух отдельных видео.

Как это работает

Схема простая: вы загружаете фотографию с двумя людьми, отдельно добавляете аудио для левого и правого персонажа, а модель распределяет речь по сторонам. Дальше она синхронизирует движение губ, мимику и часть жестов с голосом, чтобы получилось похоже на живой разговор.

У этой версии есть важная особенность - она умеет работать с несколькими аудиопотоками. За счёт этого можно сделать сцену, где персонажи говорят одновременно или по очереди. Для диалогов это заметно удобнее, чем модели, которые рассчитаны только на одного говорящего в кадре.

Настройки

Изображение - одно фото с двумя людьми. Лучше брать снимок, где один человек явно слева, а второй справа, без сильных перекрытий.
Аудио слева - голос или реплика для персонажа с левой стороны.
Аудио справа - отдельная дорожка для персонажа справа.
Порядок речи - можно включить одновременное звучание двух дорожек или задать очередь: сначала левый, потом правый, либо наоборот.
Разрешение - 480p или 720p. Для черновиков и тестов обычно хватает 480p, для публикации лучше смотреть на 720p.
Задание - текстовая подсказка для характера движений и эмоций, например спокойная мимика, лёгкая улыбка, более живая подача.

Цена считается по длительности аудио: 480p - 6 ₽ за секунду, 720p - 12 ₽ за секунду. В расчёт берётся суммарная длина двух дорожек, максимум 64 секунды.

Для чего подойдёт

сделать сцену диалога из обычной фотографии, чтобы два человека спорили, обсуждали новость или разыгрывали шутку
оживить семейное или дружеское фото для поздравления с двумя голосами
собрать ролик для соцсетей, где один герой задаёт вопрос, а второй отвечает
записать мини-интервью, подкастовый фрагмент или рекламный разговор без съёмок
сделать разговор двух нарисованных персонажей, когда нужно быстро показать сцену без анимации вручную

Ограничения

Лучше всего модель работает на фото, где лица видны ясно, люди не обрезаны и стоят более-менее фронтально. На сложных снимках - например, когда один человек закрывает другого, голова сильно повёрнута или лицо в тени - результат может выглядеть менее естественно.

Нужно учитывать и формат самого инструмента: здесь поддерживается ровно одна картинка и две аудиодорожки. Длина тарифицируемого материала ограничена 64 секундами, а разрешение - только 480p или 720p. Для длинных сцен, большого числа персонажей или точечной ручной режиссуры этого уже может не хватить.

Чем отличается от аналогов

Главное отличие LongCat Avatar 1.5 Multi от обычных talking head-моделей в том, что он заточен под сцены с несколькими персонажами и отдельными голосами. Многие похожие инструменты анимируют одного человека крупным планом, а здесь акцент сделан на диалог внутри одного кадра - с разделением ролей говорящего и слушающего.

Ещё один заметный момент - разработчики продвигают версию 1.5 как более стабильную и пригодную для практического использования. То есть упор сделан не только на движение губ, но и на то, чтобы персонажи сохраняли внешний вид в течение ролика и не "плыли" от кадра к кадру.