Создаёт видео с двумя говорящими персонажами из одной фотографии и двух аудиодорожек, синхронизируя речь и мимику. Цена зависит от разрешения: 480p - 6 ₽/сек., 720p - 12 ₽/сек.
LongCat Avatar 1.5 Multi - это модель для генерации видео с говорящими аватарами, созданная командой Meituan LongCat. Она берёт одно фото, где есть два человека, и две отдельные аудиодорожки, после чего собирает ролик, в котором персонажи разговаривают, слушают друг друга и двигаются в кадре.
По заявлениям создателей, версия 1.5 рассчитана не только на обычный липсинк, но и на более сложные сцены: диалоги между несколькими персонажами, пение, анимацию стилизованных героев и длинные ролики с сохранением внешности персонажа от кадра к кадру. Разработчики отдельно делают упор на стабильность видео, выразительные движения и корректное поведение говорящего и слушающего в одной сцене.
Авторы модели утверждают, что она заточена под реальные задачи, а не только под красивые демо. В описании модели упоминаются сценарии для презентаций, интервью, рекламы, разговорных роликов и анимированных персонажей. Для формата Multi это особенно полезно, когда нужно оживить сразу двух людей на одном фото, а не собирать сцену из двух отдельных видео.
Схема простая: вы загружаете фотографию с двумя людьми, отдельно добавляете аудио для левого и правого персонажа, а модель распределяет речь по сторонам. Дальше она синхронизирует движение губ, мимику и часть жестов с голосом, чтобы получилось похоже на живой разговор.
У этой версии есть важная особенность - она умеет работать с несколькими аудиопотоками. За счёт этого можно сделать сцену, где персонажи говорят одновременно или по очереди. Для диалогов это заметно удобнее, чем модели, которые рассчитаны только на одного говорящего в кадре.
Цена считается по длительности аудио: 480p - 6 ₽ за секунду, 720p - 12 ₽ за секунду. В расчёт берётся суммарная длина двух дорожек, максимум 64 секунды.
Лучше всего модель работает на фото, где лица видны ясно, люди не обрезаны и стоят более-менее фронтально. На сложных снимках - например, когда один человек закрывает другого, голова сильно повёрнута или лицо в тени - результат может выглядеть менее естественно.
Нужно учитывать и формат самого инструмента: здесь поддерживается ровно одна картинка и две аудиодорожки. Длина тарифицируемого материала ограничена 64 секундами, а разрешение - только 480p или 720p. Для длинных сцен, большого числа персонажей или точечной ручной режиссуры этого уже может не хватить.
Главное отличие LongCat Avatar 1.5 Multi от обычных talking head-моделей в том, что он заточен под сцены с несколькими персонажами и отдельными голосами. Многие похожие инструменты анимируют одного человека крупным планом, а здесь акцент сделан на диалог внутри одного кадра - с разделением ролей говорящего и слушающего.
Ещё один заметный момент - разработчики продвигают версию 1.5 как более стабильную и пригодную для практического использования. То есть упор сделан не только на движение губ, но и на то, чтобы персонажи сохраняли внешний вид в течение ролика и не "плыли" от кадра к кадру.