InfiniteTalk Multi

Создаёт говорящее видео по одному фото, синхронизируя речь двух людей по двум аудиодорожкам (слева и справа). Цена: Fast 480p - 3 ₽/сек., Standard 480p - 5 ₽/сек., Standard 720p - 10 ₽/сек.

Тип генерации*

Качество*

Задание

0 / 2000

Фото*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

JPEG/PNG/WebP/HEIC/HEIF, 1 файл, до 10 МБ.

0/1

Аудио слева*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл, до 100 МБ.

0/1

Аудио справа*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл, до 100 МБ.

0/1

Порядок*

Описание

InfiniteTalk Multi - нейросеть, которая делает «разговорное» видео из одного изображения: вы загружаете фото (обычно с двумя персонажами) и два аудиофайла, а на выходе получаете ролик, где мимика и движение губ совпадают с речью.

По заявлениям создателей, InfiniteTalk Multi умеет делать реалистичную синхронизацию губ для двух говорящих/поющих персонажей, добавляет выражения лица и небольшие движения, а ещё старается сохранять внешность персонажей стабильной на протяжении всего видео. Также они подчёркивают сценарии «диалога» и «дуэта» - когда голоса могут идти одновременно или по очереди.

Как это работает

Вы даёте системе:

фото с персонажами (часто это два человека в одном кадре),
«Аудио слева» и «Аудио справа» (две отдельные дорожки речи или вокала),
при желании - текстовое задание, чтобы подсказать настроение и поведение.

Дальше нейросеть «привязывает» каждую аудиодорожку к своему персонажу и анимирует лицо: губы, мимику и небольшие движения так, чтобы выглядело как живая беседа.

Настройки

Тип генерации - Standard (обычный режим) или Fast (быстрее, но с меньшим выбором качества).
Качество - 480p или 720p (в режиме Fast обычно доступно только 480p).
Задание - необязательная подсказка словами: например «спокойная речь, лёгкая улыбка, минимум мимики». Это помогает, когда хотите не просто «говорящую голову», а более конкретное настроение.
Фото - картинка, по которой будет сделано видео.
Аудио слева / Аудио справа - две дорожки для двух персонажей (обычно удобнее, когда в каждой дорожке один голос без наложений).
Порядок - как проигрывать дорожки: одновременно или по очереди (сначала левый, потом правый - или наоборот).

Для чего подойдёт

Сделать «интервью» из двух голосовых сообщений: один человек спрашивает, второй отвечает.
Оживить семейное фото (или рисунок) и записать диалог-поздравление: «мама говорит одно, папа - другое».
Сделать обучающий мини-ролик «учитель-ученик», где вопросы и ответы заранее записаны отдельными файлами.
Сымитировать подкаст: два ведущих, два микрофона (две дорожки), одна обложка-фотография - и готов видеодиалог.
Сделать дуэт: две вокальные дорожки и один кадр с двумя «исполнителями».

Ограничения

Лучше всего работает, когда на фото персонажи хорошо видны спереди, без сильных поворотов головы, закрытого рта рукой, волосами или предметами.
Если в аудио шум, эхо или два голоса в одной дорожке, синхронизация может выглядеть хуже (рту «не за что зацепиться»).
При «одновременном» режиме иногда заметно, что оба персонажа активничают не так естественно, как в реальной перебивке реплик - обычно более правдоподобно звучит и выглядит режим по очереди.
В слишком эмоциональной речи (крик, смех, сильные паузы) мимика может быть не всегда убедительной - особенно на сложных ракурсах лица.

Чем отличается от аналогов

InfiniteTalk Multi заточен именно под сценарий «два спикера - две дорожки» и даёт простой контроль порядка реплик (одновременно или по очереди). Это удобно, когда у вас уже есть два готовых аудиофайла и нужно быстро превратить их в видеодиалог по одному изображению, без сложного монтажа.