InfiniteTalk Multi

Создаёт говорящее видео по одному фото, синхронизируя речь двух людей по двум аудиодорожкам (слева и справа). Цена: Fast 480p - 3 ₽/сек., Standard 480p - 5 ₽/сек., Standard 720p - 10 ₽/сек.

0/1
0/1
0/1

Описание

InfiniteTalk Multi - нейросеть, которая делает «разговорное» видео из одного изображения: вы загружаете фото (обычно с двумя персонажами) и два аудиофайла, а на выходе получаете ролик, где мимика и движение губ совпадают с речью.

По заявлениям создателей, InfiniteTalk Multi умеет делать реалистичную синхронизацию губ для двух говорящих/поющих персонажей, добавляет выражения лица и небольшие движения, а ещё старается сохранять внешность персонажей стабильной на протяжении всего видео. Также они подчёркивают сценарии «диалога» и «дуэта» - когда голоса могут идти одновременно или по очереди.

Как это работает

Вы даёте системе:

  • фото с персонажами (часто это два человека в одном кадре),
  • «Аудио слева» и «Аудио справа» (две отдельные дорожки речи или вокала),
  • при желании - текстовое задание, чтобы подсказать настроение и поведение.

Дальше нейросеть «привязывает» каждую аудиодорожку к своему персонажу и анимирует лицо: губы, мимику и небольшие движения так, чтобы выглядело как живая беседа.

Настройки

  • Тип генерации - Standard (обычный режим) или Fast (быстрее, но с меньшим выбором качества).
  • Качество - 480p или 720p (в режиме Fast обычно доступно только 480p).
  • Задание - необязательная подсказка словами: например «спокойная речь, лёгкая улыбка, минимум мимики». Это помогает, когда хотите не просто «говорящую голову», а более конкретное настроение.
  • Фото - картинка, по которой будет сделано видео.
  • Аудио слева / Аудио справа - две дорожки для двух персонажей (обычно удобнее, когда в каждой дорожке один голос без наложений).
  • Порядок - как проигрывать дорожки: одновременно или по очереди (сначала левый, потом правый - или наоборот).

Для чего подойдёт

  • Сделать «интервью» из двух голосовых сообщений: один человек спрашивает, второй отвечает.
  • Оживить семейное фото (или рисунок) и записать диалог-поздравление: «мама говорит одно, папа - другое».
  • Сделать обучающий мини-ролик «учитель-ученик», где вопросы и ответы заранее записаны отдельными файлами.
  • Сымитировать подкаст: два ведущих, два микрофона (две дорожки), одна обложка-фотография - и готов видеодиалог.
  • Сделать дуэт: две вокальные дорожки и один кадр с двумя «исполнителями».

Ограничения

  • Лучше всего работает, когда на фото персонажи хорошо видны спереди, без сильных поворотов головы, закрытого рта рукой, волосами или предметами.
  • Если в аудио шум, эхо или два голоса в одной дорожке, синхронизация может выглядеть хуже (рту «не за что зацепиться»).
  • При «одновременном» режиме иногда заметно, что оба персонажа активничают не так естественно, как в реальной перебивке реплик - обычно более правдоподобно звучит и выглядит режим по очереди.
  • В слишком эмоциональной речи (крик, смех, сильные паузы) мимика может быть не всегда убедительной - особенно на сложных ракурсах лица.

Чем отличается от аналогов

InfiniteTalk Multi заточен именно под сценарий «два спикера - две дорожки» и даёт простой контроль порядка реплик (одновременно или по очереди). Это удобно, когда у вас уже есть два готовых аудиофайла и нужно быстро превратить их в видеодиалог по одному изображению, без сложного монтажа.

Мы используем файлы cookie и данные сервисов веб-аналитики, собираемые посредством «Яндекс Метрика». Продолжая использовать сайт, Вы соглашаетесь с обработкой таких данных на условиях Политики обработки в отношении файлов cookie.