InfiniteTalk Video Multi

Меняет исходное видео так, чтобы два персонажа (слева и справа в кадре) говорили или пели по двум отдельным аудиодорожкам, с подгонкой губ и мимики под звук. Цена: Fast - 3 ₽/сек., Обычная 480p - 6 ₽/сек., Обычная 720p - 12 ₽/сек.

Режим*

Видео*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP4/MOV/WebM, 1 файл.

0/1

Аудио слева*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл. Дорожка персонажа слева в кадре. Лучше без музыки и шума.

0/1

Аудио справа*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл. Дорожка персонажа справа в кадре. Лучше без музыки и шума.

0/1

Порядок*

Задание

0 / 2000

Описание

InfiniteTalk Video Multi - нейросеть для “озвучки” и правки видео, когда в кадре два человека: один слева, другой справа. Вы загружаете исходный ролик и две отдельные аудиодорожки, а модель подстраивает движение губ, выражение лица и немного мимику/движения под речь - так, будто каждый персонаж реально произносит свой текст.

По заявлениям создателей InfiniteTalk, система заточена под реалистичную синхронизацию речи (lip-sync) и работу с длинными роликами за счёт “sparse-frame” подхода (проще говоря: она не пытается пересчитывать каждый кадр одинаково тяжело, а умно распределяет обработку по ключевым моментам). Для режима Multi разработчики отдельно подчёркивают поддержку нескольких говорящих в одном видео и возможность подать раздельные аудио для разных персонажей.

Как это работает

Вы даёте нейросети исходное видео - оно служит “основой”: ракурс, свет, фон, движения в кадре.
Отдельно загружаете два файла со звуком: “аудио слева” и “аудио справа”.
Нейросеть старается совместить звук и картинку: чтобы у человека слева рот двигался под левую дорожку, а у человека справа - под правую. В зависимости от выбранного порядка дорожки могут звучать одновременно (как диалог), или по очереди.

Важно: лучше всего работают чистые голосовые дорожки без музыки и сильного шума - тогда нейросети проще понять, где именно речь и как под неё двигать губы.

Настройки

Режим
- Fast - быстрее и дешевле, удобно для черновиков и тестов.
- Обычная - медленнее, но с упором на качество, можно выбрать 480p или 720p.
Качество (только для режима “Обычная”)
- 480p - компромисс по времени и цене.
- 720p - чётче картинка, но дороже.
Видео - исходный ролик (MP4/MOV/WebM).
Аудио слева - голос/реплика персонажа, который находится слева в кадре.
Аудио справа - голос/реплика персонажа, который находится справа в кадре.
Порядок
- Одновременно - обе дорожки звучат вместе (удобно для “живого” диалога).
- Слева → справа - сначала говорит левый, потом правый.
- Справа → слева - наоборот.
Задание - текстовое пожелание (можно оставить пустым), например “улучшить синхронизацию губ” или “сделать эмоции выразительнее”.

Для чего подойдёт

Озвучить сцену с двумя людьми на другом языке, сохранив впечатление, что они произносят речь сами.
Сделать диалог для короткого скетча: записать реплики двух персонажей отдельно и “вклеить” их в одно видео.
Заменить испорченный звук: когда оригинальная дорожка шумная, а переснять видео нельзя.
Подогнать губы под новый текст в ролике для обучения: например, чтобы “учитель” слева говорил одно, а “ученик” справа отвечал.

Ограничения

Модель ожидает, что “левый голос” принадлежит человеку слева в кадре, а “правый” - человеку справа. Если персонажи часто меняются местами, перекрывают друг друга или камера резко прыгает между планами, результат может стать хуже.
Лучше работают понятные крупные лица. Если человек далеко, в профиле, закрыт руками/микрофоном или лицо в тени, синхронизация губ может быть менее аккуратной.
Музыка, хор, сильный фоновой шум и “перегруженный” микс обычно снижают качество липсинка - по возможности давайте чистую речь.

Чем отличается от похожих инструментов

InfiniteTalk Video Multi выделяется тем, что рассчитан именно на сценарий “двое в кадре - две разные дорожки”, где можно задать порядок проигрывания (одновременно или по очереди). Это удобно для диалогов: не нужно склеивать всё в один общий аудиофайл и надеяться, что нейросеть сама разберётся, кто говорит.