InfiniteTalk Video Multi - нейросеть для “озвучки” и правки видео, когда в кадре два человека: один слева, другой справа. Вы загружаете исходный ролик и две отдельные аудиодорожки, а модель подстраивает движение губ, выражение лица и немного мимику/движения под речь - так, будто каждый персонаж реально произносит свой текст.
По заявлениям создателей InfiniteTalk, система заточена под реалистичную синхронизацию речи (lip-sync) и работу с длинными роликами за счёт “sparse-frame” подхода (проще говоря: она не пытается пересчитывать каждый кадр одинаково тяжело, а умно распределяет обработку по ключевым моментам). Для режима Multi разработчики отдельно подчёркивают поддержку нескольких говорящих в одном видео и возможность подать раздельные аудио для разных персонажей.
Как это работает
- Вы даёте нейросети исходное видео - оно служит “основой”: ракурс, свет, фон, движения в кадре.
- Отдельно загружаете два файла со звуком: “аудио слева” и “аудио справа”.
- Нейросеть старается совместить звук и картинку: чтобы у человека слева рот двигался под левую дорожку, а у человека справа - под правую. В зависимости от выбранного порядка дорожки могут звучать одновременно (как диалог), или по очереди.
Важно: лучше всего работают чистые голосовые дорожки без музыки и сильного шума - тогда нейросети проще понять, где именно речь и как под неё двигать губы.
Настройки
- Режим
- Fast - быстрее и дешевле, удобно для черновиков и тестов.
- Обычная - медленнее, но с упором на качество, можно выбрать 480p или 720p.
- Качество (только для режима “Обычная”)
- 480p - компромисс по времени и цене.
- 720p - чётче картинка, но дороже.
- Видео - исходный ролик (MP4/MOV/WebM).
- Аудио слева - голос/реплика персонажа, который находится слева в кадре.
- Аудио справа - голос/реплика персонажа, который находится справа в кадре.
- Порядок
- Одновременно - обе дорожки звучат вместе (удобно для “живого” диалога).
- Слева → справа - сначала говорит левый, потом правый.
- Справа → слева - наоборот.
- Задание - текстовое пожелание (можно оставить пустым), например “улучшить синхронизацию губ” или “сделать эмоции выразительнее”.
Для чего подойдёт
- Озвучить сцену с двумя людьми на другом языке, сохранив впечатление, что они произносят речь сами.
- Сделать диалог для короткого скетча: записать реплики двух персонажей отдельно и “вклеить” их в одно видео.
- Заменить испорченный звук: когда оригинальная дорожка шумная, а переснять видео нельзя.
- Подогнать губы под новый текст в ролике для обучения: например, чтобы “учитель” слева говорил одно, а “ученик” справа отвечал.
Ограничения
- Модель ожидает, что “левый голос” принадлежит человеку слева в кадре, а “правый” - человеку справа. Если персонажи часто меняются местами, перекрывают друг друга или камера резко прыгает между планами, результат может стать хуже.
- Лучше работают понятные крупные лица. Если человек далеко, в профиле, закрыт руками/микрофоном или лицо в тени, синхронизация губ может быть менее аккуратной.
- Музыка, хор, сильный фоновой шум и “перегруженный” микс обычно снижают качество липсинка - по возможности давайте чистую речь.
Чем отличается от похожих инструментов
InfiniteTalk Video Multi выделяется тем, что рассчитан именно на сценарий “двое в кадре - две разные дорожки”, где можно задать порядок проигрывания (одновременно или по очереди). Это удобно для диалогов: не нужно склеивать всё в один общий аудиофайл и надеяться, что нейросеть сама разберётся, кто говорит.