InfiniteTalk

Создаёт видео, где человек на фото “говорит” или “поёт” в такт вашему аудио, с мимикой и движениями головы. Стоимость от 3 до 10 рублей за секунду в зависимости от выбранного режима.

InfiniteTalk - это нейросеть для “говорящего фото”: вы загружаете портрет и аудиодорожку (речь или пение), а на выходе получаете видео, где персонаж двигает губами в точной синхронизации со звуком и выглядит живо, а не как “кукла”.

Как это работает

Если по-простому, InfiniteTalk “слушает” ваше аудио и по нему анимирует лицо на фотографии: подбирает движения губ под звуки речи, добавляет естественные микродвижения (лёгкая мимика, небольшие повороты головы), чтобы видео не выглядело статичным. Главная идея инструмента - стабильность на длинных дорожках: чтобы лицо не “плывло” и не менялось со временем, даже если аудио длинное.

Настройки

Задание - текстовая подсказка, как должен вести себя персонаж. Например: “спокойная речь, лёгкая улыбка, минимум мимики” или “эмоционально, активная мимика”.
Фото - одно изображение, из которого делается говорящий персонаж. Обычно лучше работают крупные портреты, где хорошо видно лицо.
Аудио - ваша запись голоса или песня, под которую будет идти синхронизация губ.
Разрешение (480p / 720p) - качество итогового видео. 480p обычно хватает для мессенджеров и черновиков, 720p лучше, если хотите, чтобы лицо выглядело аккуратнее.

Для чего подойдёт

“Оживить” семейное фото: записать поздравление голосом и сделать говорящий ролик для праздника.
Сделать видео-обращение для школьного проекта или презентации, когда не хочется записывать себя на камеру.
Озвучить персонажа для короткого ролика: например, чтобы “говорила” иллюстрация или аватар.
Сделать липсинк под песню: взять портрет и превратить его в мини-клип, где персонаж поёт под вашу дорожку.

Ограничения

Качество сильно зависит от исходного фото: если лицо маленькое, размытое, в профиль или закрыто волосами/рукой, синхронизация и мимика будут хуже.
Если аудио с шумами, эхом или “глотанием” слов, губы могут попадать в такт менее точно.
Инструмент делает именно говорящую/поющую анимацию; он не заменяет полноценную съёмку с движениями всего тела и сложной актёрской игрой.