SoulX FlashHead

Создаёт говорящее видео: вы загружаете портретное фото и аудио, а на выходе получаете ролик с синхронизацией губ и мимикой. Цена зависит от разрешения: 480p - 3 ₽/сек., 720p - 5 ₽/сек.

Описание

SoulX FlashHead - нейросеть для генерации говорящего видео из одного фото и аудио. Вы берёте портрет (лицо крупно) и озвучку - на выходе получаете видео, где человек на фото “говорит”: двигает губами, моргает, слегка меняет выражение лица.

По заявлениям создателей, SoulX FlashHead рассчитана на длинные ролики и умеет работать в режиме “потоком” (streaming), то есть генерировать видео очень быстро и без заметного “сползания лица” со временем (когда в длинных видео человек вдруг начинает выглядеть как другой). Ещё один акцент - скорость: в описании упоминается производительность до 96 кадров в секунду у быстрого варианта модели, что подходит для почти “живых” сценариев, а также поддержка аудио до 30 минут.

Как это работает

Если по-простому, нейросеть слушает вашу речь и по звукам понимает, какие движения губ должны быть в каждый момент. Параллельно она “оживляет” портрет - добавляет естественные микродвижения вроде моргания и лёгких поворотов/кивков, чтобы видео не выглядело как неподвижная картинка с ртом.

Настройки

Фото - загрузите 1 портрет. Лучше всего работают снимки, где лицо хорошо видно, без сильных наклонов, рук у лица и плотных очков с бликами.
Аудио - загрузите 1 файл с речью (до 30 минут). Чем чище запись (без музыки и шума), тем аккуратнее липсинк (совпадение губ с речью).
Качество - 480p или 720p. 480p обычно хватает для черновиков и мессенджеров, 720p - если нужно поаккуратнее для публикаций.

Для чего подойдёт

“Оживить” старую фотографию родственника и сделать короткое поздравление голосом.
Быстро собрать видео-объяснение для школьного проекта: один портрет + начитанный текст.
Сделать говорящего персонажа для обучения или инструкции (например, “сотрудник” объясняет правила).
Озвучить презентацию: вместо “говорящей головы” с веб-камеры - аккуратный портрет с вашим голосом.

Ограничения

Лучше всего получается именно портретное “говорящее лицо”. Если на фото человек в профиль, лицо закрыто волосами/руками или сильно размыто - качество заметно падает.
Нейросеть повторяет то, что слышит: шумная запись, музыка на фоне, сильная компрессия - всё это может дать странные движения губ.
Это не “полноценное кино” - обычно анимируется голова и мимика, а не тело, жесты и активные движения в кадре.

Чем отличается от аналогов

Главный упор SoulX FlashHead - на скорость и стабильность на длинных озвучках. В описании подчёркивается режим генерации “потоком” и отсутствие заметной деградации внешности в длинных роликах, из-за чего инструмент больше подходит для длинных начиток и сценариев, где важно, чтобы лицо оставалось узнаваемым от начала и до конца.