Создаёт говорящее видео: вы загружаете портретное фото и аудио, а на выходе получаете ролик с синхронизацией губ и мимикой. Цена зависит от разрешения: 480p - 3 ₽/сек., 720p - 5 ₽/сек.
SoulX FlashHead - нейросеть для генерации говорящего видео из одного фото и аудио. Вы берёте портрет (лицо крупно) и озвучку - на выходе получаете видео, где человек на фото “говорит”: двигает губами, моргает, слегка меняет выражение лица.
По заявлениям создателей, SoulX FlashHead рассчитана на длинные ролики и умеет работать в режиме “потоком” (streaming), то есть генерировать видео очень быстро и без заметного “сползания лица” со временем (когда в длинных видео человек вдруг начинает выглядеть как другой). Ещё один акцент - скорость: в описании упоминается производительность до 96 кадров в секунду у быстрого варианта модели, что подходит для почти “живых” сценариев, а также поддержка аудио до 30 минут.
Если по-простому, нейросеть слушает вашу речь и по звукам понимает, какие движения губ должны быть в каждый момент. Параллельно она “оживляет” портрет - добавляет естественные микродвижения вроде моргания и лёгких поворотов/кивков, чтобы видео не выглядело как неподвижная картинка с ртом.
Главный упор SoulX FlashHead - на скорость и стабильность на длинных озвучках. В описании подчёркивается режим генерации “потоком” и отсутствие заметной деградации внешности в длинных роликах, из-за чего инструмент больше подходит для длинных начиток и сценариев, где важно, чтобы лицо оставалось узнаваемым от начала и до конца.