SoulX FlashHead

Создаёт говорящее видео: вы загружаете портретное фото и аудио, а на выходе получаете ролик с синхронизацией губ и мимикой. Цена зависит от разрешения: 480p - 3 ₽/сек., 720p - 5 ₽/сек.

Перетащите файлы сюда
или нажмите, чтобы выбрать
Поддерживаются JPG/JPEG/PNG/WebP/HEIC/HEIF. Загрузите 1 портретное фото.
0/1
Перетащите файлы сюда
или нажмите, чтобы выбрать
Поддерживаются MP3/WAV/M4A/AAC/FLAC/OGG/OPUS. До 30 минут, 1 файл.
0/1

Описание

SoulX FlashHead - нейросеть для генерации говорящего видео из одного фото и аудио. Вы берёте портрет (лицо крупно) и озвучку - на выходе получаете видео, где человек на фото “говорит”: двигает губами, моргает, слегка меняет выражение лица.

По заявлениям создателей, SoulX FlashHead рассчитана на длинные ролики и умеет работать в режиме “потоком” (streaming), то есть генерировать видео очень быстро и без заметного “сползания лица” со временем (когда в длинных видео человек вдруг начинает выглядеть как другой). Ещё один акцент - скорость: в описании упоминается производительность до 96 кадров в секунду у быстрого варианта модели, что подходит для почти “живых” сценариев, а также поддержка аудио до 30 минут.

Как это работает

Если по-простому, нейросеть слушает вашу речь и по звукам понимает, какие движения губ должны быть в каждый момент. Параллельно она “оживляет” портрет - добавляет естественные микродвижения вроде моргания и лёгких поворотов/кивков, чтобы видео не выглядело как неподвижная картинка с ртом.

Настройки

  • Фото - загрузите 1 портрет. Лучше всего работают снимки, где лицо хорошо видно, без сильных наклонов, рук у лица и плотных очков с бликами.
  • Аудио - загрузите 1 файл с речью (до 30 минут). Чем чище запись (без музыки и шума), тем аккуратнее липсинк (совпадение губ с речью).
  • Качество - 480p или 720p. 480p обычно хватает для черновиков и мессенджеров, 720p - если нужно поаккуратнее для публикаций.

Для чего подойдёт

  • “Оживить” старую фотографию родственника и сделать короткое поздравление голосом.
  • Быстро собрать видео-объяснение для школьного проекта: один портрет + начитанный текст.
  • Сделать говорящего персонажа для обучения или инструкции (например, “сотрудник” объясняет правила).
  • Озвучить презентацию: вместо “говорящей головы” с веб-камеры - аккуратный портрет с вашим голосом.

Ограничения

  • Лучше всего получается именно портретное “говорящее лицо”. Если на фото человек в профиль, лицо закрыто волосами/руками или сильно размыто - качество заметно падает.
  • Нейросеть повторяет то, что слышит: шумная запись, музыка на фоне, сильная компрессия - всё это может дать странные движения губ.
  • Это не “полноценное кино” - обычно анимируется голова и мимика, а не тело, жесты и активные движения в кадре.

Чем отличается от аналогов

Главный упор SoulX FlashHead - на скорость и стабильность на длинных озвучках. В описании подчёркивается режим генерации “потоком” и отсутствие заметной деградации внешности в длинных роликах, из-за чего инструмент больше подходит для длинных начиток и сценариев, где важно, чтобы лицо оставалось узнаваемым от начала и до конца.