SkyReels V3 Talking Avatar

Создаёт говорящее видео: оживляет портрет на фото и синхронизирует движение губ с вашим аудио. Цена зависит от разрешения: 480p - 5 ₽/сек., 720p - 10 ₽/сек.

Перетащите файлы сюда
или нажмите, чтобы выбрать
JPG/JPEG/PNG/GIF/BMP, 1 файл. Используйте портретное изображение хорошего качества.
0/1
Перетащите файлы сюда
или нажмите, чтобы выбрать
MP3/WAV, 1 файл. Максимальная длительность аудио: 15 секунд.
0/1

Описание

SkyReels V3 Talking Avatar - нейросеть, которая делает «говорящую голову» из обычной фотографии: вы загружаете портрет и короткую озвучку, а на выходе получаете видео, где человек на фото говорит вашим голосом (с липсинком - то есть с движением губ в такт речи).

По заявлениям создателей, модель делает точную синхронизацию губ с аудио и добавляет естественную мимику во время речи. Также подчёркивается, что SkyReels V3 - часть линейки мультимодальных моделей, где умеют работать с изображениями, аудио и видео-референсами, а в «цифровых людях» заявлены сценарии вплоть до диалогов с несколькими персонажами.

Как это работает

Если по-простому, нейросеть «смотрит» на лицо на фото и «слушает» вашу запись. Дальше она по звукам речи подбирает, как должны двигаться губы, челюсть и часть мимики (щёки, брови), и собирает из этого короткий ролик.
Подсказка в тексте (если вы её добавляете) работает как пожелание к подаче - например, сделать выражение лица спокойным, радостным или более серьёзным.

Настройки

  • Задание - коротко опишите эмоцию, поведение или стиль кадра (например: «говорит уверенно, лёгкая улыбка, смотрит прямо в камеру»).
  • Фото - лучше всего подходит чёткий портрет анфас, где хорошо видны глаза и рот (без сильных теней, очков с бликами и закрытого лица).
  • Аудио - ваша озвучка в MP3/WAV. Важно, чтобы голос был без громкой музыки и шума, иначе губы и мимика могут «поплыть».
  • Качество (480p или 720p) - чем выше, тем более аккуратно выглядят детали лица, но обычно это дороже.

Для чего подойдёт

  • «Оживить» фото для поздравления: записать 10-15 секунд речи и сделать короткое видео для семьи или друзей.
  • Быстро записать мини-обращение для рабочего чата: вместо съёмки на камеру - фото + голос.
  • Сделать персонажа для школьного проекта: историческая личность «рассказывает» пару фраз.
  • Озвучить мем или шутку: одно и то же фото можно «заставить говорить» разными голосами.

Ограничения

  • Длина озвучки ограничена 15 секундами - длинные тексты придётся резать на куски и склеивать уже после.
  • Лучше всего работает с портретами хорошего качества; если лицо маленькое, размытое, закрыто волосами/руками или снято в профиль, результат часто выглядит менее естественно.
  • Сложные случаи (сильные эмоции, быстрый темп речи, громкий фон в аудио) могут давать артефакты: странные движения рта, «дерганую» мимику или небольшие рассинхроны.