SkyReels V3 Talking Avatar

Создаёт говорящее видео: оживляет портрет на фото и синхронизирует движение губ с вашим аудио. Цена зависит от разрешения: 480p - 5 ₽/сек., 720p - 10 ₽/сек.

Описание

SkyReels V3 Talking Avatar - нейросеть, которая делает «говорящую голову» из обычной фотографии: вы загружаете портрет и короткую озвучку, а на выходе получаете видео, где человек на фото говорит вашим голосом (с липсинком - то есть с движением губ в такт речи).

По заявлениям создателей, модель делает точную синхронизацию губ с аудио и добавляет естественную мимику во время речи. Также подчёркивается, что SkyReels V3 - часть линейки мультимодальных моделей, где умеют работать с изображениями, аудио и видео-референсами, а в «цифровых людях» заявлены сценарии вплоть до диалогов с несколькими персонажами.

Как это работает

Если по-простому, нейросеть «смотрит» на лицо на фото и «слушает» вашу запись. Дальше она по звукам речи подбирает, как должны двигаться губы, челюсть и часть мимики (щёки, брови), и собирает из этого короткий ролик.
Подсказка в тексте (если вы её добавляете) работает как пожелание к подаче - например, сделать выражение лица спокойным, радостным или более серьёзным.

Настройки

Задание - коротко опишите эмоцию, поведение или стиль кадра (например: «говорит уверенно, лёгкая улыбка, смотрит прямо в камеру»).
Фото - лучше всего подходит чёткий портрет анфас, где хорошо видны глаза и рот (без сильных теней, очков с бликами и закрытого лица).
Аудио - ваша озвучка в MP3/WAV. Важно, чтобы голос был без громкой музыки и шума, иначе губы и мимика могут «поплыть».
Качество (480p или 720p) - чем выше, тем более аккуратно выглядят детали лица, но обычно это дороже.

Для чего подойдёт

«Оживить» фото для поздравления: записать 10-15 секунд речи и сделать короткое видео для семьи или друзей.
Быстро записать мини-обращение для рабочего чата: вместо съёмки на камеру - фото + голос.
Сделать персонажа для школьного проекта: историческая личность «рассказывает» пару фраз.
Озвучить мем или шутку: одно и то же фото можно «заставить говорить» разными голосами.

Ограничения

Длина озвучки ограничена 15 секундами - длинные тексты придётся резать на куски и склеивать уже после.
Лучше всего работает с портретами хорошего качества; если лицо маленькое, размытое, закрыто волосами/руками или снято в профиль, результат часто выглядит менее естественно.
Сложные случаи (сильные эмоции, быстрый темп речи, громкий фон в аудио) могут давать артефакты: странные движения рта, «дерганую» мимику или небольшие рассинхроны.