SkyReels V3 Talking Avatar
Создаёт говорящее видео: оживляет портрет на фото и синхронизирует движение губ с вашим аудио. Цена зависит от разрешения: 480p - 5 ₽/сек., 720p - 10 ₽/сек.
Описание
SkyReels V3 Talking Avatar - нейросеть, которая делает «говорящую голову» из обычной фотографии: вы загружаете портрет и короткую озвучку, а на выходе получаете видео, где человек на фото говорит вашим голосом (с липсинком - то есть с движением губ в такт речи).
По заявлениям создателей, модель делает точную синхронизацию губ с аудио и добавляет естественную мимику во время речи. Также подчёркивается, что SkyReels V3 - часть линейки мультимодальных моделей, где умеют работать с изображениями, аудио и видео-референсами, а в «цифровых людях» заявлены сценарии вплоть до диалогов с несколькими персонажами.
Как это работает
Если по-простому, нейросеть «смотрит» на лицо на фото и «слушает» вашу запись. Дальше она по звукам речи подбирает, как должны двигаться губы, челюсть и часть мимики (щёки, брови), и собирает из этого короткий ролик.
Подсказка в тексте (если вы её добавляете) работает как пожелание к подаче - например, сделать выражение лица спокойным, радостным или более серьёзным.
Настройки
- Задание - коротко опишите эмоцию, поведение или стиль кадра (например: «говорит уверенно, лёгкая улыбка, смотрит прямо в камеру»).
- Фото - лучше всего подходит чёткий портрет анфас, где хорошо видны глаза и рот (без сильных теней, очков с бликами и закрытого лица).
- Аудио - ваша озвучка в MP3/WAV. Важно, чтобы голос был без громкой музыки и шума, иначе губы и мимика могут «поплыть».
- Качество (480p или 720p) - чем выше, тем более аккуратно выглядят детали лица, но обычно это дороже.
Для чего подойдёт
- «Оживить» фото для поздравления: записать 10-15 секунд речи и сделать короткое видео для семьи или друзей.
- Быстро записать мини-обращение для рабочего чата: вместо съёмки на камеру - фото + голос.
- Сделать персонажа для школьного проекта: историческая личность «рассказывает» пару фраз.
- Озвучить мем или шутку: одно и то же фото можно «заставить говорить» разными голосами.
Ограничения
- Длина озвучки ограничена 15 секундами - длинные тексты придётся резать на куски и склеивать уже после.
- Лучше всего работает с портретами хорошего качества; если лицо маленькое, размытое, закрыто волосами/руками или снято в профиль, результат часто выглядит менее естественно.
- Сложные случаи (сильные эмоции, быстрый темп речи, громкий фон в аудио) могут давать артефакты: странные движения рта, «дерганую» мимику или небольшие рассинхроны.