Оживляет фотографию по голосу и создаёт видео с говорящим аватаром, синхронизируя движения губ с аудио. Цена зависит от разрешения: 720p - 4 ₽/сек., 1080p - 8 ₽/сек.
P-Video Avatar - нейросеть для создания говорящего аватара из одной фотографии. Вы загружаете портрет и аудиофайл, а на выходе получаете видео, где лицо говорит в такт речи.
По описанию модели от Pruna AI, она заточена именно под talking head-видео: сервис делает упор на точную синхронизацию губ с речью, быструю генерацию и низкую цену по сравнению с похожими решениями. В материалах о модели отдельно упоминаются естественные движения лица и возможность использовать как реалистичные портреты, так и стилизованных персонажей.
Разработчики советуют брать чёткое фото анфас или почти анфас, с хорошо видимым лицом и без сильных теней. Для лучшего результата нужен чистый звук без шума на фоне - тогда рот, мимика и ритм речи обычно выглядят убедительнее.
Модель смотрит на фотографию, выделяет лицо и подстраивает движения рта, щёк и нижней части лица под загруженную запись. В результате получается короткое видео, где человек на снимке будто произносит ваш текст своим голосом из аудио.
Лучше всего такой формат работает на портретах, где лицо крупное и ничем не закрыто. С фото в профиль, в тёмных очках, с рукой у лица или с сильным размытием результат обычно слабее - губы могут двигаться менее точно, а мимика выглядеть скованно.
P-Video Avatar рассчитана на простой сценарий: взять одно фото и быстро получить говорящего персонажа без сложного монтажа. Её отличие - упор на дешёвую посекундную генерацию и два понятных качества вывода, 720p и 1080p. Это хороший вариант, когда нужен именно аватар с синхронизацией речи, а не большой видеогенератор с кучей кинематографических эффектов.