Pruna AI P-Video Avatar

Оживляет фотографию по голосу и создаёт видео с говорящим аватаром, синхронизируя движения губ с аудио. Цена зависит от разрешения: 720p - 4 ₽/сек., 1080p - 8 ₽/сек.

Описание

P-Video Avatar - нейросеть для создания говорящего аватара из одной фотографии. Вы загружаете портрет и аудиофайл, а на выходе получаете видео, где лицо говорит в такт речи.

По описанию модели от Pruna AI, она заточена именно под talking head-видео: сервис делает упор на точную синхронизацию губ с речью, быструю генерацию и низкую цену по сравнению с похожими решениями. В материалах о модели отдельно упоминаются естественные движения лица и возможность использовать как реалистичные портреты, так и стилизованных персонажей.

Разработчики советуют брать чёткое фото анфас или почти анфас, с хорошо видимым лицом и без сильных теней. Для лучшего результата нужен чистый звук без шума на фоне - тогда рот, мимика и ритм речи обычно выглядят убедительнее.

Как это работает

Модель смотрит на фотографию, выделяет лицо и подстраивает движения рта, щёк и нижней части лица под загруженную запись. В результате получается короткое видео, где человек на снимке будто произносит ваш текст своим голосом из аудио.

Лучше всего такой формат работает на портретах, где лицо крупное и ничем не закрыто. С фото в профиль, в тёмных очках, с рукой у лица или с сильным размытием результат обычно слабее - губы могут двигаться менее точно, а мимика выглядеть скованно.

Настройки

Фотография - исходное изображение, которое нейросеть будет оживлять. Лучше брать портрет с одним человеком, где лицо видно крупно и прямо.
Аудио - голос или готовая запись, под которую строится видео. Чем чище запись, тем аккуратнее синхронизация губ.
Задание - текстовая подсказка с эмоцией, манерой речи или поведением аватара. Например: «спокойно объясняет», «говорит бодро, как ведущий» или «улыбается и кивает».
Разрешение - выбор качества видео: 720p подойдёт для быстрых проб и обычных публикаций, 1080p - для более чёткой картинки.

Для чего подойдёт

озвучить фотографию преподавателя для короткого объясняющего ролика
сделать видеообращение из портрета сотрудника, когда есть готовая запись голоса
превратить персонажа или маскота в говорящего героя для рекламы
собрать простое talking head-видео для соцсетей, презентации или карточки товара
оживить нарисованного героя, чтобы он рассказал новость, инструкцию или поздравление

Ограничения

Модель лучше работает с одним лицом в кадре, а не с групповой фотографией.
Сильный поворот головы, волосы на лице, очки с бликами и низкое качество снимка могут испортить результат.
Она делает именно говорящий аватар, а не полноценную сцену с активными движениями всего тела.
Итог сильно зависит от исходного аудио: шум, музыка на фоне, эхо или невнятная дикция ухудшают попадание в речь.
Максимальная длительность аудио в этой форме - до 600 секунд.

Чем отличается от аналогов

P-Video Avatar рассчитана на простой сценарий: взять одно фото и быстро получить говорящего персонажа без сложного монтажа. Её отличие - упор на дешёвую посекундную генерацию и два понятных качества вывода, 720p и 1080p. Это хороший вариант, когда нужен именно аватар с синхронизацией речи, а не большой видеогенератор с кучей кинематографических эффектов.