Heygen 720p

Оживляет фотографию: делает видео, где человек на снимке двигает губами и говорит под ваше аудио в качестве 720p. Цена: 1 ₽/сек. (минимум 30 рублей, даже если длительность менее 30 секунд).

Описание

Heygen 720p - это нейросеть для формата «говорящее фото»: вы загружаете портрет и аудиофайл, а на выходе получаете видео 720p, где лицо на фотографии «оживает» и синхронно шевелит губами под речь.

По заявлениям HeyGen, их технология умеет делать «talking avatar» из одного фото и использует генеративные кредиты, а также лучше работает, если на изображении один человек (иначе модель может попытаться «синхронизировать губы» сразу нескольким лицам). Ещё у HeyGen есть ограничения по длительности таких роликов в зависимости от плана, а в бесплатном плане экспорт видео заявлен как 720p.

Как это работает

Вы даёте нейросети два входа:

фотографию (лучше крупный, ровный портрет, где лицо хорошо видно)
аудио с голосом

Дальше модель подстраивает движения губ и мимику под звук, чтобы получилось ощущение, что человек действительно произносит этот текст. Это не «перевод голоса» и не «озвучка из текста» - именно липсинк (подгонка губ под готовое аудио).

Настройки

Изображение - портрет, который нужно «оживить». Лучше выбирать фото без сильных поворотов головы, закрытого рта руками, масками или микрофоном.
Аудио - запись голоса, под которую будет говорить персонаж. Чем чище звук (без музыки, эха и шумов), тем естественнее выглядит результат.

Для чего подойдёт

Сделать «говорящее поздравление» из фото родственника: например, короткое видео на день рождения.
Оживить старый портрет для семейного архива - чтобы показать бабушке или детям «как будто человек говорит».
Быстро записать мини-обращение для чата/рассылки, если не хочется сниматься на камеру.
Сделать персонажа для школьного проекта: «историческая фигура рассказывает о себе» (с озвучкой вашим голосом).
Записать короткую инструкцию для коллег: вставить фото-аватар и начитать голосом 20-40 секунд.

Ограничения

Длительность аудио - до 60 секунд, то есть это формат коротких роликов, а не длинных лекций.
Если на фото несколько лиц, результат может быть странным: модель может попытаться «оживить» всех сразу.
Качество ограничено 720p - для крупных планов и публикаций, где важна максимальная чёткость, может не хватить детализации.
Сложные случаи (закрытый рот, сильный профиль, низкое качество фото, сильные эмоции в речи) чаще дают заметную «искусственность» в губах и мимике.

Чем отличается от аналогов

Формат «одно фото + ваше аудио» делает инструмент понятным: не нужно писать текст и подбирать голос - вы просто даёте готовую запись.
У HeyGen акцент на аватарах и видео-генерации: помимо «говорящего фото», у компании есть и более широкие сценарии создания видео с аватарами, но в этом режиме фокус именно на быстрых роликах из изображения.