Heygen 720p
Оживляет фотографию: делает видео, где человек на снимке двигает губами и говорит под ваше аудио в качестве 720p. Цена: 0,4 ₽/сек. (аудио 1-60 сек., округление до целой секунды вверх).
Описание
Heygen 720p - это нейросеть для формата «говорящее фото»: вы загружаете портрет и аудиофайл, а на выходе получаете видео 720p, где лицо на фотографии «оживает» и синхронно шевелит губами под речь.
По заявлениям HeyGen, их технология умеет делать «talking avatar» из одного фото и использует генеративные кредиты, а также лучше работает, если на изображении один человек (иначе модель может попытаться «синхронизировать губы» сразу нескольким лицам). Ещё у HeyGen есть ограничения по длительности таких роликов в зависимости от плана, а в бесплатном плане экспорт видео заявлен как 720p.
Как это работает
Вы даёте нейросети два входа:
- фотографию (лучше крупный, ровный портрет, где лицо хорошо видно)
- аудио с голосом
Дальше модель подстраивает движения губ и мимику под звук, чтобы получилось ощущение, что человек действительно произносит этот текст. Это не «перевод голоса» и не «озвучка из текста» - именно липсинк (подгонка губ под готовое аудио).
Настройки
- Изображение - портрет, который нужно «оживить». Лучше выбирать фото без сильных поворотов головы, закрытого рта руками, масками или микрофоном.
- Аудио - запись голоса, под которую будет говорить персонаж. Чем чище звук (без музыки, эха и шумов), тем естественнее выглядит результат.
Для чего подойдёт
- Сделать «говорящее поздравление» из фото родственника: например, короткое видео на день рождения.
- Оживить старый портрет для семейного архива - чтобы показать бабушке или детям «как будто человек говорит».
- Быстро записать мини-обращение для чата/рассылки, если не хочется сниматься на камеру.
- Сделать персонажа для школьного проекта: «историческая фигура рассказывает о себе» (с озвучкой вашим голосом).
- Записать короткую инструкцию для коллег: вставить фото-аватар и начитать голосом 20-40 секунд.
Ограничения
- Длительность аудио - до 60 секунд, то есть это формат коротких роликов, а не длинных лекций.
- Если на фото несколько лиц, результат может быть странным: модель может попытаться «оживить» всех сразу.
- Качество ограничено 720p - для крупных планов и публикаций, где важна максимальная чёткость, может не хватить детализации.
- Сложные случаи (закрытый рот, сильный профиль, низкое качество фото, сильные эмоции в речи) чаще дают заметную «искусственность» в губах и мимике.
Чем отличается от аналогов
- Формат «одно фото + ваше аудио» делает инструмент понятным: не нужно писать текст и подбирать голос - вы просто даёте готовую запись.
- У HeyGen акцент на аватарах и видео-генерации: помимо «говорящего фото», у компании есть и более широкие сценарии создания видео с аватарами, но в этом режиме фокус именно на быстрых роликах из изображения.