Heygen Lipsync V3

Синхронизирует движение губ в видео с новой аудиодорожкой, чтобы речь выглядела естественно и попадала в артикуляцию. Цена зависит от режима: Быстро - 8 ₽/сек., Точно - 16 ₽/сек.

Описание

Heygen Lipsync V3 - инструмент HeyGen для замены речи в готовом видео с подстройкой движения губ под новую аудиодорожку. Такой формат нужен, когда ролик уже снят, а текст, язык или озвучку хочется поменять без пересъёмки.

По материалам HeyGen, технология умеет автоматически подгонять артикуляцию под речь покадрово и работает с разными языками и голосами. Компания делает упор на локализацию видео, дубляж и быстрое обновление роликов - например, когда нужно заменить озвучку в обучающем видео, презентации или рекламном фрагменте без ручного монтажа.

Разработчики отдельно пишут, что лучший результат получается при чистом звуке и хорошо видимом лице. Когда человек снят спереди, рот не закрыт рукой, микрофон не шипит и в записи нет сильного шума, синхронизация выглядит заметно аккуратнее.

Как это работает

Сервис анализирует загруженное аудио, разбирает речь на звуки и под них перестраивает движения рта в исходном видео. В итоге кажется, будто человек действительно произносит новый текст.

Иногда одной замены рта мало, потому что новая фраза длиннее или короче старой. Для этого здесь есть автоподгонка длительности: сервис может чуть растянуть или сжать фрагмент, чтобы видео лучше совпало с новой речью.

Настройки

Режим - выбор между скоростью и качеством. "Быстро" дешевле и подходит для черновиков, тестов и простых роликов; "Точно" лучше брать для финальной версии, когда важна аккуратная артикуляция.
Видео - загрузка исходного ролика в формате MP4, MOV или WEBM.
Аудио - новая озвучка в форматах MP3, WAV, M4A, AAC, FLAC, OGG или OPUS.
Добавить субтитры - в готовое видео будут вшиты подписи с текстом речи.
Автоподгонка длительности - сервис может изменить длину ролика ради более точного совпадения с новым звуком.
Убрать музыку - пригодится, когда в исходном видео есть фоновая музыка и она мешает нормально подстроить речь.
Улучшить речь - полезно для тихой, грязной или не слишком чистой записи голоса.
Начало фрагмента и Конец фрагмента - можно обработать не весь ролик, а только нужный кусок, например реплику с 12.0 до 18.5 секунды.

Для чего подойдёт

заменить озвучку в уже снятом ролике, когда текст поменялся в последний момент
сделать дубляж на другой язык, чтобы спикер выглядел естественнее, чем при обычной накладке голоса
переозвучить обучающее видео для сотрудников или клиентов без новой съёмки
поправить неудачную реплику в интервью, вебинаре или рекламном видео
подготовить несколько версий одного ролика для разных стран или аудиторий
быстро собрать черновой вариант локализации и потом решить, нужен ли более дорогой точный режим

Ограничения

Лучше всего сервис справляется с крупным или средним планом, где лицо видно прямо. С поворотом головы вбок, закрытым ртом, рукой у лица, бородой на пол-лица или плохим освещением точность обычно падает.

Проблемы бывают и со звуком: сильный шум, музыка поверх речи, эхо и смазанная дикция мешают синхронизации. А ещё перевод и липсинк - разные вещи: сервис подгоняет рот под аудио, но над качеством самого текста и озвучки всё равно нужно следить отдельно.

Чем отличается от аналогов

У HeyGen большой акцент именно на видеолокализации и дубляже, а не только на анимированных аватарах. В случае с Lipsync V3 это полезно тем, что можно взять уже готовое видео и загрузить свою аудиодорожку, вместо полной пересборки ролика с нуля.

Ещё одно заметное отличие - выбор между двумя режимами обработки. Это простой и понятный вариант для обычного пользователя: либо экономить и делать быстрее, либо платить больше за более аккуратный результат на финальном видео.