OmniHuman 1.0

Анимирует одно фото так, будто человек на нём говорит в такт вашему аудио. Цена - 20 ₽ за секунду видео.

Описание

OmniHuman 1.0 - нейросеть из класса “говорящее фото по аудио”: вы загружаете портрет, добавляете аудиодорожку, а на выходе получаете видео, где человек “оживает” и говорит с синхронизацией губ.

По заявлениям авторов исследования OmniHuman-1 (ByteDance), модель делает реалистичную речь и мимику даже по “слабому” сигналу - то есть когда у вас есть только одно изображение и аудио. Также они описывают поддержку разных форматов кадра (крупный план, портрет, по пояс, в полный рост), возможность делать не только разговор, но и пение, работу с разными стилями изображения (включая стилизованные картинки), а в более общем виде - управление движением разными “подсказками” (аудио, поза, текст и т.д.).

Как это работает

Если объяснять по-простому, OmniHuman берёт ваше фото как “внешность”, а аудио - как “сценарий для рта и эмоций”. Дальше модель подбирает подходящие движения губ, щёк, бровей и мелкие повороты головы так, чтобы речь выглядела естественно и попадала в ритм голоса.

Настройки

Фото - один снимок, лучше крупный портрет: лицо без сильных теней, очки без бликов, рот не закрыт рукой/микрофоном.
Аудио - один файл с речью или пением. Чем чище звук (без музыки поверх голоса и шума), тем проще сделать аккуратную синхронизацию губ.

Для чего подойдёт

“Оживить” старую фотографию родственника и сделать короткое поздравление голосом.
Сделать говорящий аватар для озвучки объявления, инструкции или приветствия в чате поддержки.
Записать ролик-объяснение для школы/курсов, где говорит “персонаж” по вашему аудио.
Быстро собрать черновик рекламного/инфо-видео, когда нет возможности снимать человека на камеру.

Ограничения

Качество сильно зависит от исходников: размытое фото, профиль, закрытый рот, сильные артефакты на лице часто дают “пластиковую” мимику или странные движения.
Если в аудио много шума, несколько голосов или музыка громче речи, липсинк (попадание губ в слова) может заметно ухудшиться.
Такие модели легко использовать для подделок. Если вы делаете видео “под человека”, убедитесь, что у вас есть разрешение - это вопрос и этики, и безопасности.