Анимирует одно фото так, будто человек на нём говорит в такт вашему аудио. Цена - 20 ₽ за секунду видео.
OmniHuman 1.0 - нейросеть из класса “говорящее фото по аудио”: вы загружаете портрет, добавляете аудиодорожку, а на выходе получаете видео, где человек “оживает” и говорит с синхронизацией губ.
По заявлениям авторов исследования OmniHuman-1 (ByteDance), модель делает реалистичную речь и мимику даже по “слабому” сигналу - то есть когда у вас есть только одно изображение и аудио. Также они описывают поддержку разных форматов кадра (крупный план, портрет, по пояс, в полный рост), возможность делать не только разговор, но и пение, работу с разными стилями изображения (включая стилизованные картинки), а в более общем виде - управление движением разными “подсказками” (аудио, поза, текст и т.д.).
Если объяснять по-простому, OmniHuman берёт ваше фото как “внешность”, а аудио - как “сценарий для рта и эмоций”. Дальше модель подбирает подходящие движения губ, щёк, бровей и мелкие повороты головы так, чтобы речь выглядела естественно и попадала в ритм голоса.