OmniHuman 1.0
Анимирует одно фото так, будто человек на нём говорит в такт вашему аудио. Цена - 20 ₽ за секунду видео.
Описание
OmniHuman 1.0 - нейросеть из класса “говорящее фото по аудио”: вы загружаете портрет, добавляете аудиодорожку, а на выходе получаете видео, где человек “оживает” и говорит с синхронизацией губ.
По заявлениям авторов исследования OmniHuman-1 (ByteDance), модель делает реалистичную речь и мимику даже по “слабому” сигналу - то есть когда у вас есть только одно изображение и аудио. Также они описывают поддержку разных форматов кадра (крупный план, портрет, по пояс, в полный рост), возможность делать не только разговор, но и пение, работу с разными стилями изображения (включая стилизованные картинки), а в более общем виде - управление движением разными “подсказками” (аудио, поза, текст и т.д.).
Как это работает
Если объяснять по-простому, OmniHuman берёт ваше фото как “внешность”, а аудио - как “сценарий для рта и эмоций”. Дальше модель подбирает подходящие движения губ, щёк, бровей и мелкие повороты головы так, чтобы речь выглядела естественно и попадала в ритм голоса.
Настройки
- Фото - один снимок, лучше крупный портрет: лицо без сильных теней, очки без бликов, рот не закрыт рукой/микрофоном.
- Аудио - один файл с речью или пением. Чем чище звук (без музыки поверх голоса и шума), тем проще сделать аккуратную синхронизацию губ.
Для чего подойдёт
- “Оживить” старую фотографию родственника и сделать короткое поздравление голосом.
- Сделать говорящий аватар для озвучки объявления, инструкции или приветствия в чате поддержки.
- Записать ролик-объяснение для школы/курсов, где говорит “персонаж” по вашему аудио.
- Быстро собрать черновик рекламного/инфо-видео, когда нет возможности снимать человека на камеру.
Ограничения
- Качество сильно зависит от исходников: размытое фото, профиль, закрытый рот, сильные артефакты на лице часто дают “пластиковую” мимику или странные движения.
- Если в аудио много шума, несколько голосов или музыка громче речи, липсинк (попадание губ в слова) может заметно ухудшиться.
- Такие модели легко использовать для подделок. Если вы делаете видео “под человека”, убедитесь, что у вас есть разрешение - это вопрос и этики, и безопасности.