OmniHuman 1.5

Оживляет фото - делает видео, где человек говорит или поёт в такт вашему аудио, с мимикой и движениями. Цена: 35 ₽ за секунду видео.

OmniHuman 1.5 - нейросеть для “говорящего фото”: вы загружаете одно изображение и аудиодорожку, а на выходе получаете видео, где персонаж шевелит губами в точный липсинк (синхронизация губ со звуком), меняет выражение лица и может добавлять жесты.

По заявлениям команды ByteDance Intelligent Creation (исследовательский проект OmniHuman-1.5), модель старается делать не просто “открывание рта”, а более осмысленную анимацию - подстраивает мимику и движения под ритм речи, интонацию и смысл, может выдавать длинные ролики (больше минуты), а также поддерживает сложные сцены вроде диалогов и “мультиперсонажей” в кадре. Ещё разработчики подчёркивают, что можно дополнительно направлять результат текстовыми подсказками (например, попросить определённое действие или движение камеры), при этом сохраняя синхронизацию с аудио.

Как это работает

Вы даёте нейросети две вещи:

фото - кого “оживляем”
аудио - что он должен сказать или спеть

Дальше модель анализирует звук (темп, паузы, эмоцию, ударения) и под него строит анимацию лица и головы. В удачных случаях получается ощущение, что человек реально произносит эту речь, а не просто “двигает губами по шаблону”.

Настройки

В этой версии всё максимально просто - по сути, только входные файлы:

Фото - одно изображение человека (или персонажа). Обычно лучше работают чёткие портреты: лицо крупно, без сильных теней и перекрытий (очки, руки у лица и волосы на половину лица могут усложнить задачу).
Аудио - один файл с голосом или песней. Чем чище запись (без шума, эха и музыки громче голоса), тем естественнее липсинк.

Для чего подойдёт

Поздравление “от имени” человека на фото: записали голос - получили короткое видео-обращение.
Озвучить старую фотографию для семейного архива: например, сделать “говорящее” видео с рассказом про детство.
Ведущий для простого ролика: начитать текст и превратить портрет в говорящую “говорящую голову”.
Песня/кавер: загрузить фрагмент вокала и сделать, чтобы персонаж “пел” (часто смотрится лучше, если в кадре крупный план).

Ограничения

Качество сильно зависит от исходников: размытое фото или “грязное” аудио почти всегда дают менее правдоподобный результат.
Если на фото несколько лиц или лицо частично закрыто, модель может ошибаться с тем, кто именно должен “говорить”, или путать мимику.
Длинные дорожки - это больше шансов на мелкие артефакты: где-то может “поплыть” рот, взгляд или мелкая мимика, особенно на сложных эмоциях и быстрых фразах.
Важно помнить про права и этику: лучше использовать своё фото/голос (или то, на что у вас есть разрешение), чтобы не делать дипфейки на реальных людей без согласия.

Чем отличается от аналогов

Если сравнивать с простыми “говорящими аватарами”, OmniHuman 1.5 (по описаниям разработчиков) делает упор на более “живую” подачу: не только рот в такт звуку, но и эмоции, паузы, ритм и жесты - плюс возможность получать более длинные и “киношные” сцены. При этом в вашем интерфейсе управление остаётся базовым (фото + аудио), без сложных ручных настроек.

Стоимость на Братуха.ру: 35 ₽ за секунду видео (округление по секундам вверх).