Оживляет фото - делает видео, где человек говорит или поёт в такт вашему аудио, с мимикой и движениями. Цена: 35 ₽ за секунду видео.
OmniHuman 1.5 - нейросеть для “говорящего фото”: вы загружаете одно изображение и аудиодорожку, а на выходе получаете видео, где персонаж шевелит губами в точный липсинк (синхронизация губ со звуком), меняет выражение лица и может добавлять жесты.
По заявлениям команды ByteDance Intelligent Creation (исследовательский проект OmniHuman-1.5), модель старается делать не просто “открывание рта”, а более осмысленную анимацию - подстраивает мимику и движения под ритм речи, интонацию и смысл, может выдавать длинные ролики (больше минуты), а также поддерживает сложные сцены вроде диалогов и “мультиперсонажей” в кадре. Ещё разработчики подчёркивают, что можно дополнительно направлять результат текстовыми подсказками (например, попросить определённое действие или движение камеры), при этом сохраняя синхронизацию с аудио.
Вы даёте нейросети две вещи:
Дальше модель анализирует звук (темп, паузы, эмоцию, ударения) и под него строит анимацию лица и головы. В удачных случаях получается ощущение, что человек реально произносит эту речь, а не просто “двигает губами по шаблону”.
В этой версии всё максимально просто - по сути, только входные файлы:
Если сравнивать с простыми “говорящими аватарами”, OmniHuman 1.5 (по описаниям разработчиков) делает упор на более “живую” подачу: не только рот в такт звуку, но и эмоции, паузы, ритм и жесты - плюс возможность получать более длинные и “киношные” сцены. При этом в вашем интерфейсе управление остаётся базовым (фото + аудио), без сложных ручных настроек.
Стоимость на Братуха.ру: 35 ₽ за секунду видео (округление по секундам вверх).