Братуха
НейросетиПомощь
НейросетиПомощь

Топ нейросетей

  • Seedream 4.5
  • Nano Banana Pro
  • Nano Banana
  • Nano Banana 2
  • Нейрофотосессия
  • Suno
  • Grok Video
  • Фотостудия
  • Seedream 5.0 Lite
  • Qwen Image 2.0
  • Seedance 1.5 Pro
  • GPT Image 1.5
  • 4o Image
  • Wan 2.6 Image

Топ категорий

  • Видео из изображений
  • Видео из текста
  • Создание изображений
  • Редактирование изображений
  • Говорящее фото
  • Улучшение фото
  • Видео из видео
  • Изменение изображений
  • Редактирование видео
  • Изменение видео
  • Создание 3D
  • Липсинк
  • Озвучка текста
  • Продление видео

Информация

  • О нас
  • Мы помогаем
  • Блог
  • Инструкции
  • Контакты

Документы

  • Пользовательское соглашение
  • Политика конфиденциальности
  • Политика обработки в отношении файлов cookie
  • Согласие на обработку персональных данных
  • Согласие на отправку уведомлений рекламно-информационного характера

© 2026 Братуха.ру

OmniHuman 1.5

Оживляет фото - делает видео, где человек говорит или поёт в такт вашему аудио, с мимикой и движениями. Цена: 35 ₽ за секунду видео.

Загрузить файл
Перетащите файлы сюда
или нажмите, чтобы выбрать
JPEG/PNG/WebP/HEIC/HEIF, 1 файл.
0/1
Загрузить файл
Перетащите файлы сюда
или нажмите, чтобы выбрать
MP3/WAV/M4A/AAC/FLAC/OGG/OPUS, 1 файл.
0/1

Описание

OmniHuman 1.5 - нейросеть для “говорящего фото”: вы загружаете одно изображение и аудиодорожку, а на выходе получаете видео, где персонаж шевелит губами в точный липсинк (синхронизация губ со звуком), меняет выражение лица и может добавлять жесты.

По заявлениям команды ByteDance Intelligent Creation (исследовательский проект OmniHuman-1.5), модель старается делать не просто “открывание рта”, а более осмысленную анимацию - подстраивает мимику и движения под ритм речи, интонацию и смысл, может выдавать длинные ролики (больше минуты), а также поддерживает сложные сцены вроде диалогов и “мультиперсонажей” в кадре. Ещё разработчики подчёркивают, что можно дополнительно направлять результат текстовыми подсказками (например, попросить определённое действие или движение камеры), при этом сохраняя синхронизацию с аудио.

Как это работает

Вы даёте нейросети две вещи:

  1. фото - кого “оживляем”
  2. аудио - что он должен сказать или спеть

Дальше модель анализирует звук (темп, паузы, эмоцию, ударения) и под него строит анимацию лица и головы. В удачных случаях получается ощущение, что человек реально произносит эту речь, а не просто “двигает губами по шаблону”.

Настройки

В этой версии всё максимально просто - по сути, только входные файлы:

  • Фото - одно изображение человека (или персонажа). Обычно лучше работают чёткие портреты: лицо крупно, без сильных теней и перекрытий (очки, руки у лица и волосы на половину лица могут усложнить задачу).
  • Аудио - один файл с голосом или песней. Чем чище запись (без шума, эха и музыки громче голоса), тем естественнее липсинк.

Для чего подойдёт

  • Поздравление “от имени” человека на фото: записали голос - получили короткое видео-обращение.
  • Озвучить старую фотографию для семейного архива: например, сделать “говорящее” видео с рассказом про детство.
  • Ведущий для простого ролика: начитать текст и превратить портрет в говорящую “говорящую голову”.
  • Песня/кавер: загрузить фрагмент вокала и сделать, чтобы персонаж “пел” (часто смотрится лучше, если в кадре крупный план).

Ограничения

  • Качество сильно зависит от исходников: размытое фото или “грязное” аудио почти всегда дают менее правдоподобный результат.
  • Если на фото несколько лиц или лицо частично закрыто, модель может ошибаться с тем, кто именно должен “говорить”, или путать мимику.
  • Длинные дорожки - это больше шансов на мелкие артефакты: где-то может “поплыть” рот, взгляд или мелкая мимика, особенно на сложных эмоциях и быстрых фразах.
  • Важно помнить про права и этику: лучше использовать своё фото/голос (или то, на что у вас есть разрешение), чтобы не делать дипфейки на реальных людей без согласия.

Чем отличается от аналогов

Если сравнивать с простыми “говорящими аватарами”, OmniHuman 1.5 (по описаниям разработчиков) делает упор на более “живую” подачу: не только рот в такт звуку, но и эмоции, паузы, ритм и жесты - плюс возможность получать более длинные и “киношные” сцены. При этом в вашем интерфейсе управление остаётся базовым (фото + аудио), без сложных ручных настроек.

Стоимость на Братуха.ру: 35 ₽ за секунду видео (округление по секундам вверх).