Creatify Aurora

Создаёт говорящее видео из одной фотографии и аудио - персонаж шевелит губами и выглядит так, будто реально говорит или поёт. Цена зависит от разрешения: 480p - 18 ₽/сек., 720p - 25 ₽/сек.

Описание

Creatify Aurora - нейросеть, которая “оживляет” портрет: вы загружаете фото человека и аудиофайл, а на выходе получаете видео, где он говорит или поёт с синхронизацией губ.

По заявлениям создателей, Aurora рассчитана на “студийное” качество: она делает не просто движение рта, а добавляет мимику, моргание, движения головы и жесты, старается подстраивать выражение лица под интонацию голоса и сохранять похожесть персонажа от кадра к кадру даже на длинных фрагментах аудио. Также подчёркивается, что достаточно одной фотографии (без обучения на ваших данных и без съёмки с разных ракурсов).

Как это работает

Всё устроено просто:

вы даёте нейросети одну фотографию (это “внешность” героя),
добавляете аудио (это “речь” и “настроение”),
модель собирает видео так, чтобы движения губ и лица совпадали со звуком, а поведение выглядело живым (улыбки, паузы, моргания, небольшие жесты).

Лучше всего работают портреты, где лицо хорошо видно, без сильных поворотов, закрывающих деталей и жёстких теней.

Настройки

Фотография - один портрет, который нужно “оживить”.
Аудио - один файл с речью или вокалом (до 120 секунд).
Промпт (опционально) - подсказка про стиль и мимику. Например: “спокойно, дружелюбно, чуть улыбается” или “строго, уверенно, без лишних эмоций”.
Разрешение (480p или 720p) - качество картинки: 720p выглядит четче, но обычно дороже.

Для чего подойдёт

Записали голосовое - и хотите сделать “видео-обращение” от лица персонажа для поздравления, приглашения или объявления.
Нужно быстро озвучить фото для презентации: “говорящая” заставка с ведущим, который читает ваш текст (если у вас уже есть аудиодорожка).
Хотите оживить старое семейное фото: добавить речь, чтобы получился короткий ролик “как будто человек рассказывает”.
Делаете короткие рекламные/объясняющие ролики, где нужен ведущий в кадре, но снимать себя не хочется.

Ограничения

Качество сильно зависит от исходников: шумное аудио, сильный акцент, слишком быстрый темп речи или фото с закрытым лицом могут ухудшить синхронизацию губ и естественность мимики.
Иногда результат может выглядеть “пластиково” или слегка неестественно (особенно на сложных эмоциях, резких поворотах головы и при плохом освещении на фото).
Длительность в этом режиме ограничена загружаемым аудио - до 120 секунд.

Чем отличается от аналогов

Creatify Aurora чаще всего описывают как модель, которая делает упор не только на “рот в такт”, а на более “живую” подачу: мимику, взгляд, небольшие жесты и реакцию на интонацию, плюс стабильность внешности по всему ролику. Из-за этого она ближе к “говорящему ведущему в кадре”, чем к простому липсинку, где анимируется в основном только рот.