Wan 2.2 Avatar

Создаёт говорящее видео: берёт ваше фото и синхронизирует движение губ и мимику с загруженным аудио. Стоимость от 6 до 10 рублей за секунду - зависит от выбранного качества (480p или 720p).

0/1
0/1

Описание

Wan 2.2 Avatar - нейросеть, которая делает «говорящую голову» из одного фото: вы загружаете портрет и аудио, а на выходе получаете видео, где человек выглядит так, будто произносит эту речь.

По описаниям модели Wan 2.2 (формат «digital human»), акцент сделан на синхронизации губ с речью и на том, чтобы вместе с губами оживали эмоции - лёгкая мимика и движения. Также заявляется поддержка разных сценариев (например, речь и пение) и возможность работать не только с реальными людьми, но и с мультяшными персонажами. В доступных вариантах качества обычно встречаются 480p и 720p.

Как это работает

Вы даёте нейросети два входа:

  • фото с лицом (лучше - фронтально, без сильных наклонов и закрытого рта руками/микрофоном)
  • аудио с речью (или вокалом)

Дальше модель «подгоняет» движения губ под звук и дорисовывает промежуточные кадры так, чтобы получился короткий ролик. Если добавить текст в поле задания, можно мягко направить результат: например, попросить спокойную речь, улыбку или более сдержанную мимику.

Настройки

  • Задание - текстом описываете, какой должна быть подача: темп, настроение, выражение лица. Пример: «дружелюбно, лёгкая улыбка, без резких эмоций».
  • Фото - исходное изображение человека или персонажа, который будет «говорить».
  • Аудио - голос/озвучка, по которой делается синхронизация губ.
  • Качество (480p или 720p) - выбираете разрешение итогового видео: 720p выглядит чётче, но обычно обходится дороже.

Для чего подойдёт

  • Оживить старую фотографию родственника и сделать короткое поздравление голосом
  • Записать «ведущего» для презентации на работе, когда не хочется сниматься на камеру
  • Сделать говорящего персонажа для школьного проекта или небольшого обучающего ролика
  • Быстро собрать озвученный «анонс» или обращение для соцсетей из портрета и готового дикторского аудио
  • Протестировать несколько вариантов подачи: один и тот же текст - разная эмоция (спокойно/строже/дружелюбнее)

Ограничения

  • Лучше всего работает с крупным, хорошо освещённым лицом без сильных поворотов головы и без закрытых губ/рта
  • Если на фото сложные детали (очки с бликами, густая чёлка на лице, руки у рта), губы и мимика могут получиться менее аккуратными
  • Пение и быстрые скороговорки часто сложнее обычной речи: могут появляться мелкие «промахи» по артикуляции
  • Чем хуже качество исходного фото или аудио (шум, шипение, сильная компрессия), тем менее естественным может выглядеть результат

Цена

Оплата идёт по длительности аудио (округление обычно в большую сторону до целой секунды):

  • 480p - 6 руб./сек
  • 720p - 10 руб./сек

Мы используем файлы cookie и данные сервисов веб-аналитики, собираемые посредством «Яндекс Метрика». Продолжая использовать сайт, Вы соглашаетесь с обработкой таких данных на условиях Политики обработки в отношении файлов cookie.