Wan 2.2 Avatar

Создаёт говорящее видео: берёт ваше фото и синхронизирует движение губ и мимику с загруженным аудио. Стоимость от 6 до 10 рублей за секунду - зависит от выбранного качества (480p или 720p).

Wan 2.2 Avatar - нейросеть, которая делает «говорящую голову» из одного фото: вы загружаете портрет и аудио, а на выходе получаете видео, где человек выглядит так, будто произносит эту речь.

По описаниям модели Wan 2.2 (формат «digital human»), акцент сделан на синхронизации губ с речью и на том, чтобы вместе с губами оживали эмоции - лёгкая мимика и движения. Также заявляется поддержка разных сценариев (например, речь и пение) и возможность работать не только с реальными людьми, но и с мультяшными персонажами. В доступных вариантах качества обычно встречаются 480p и 720p.

Как это работает

Вы даёте нейросети два входа:

фото с лицом (лучше - фронтально, без сильных наклонов и закрытого рта руками/микрофоном)
аудио с речью (или вокалом)

Дальше модель «подгоняет» движения губ под звук и дорисовывает промежуточные кадры так, чтобы получился короткий ролик. Если добавить текст в поле задания, можно мягко направить результат: например, попросить спокойную речь, улыбку или более сдержанную мимику.

Настройки

Задание - текстом описываете, какой должна быть подача: темп, настроение, выражение лица. Пример: «дружелюбно, лёгкая улыбка, без резких эмоций».
Фото - исходное изображение человека или персонажа, который будет «говорить».
Аудио - голос/озвучка, по которой делается синхронизация губ.
Качество (480p или 720p) - выбираете разрешение итогового видео: 720p выглядит чётче, но обычно обходится дороже.

Для чего подойдёт

Оживить старую фотографию родственника и сделать короткое поздравление голосом
Записать «ведущего» для презентации на работе, когда не хочется сниматься на камеру
Сделать говорящего персонажа для школьного проекта или небольшого обучающего ролика
Быстро собрать озвученный «анонс» или обращение для соцсетей из портрета и готового дикторского аудио
Протестировать несколько вариантов подачи: один и тот же текст - разная эмоция (спокойно/строже/дружелюбнее)

Ограничения

Лучше всего работает с крупным, хорошо освещённым лицом без сильных поворотов головы и без закрытых губ/рта
Если на фото сложные детали (очки с бликами, густая чёлка на лице, руки у рта), губы и мимика могут получиться менее аккуратными
Пение и быстрые скороговорки часто сложнее обычной речи: могут появляться мелкие «промахи» по артикуляции
Чем хуже качество исходного фото или аудио (шум, шипение, сильная компрессия), тем менее естественным может выглядеть результат

Цена

Оплата идёт по длительности аудио (округление обычно в большую сторону до целой секунды):

480p - 6 руб./сек
720p - 10 руб./сек