Wan 2.2 Avatar
Создаёт говорящее видео: берёт ваше фото и синхронизирует движение губ и мимику с загруженным аудио. Стоимость от 6 до 10 рублей за секунду - зависит от выбранного качества (480p или 720p).
Описание
Wan 2.2 Avatar - нейросеть, которая делает «говорящую голову» из одного фото: вы загружаете портрет и аудио, а на выходе получаете видео, где человек выглядит так, будто произносит эту речь.
По описаниям модели Wan 2.2 (формат «digital human»), акцент сделан на синхронизации губ с речью и на том, чтобы вместе с губами оживали эмоции - лёгкая мимика и движения. Также заявляется поддержка разных сценариев (например, речь и пение) и возможность работать не только с реальными людьми, но и с мультяшными персонажами. В доступных вариантах качества обычно встречаются 480p и 720p.
Как это работает
Вы даёте нейросети два входа:
- фото с лицом (лучше - фронтально, без сильных наклонов и закрытого рта руками/микрофоном)
- аудио с речью (или вокалом)
Дальше модель «подгоняет» движения губ под звук и дорисовывает промежуточные кадры так, чтобы получился короткий ролик. Если добавить текст в поле задания, можно мягко направить результат: например, попросить спокойную речь, улыбку или более сдержанную мимику.
Настройки
- Задание - текстом описываете, какой должна быть подача: темп, настроение, выражение лица. Пример: «дружелюбно, лёгкая улыбка, без резких эмоций».
- Фото - исходное изображение человека или персонажа, который будет «говорить».
- Аудио - голос/озвучка, по которой делается синхронизация губ.
- Качество (480p или 720p) - выбираете разрешение итогового видео: 720p выглядит чётче, но обычно обходится дороже.
Для чего подойдёт
- Оживить старую фотографию родственника и сделать короткое поздравление голосом
- Записать «ведущего» для презентации на работе, когда не хочется сниматься на камеру
- Сделать говорящего персонажа для школьного проекта или небольшого обучающего ролика
- Быстро собрать озвученный «анонс» или обращение для соцсетей из портрета и готового дикторского аудио
- Протестировать несколько вариантов подачи: один и тот же текст - разная эмоция (спокойно/строже/дружелюбнее)
Ограничения
- Лучше всего работает с крупным, хорошо освещённым лицом без сильных поворотов головы и без закрытых губ/рта
- Если на фото сложные детали (очки с бликами, густая чёлка на лице, руки у рта), губы и мимика могут получиться менее аккуратными
- Пение и быстрые скороговорки часто сложнее обычной речи: могут появляться мелкие «промахи» по артикуляции
- Чем хуже качество исходного фото или аудио (шум, шипение, сильная компрессия), тем менее естественным может выглядеть результат
Цена
Оплата идёт по длительности аудио (округление обычно в большую сторону до целой секунды):
- 480p - 6 руб./сек
- 720p - 10 руб./сек