Создаёт говорящее видео: анимирует лицо на фото и подгоняет движения губ под загруженное аудио. Цена: 5 ₽/сек. (зависит от длительности аудио, округление до целой секунды вверх).
Wan 2.1 MultiTalk - нейросеть, которая делает “говорящую голову”: берёт ваше фото и аудио, а на выходе выдаёт видео, где человек на снимке говорит (или поёт) с синхронизацией губ.
По заявлениям создателей MultiTalk, модель умеет генерировать как одиночные, так и много-персонные разговоры, поддерживает управление через текстовое описание (prompt), а ещё неплохо переносит стиль - например, может работать не только с реальными лицами, но и с мультяшными персонажами и вокалом. Также у проекта заявляются разные режимы качества (вплоть до 720p) и возможность генерировать ролики порядка 15 секунд в базовом сценарии.
Вы загружаете:
Дальше модель старается совместить три вещи: сохранить похожесть на фото, сделать естественную мимику и попасть губами в звук (чтобы речь выглядела правдоподобно).
MultiTalk выделяется тем, что изначально задумывался не только как “одно лицо говорит в кадре”, а как подход, который умеет работать и с диалогами (несколько говорящих) и с управлением через текстовую подсказку. При этом основная практическая ценность для обычного пользователя всё равно простая: загрузили портрет и аудио - получили говорящий ролик, обычно с хорошей синхронизацией губ, если исходники чистые и короткие.