Wan 2.1 MultiTalk

Создаёт говорящее видео: анимирует лицо на фото и подгоняет движения губ под загруженное аудио. Цена: 5 ₽/сек. (зависит от длительности аудио, округление до целой секунды вверх).

Wan 2.1 MultiTalk - нейросеть, которая делает “говорящую голову”: берёт ваше фото и аудио, а на выходе выдаёт видео, где человек на снимке говорит (или поёт) с синхронизацией губ.

По заявлениям создателей MultiTalk, модель умеет генерировать как одиночные, так и много-персонные разговоры, поддерживает управление через текстовое описание (prompt), а ещё неплохо переносит стиль - например, может работать не только с реальными лицами, но и с мультяшными персонажами и вокалом. Также у проекта заявляются разные режимы качества (вплоть до 720p) и возможность генерировать ролики порядка 15 секунд в базовом сценарии.

Как это работает

Вы загружаете:

фото - это “внешность” персонажа
аудио - это “что и как он говорит”
текстовое задание - это подсказки про поведение (например: спокойнее/эмоциональнее, улыбаться/не улыбаться, больше/меньше мимики)

Дальше модель старается совместить три вещи: сохранить похожесть на фото, сделать естественную мимику и попасть губами в звук (чтобы речь выглядела правдоподобно).

Настройки

Задание - текстом описываете, какой должна быть подача. Примеры: “спокойная речь, лёгкая улыбка”, “говорит серьёзно, почти без эмоций”, “поёт, более активная мимика”.
Фото - лучше всего подходит чёткий портрет анфас, без рук у лица, очков с сильными бликами и без слишком резких теней.
Аудио - речь или вокал. Чем чище звук (меньше шума и музыки на фоне), тем легче нейросети сделать нормальную синхронизацию губ.

Для чего подойдёт

“Оживить” старую фотографию дедушки/бабушки и сделать короткое поздравление голосом родственника.
Сделать говорящего персонажа для школьного проекта или презентации, когда сниматься самому не хочется.
Озвучить “говорящую аватарку” для обучающего ролика: вы записали голос - и фото “прочитало” текст.
Примерить разные подачи одной и той же фразы: строго, дружелюбно, с улыбкой - просто меняя задание.

Ограничения

Длинные ролики - сложный режим: со временем могут появляться артефакты (например, “плывёт” цвет, ухудшается похожесть на исходное фото, мимика становится менее стабильной). Поэтому лучше начинать с коротких фрагментов и тестов.
Если на аудио сильный шум, музыка, эхо или речь очень быстрая - губы могут попадать хуже.
Фото с нестандартным ракурсом (профиль, сильный наклон головы), закрытым ртом “в ниточку” или перекрытым лицом часто дают менее естественную анимацию.

Чем отличается от аналогов

MultiTalk выделяется тем, что изначально задумывался не только как “одно лицо говорит в кадре”, а как подход, который умеет работать и с диалогами (несколько говорящих) и с управлением через текстовую подсказку. При этом основная практическая ценность для обычного пользователя всё равно простая: загрузили портрет и аудио - получили говорящий ролик, обычно с хорошей синхронизацией губ, если исходники чистые и короткие.