Wan 2.2

Создаёт короткое видео по одному изображению и текстовому описанию движения, как будто «оживляет» картинку. Цена зависит от разрешения: 480p - 6 ₽/сек., 720p - 12 ₽/сек.

API

Описание

Wan 2.2 - нейросеть для генерации видео, которая берёт вашу картинку как стартовый кадр и по текстовому заданию превращает её в короткий ролик с движением (например, «плавный наезд камеры», «ветер шевелит волосы», «персонаж поворачивает голову»).

По заявлениям разработчиков, Wan 2.2 - крупное обновление семейства Wan, где упор сделан на более «киношную» картинку (с управлением светом, композицией и цветом через описание) и на более сложные движения. Также авторы пишут, что модель обучали на заметно большем объёме данных, чтобы лучше держать смысл текста, качество картинки и динамику в кадре. Ещё одна заявленная особенность - архитектура MoE (Mixture-of-Experts, «смесь экспертов»): внутри как будто несколько специализированных частей, которые по очереди отвечают за разные этапы улучшения видео, чтобы повышать качество без резкого роста затрат на генерацию.

Как это работает

Вы загружаете изображение, описываете, что должно происходить в кадре, и выбираете качество и длительность. Нейросеть старается сохранить главные детали исходной картинки (персонажа, одежду, фон), а затем «дорисовывает» движение: небольшие повороты, мимику, движения камеры, анимацию окружения (вода, дым, свет, ткань).

Если включить негативный промпт, можно прямо написать, чего вы не хотите видеть - например, «размытие, артефакты, кривые руки, лишние пальцы». Это помогает уменьшить типичные ошибки генерации.

Настройки

Задание - основной текст, где вы описываете движение, стиль и настроение. Практика: лучше писать коротко и конкретно (что движется, как двигается камера, какой свет).
Изображение - стартовый кадр, который нейросеть будет «оживлять».
Качество (480p или 720p) - чем выше, тем детальнее картинка, но обычно дольше ждать и дороже.
Длительность (5 или 8 секунд) - длина ролика.
Негативный промпт - список того, что нужно исключить (полезно, если часто получаются «мыло» или странные детали).
Конечный кадр - если включить, можно задать финальную картинку, к которой ролик должен прийти (удобно, когда нужен переход из «кадр А» в «кадр Б»).

Для чего подойдёт

Оживить семейное фото: лёгкая улыбка, поворот головы, «дышащий» портрет (лучше делать мягкую анимацию, без резких движений).
Сделать короткий ролик для поздравления: открытка превращается в мини-видео с движением камеры и свечением.
Превратить иллюстрацию в заставку: плавный параллакс (когда фон и передний план двигаются по-разному), мерцание света, дым, искры.
Показать товар «вживую»: упаковка/бутылка/гаджет на статичном фото - и лёгкий проезд камеры, блики, движение фона.
Быстрый прототип сцены для идеи: как может выглядеть кадр, ракурс и движение, прежде чем снимать реальное видео.

Ограничения

Сложные действия (например, бег, драка, акробатика) могут получаться «ломано»: меняются пропорции, появляются лишние детали.
Текст на картинках (вывески, мелкий шрифт) часто «плывёт» при движении - лучше не делать его ключевой частью кадра.
Чем резче движение вы просите, тем выше риск артефактов. Часто лучше начать с «плавно, медленно, лёгкая динамика», а потом усиливать.
Если исходное изображение размытое или с сильными артефактами, видео обычно унаследует эти проблемы.

Чем отличается от аналогов

Если сравнивать с другими генераторами «картинка + текст -> видео», Wan 2.2 выделяется тем, что создатели отдельно подчёркивают две вещи: «киношную» управляемую эстетику (свет, композиция, цвет) и улучшенную работу со сложным движением на фоне увеличенного обучения. Плюс это семейство моделей, которое активно развивается и имеет несколько направлений (в том числе более специализированные версии для других задач), поэтому Wan 2.2 часто рассматривают как «базу» для разных сценариев видео-генерации.