Kling 3.0

Профессионально генерирует и редактирует видео по тексту, изображению, референсам и исходному видео, чтобы получались связные сцены с нужным стилем и движением камеры. Стоимость от 27 до 50 рублей за секунду - зависит от режима (генерация/редактирование), модели (Standard/Pro) и включения генерации аудио.

API

Что умеет «Kling 3.0»

Селфи на съемочной площадке с киногероями

Морфинг между кадрами за школьной партой

Разворот на 360

Кино с твоим участием

На одной волне с музыкой

Смена прически

Машина строит глазки

Понравилось? Зарегистрируйтесь и создайте свой результат.

Зарегистрироваться

Тип генерации*

Модель*

Сцены

Включите, чтобы задать несколько сцен (multi-shot) отдельными промптами.

Задание*

0 / 2500

Изображение*

Загрузить файл

Перетащите файлы сюда

или нажмите, чтобы выбрать

JPEG/PNG/WebP/HEIC/HEIF (HEIC/HEIF конвертируем в PNG), до 10 МБ.

0/1

Конечный кадр

Длительность*

Сгенерировать аудио

Генерация нативного аудио для видео. Доступно в режимах «Видео из изображения», «Видео из референсу (изображения)» и «Видео из текста». Влияет на цену.

Kling 3.0 - это нейросеть для профессиональной генерации и редактирования видео: можно сделать ролик из текста или картинки, “перенести” стиль и персонажа по референсам, а также менять уже готовое видео (video-to-video).

По заявлениям разработчиков, Kling 3.0 заточена под более “режиссёрский” результат: лучше держит логику сюжета и промпта, умеет работать с несколькими сценами (multi-shot), дольше генерирует видео (до 15 секунд) и сильнее держит консистентность персонажей/объектов с помощью референсов. Ещё одна заявленная фишка - нативное аудио: нейросеть может генерировать речь и звуки прямо вместе с видео, включая многоязычные диалоги и липсинк (синхронизацию губ с речью).

Как это работает

Вы выбираете режим (например, “видео из текста” или “редактирование видео”), добавляете исходники (картинку/видео/референсы) и пишете задание: что происходит в кадре, как двигается камера, какой стиль нужен. Дальше Kling 3.0 собирает короткий ролик нужной длины: либо “оживляет” изображение, либо генерирует всё с нуля, либо переосмысляет уже существующее видео.

Если включить генерацию аудио, звук создаётся сразу в связке с картинкой: речь, шумы, атмосфера - чтобы не собирать всё вручную по кусочкам.

Режимы генерации

Видео из изображения - оживляет одну картинку: добавляет движение персонажам, камере и окружению.
Видео из референса (изображения) - стартовый кадр + дополнительные картинки-референсы, чтобы лучше удержать внешность персонажа, предметы, стиль и детали.
Видео из текста - генерирует ролик только по описанию (и с выбором соотношения сторон).
Редактирование видео - берёте своё видео и описываете, что поменять: стиль, детали, окружение, персонажа, “настроение” сцены.
Видео из референса (видео) - берёте референс-видео как основу и просите сделать вариант “в таком же духе” или с нужными изменениями.

Настройки (то, что реально влияет на результат)

Тип генерации - выбираете, от чего вы отталкиваетесь: текст, картинка, референсы или готовое видео.
Модель (Standard / Pro) - Standard обычно дешевле, Pro чаще выбирают, когда важнее качество и стабильность деталей.
Сцены (multi-shot) - можно задать несколько сцен отдельными промптами (до 6), чтобы ролик выглядел как мини-история, а не один непрерывный кадр.
Задание (промпт) - главное поле, где вы описываете действие, окружение, стиль и движение камеры. В некоторых режимах можно ссылаться на загруженные референсы через метки вроде @Image1 или @Video1 (это помогает “приклеить” стиль/персонажа к референсу).
Изображение / Стартовый кадр / Референсы - что именно нейросеть должна сохранить: внешность героя, одежду, предмет, стилистику, композицию.
Элементы - удобная штука, если нужно удержать конкретный объект или персонажа (например, “вот этот чайник” или “вот это лицо”) и не дать ему “поплыть” по кадрам.
Конечный кадр - можно задать финальную картинку, чтобы видео пришло к нужному состоянию плавно (полезно для аккуратного “финала”).
Длительность - от 3 до 15 секунд (в режимах генерации).
Соотношение сторон - для видео из текста (16:9, 9:16, 1:1); для video-to-video можно оставить “авто” или выбрать вручную.
Сгенерировать аудио - включает нативный звук (влияет на цену).
Voice IDs (для видео из текста) - если нужны конкретные голоса для персонажей; в промпте можно помечать реплики разными голосами.

Для чего подойдёт

Оживить фото для семейного ролика: например, сделать “движение камеры” и лёгкую мимику вместо статичной картинки.
Снять рекламу товара без съёмок: вы даёте референсы упаковки/логотипа, а нейросеть делает короткий клип под нужный формат (вертикальный/горизонтальный).
Быстро накидать раскадровку: несколько сцен с разными планами (общий/средний/крупный), чтобы показать идею клиенту или команде.
Переделать уже снятое видео: сменить стиль (например, “как кино/как анимация”), поменять окружение, “пересобрать” атмосферу сцены.
Сделать видео по референсу: когда нужно “как вот тут”, но со своими героями и деталями.

Ограничения и подводные камни

Чем сложнее вы просите (много персонажей, быстрые смены событий, мелкие надписи в движении), тем выше шанс артефактов: странных рук, “плывущих” деталей, случайных изменений между кадрами.
Референсы помогают держать консистентность, но не гарантируют 100% совпадение - иногда приходится уточнять промпт или добавлять “элементы”.
Нативное аудио удобно, но если вам нужен строго заданный текст, точные паузы и идеальная дикция, может понадобиться несколько попыток или более аккуратная разметка реплик в промпте.

Чем отличается от аналогов

Сильный упор на multi-shot: можно описывать ролик как последовательность сцен, ближе к “мини-режиссуре”, а не к одному клипу.
Референсы и “элементы” сделаны именно для удержания персонажей/объектов между сценами - это полезно, когда вы делаете серию роликов или хотите узнаваемого героя.
Нативная генерация аудио (речь и звуки прямо вместе с видео) - удобно, когда нужен ролик “под ключ”, а не только картинка без звука.