LTX 2.3

Создаёт и редактирует видео: по текстовому описанию, из картинки, а также умеет “оживлять” фото по аудио, продлевать ролики и заменять выбранные фрагменты. Цена: 8 ₽/сек. для видео из текста или изображения, 18 ₽/сек. для говорящего фото, продления и замены фрагмента.

Описание

LTX 2.3 - нейросеть для генерации и редактирования видео: она умеет делать ролики по тексту, “анимировать” картинку в видео, оживлять фото под аудио (говорящее фото), продлевать уже готовый клип и “переснимать” выбранный кусок (замена фрагмента) без переделки всего ролика.

По заявлениям разработчиков, LTX 2.3 заточена под “производственный” сценарий, где важны управляемость и повторяемость: можно генерировать видео вместе со звуком, получать ролики до 20 секунд за один проход, а при необходимости запускать модель локально (на своём компьютере/инфраструктуре). Также упор делается на улучшенное качество деталей, более чистый звук по сравнению с прошлой версией и поддержку портретного формата 9:16.

Как это работает

Вы задаёте, что должно быть в кадре (текстом или картинкой), а нейросеть “дорисовывает” последовательность кадров - получается видео. В некоторых режимах она ещё и создаёт звук (музыку/шумы), а в режиме “говорящего фото” подстраивает движение лица под ваш аудиофайл, чтобы выглядело как речь.

Если нужно не новое видео, а правка, тут помогают два режима:

продление - нейросеть достраивает продолжение (или начало) клипа, стараясь сохранить стиль и движение
замена фрагмента - вы выбираете, какой кусок ролика надо “переснять”, и описываете, что должно быть вместо него

Режимы генерации

Видео из текста - вы описываете сцену, стиль и действие, а нейросеть генерирует ролик.
Видео из изображения - вы даёте исходную картинку, и она оживает: появляется движение камеры/объектов, сцена становится “видео”.
Говорящее фото - загружаете портрет и короткое аудио (2-20 секунд), получаете “оживлённое” лицо под голос.
Продлить видео - добавляет 1-20 секунд в начало или конец ролика.
Изменить видео - заменяет выбранный фрагмент: можно заменить только звук, только картинку или всё сразу.

Настройки

Тип генерации - выбираете, что именно делаете: из текста, из изображения, говорящее фото, продление или замена фрагмента.
Модель (Fast/Pro) - Fast обычно быстрее и удобнее для черновиков, Pro - для более аккуратного результата.
Задание - текст, где вы простыми словами описываете сцену или нужные изменения.
Изображение - исходная картинка для режима “видео из изображения” или “говорящего фото”.
Конечный кадр - опция для “видео из изображения”, чтобы сильнее зафиксировать, к чему должен прийти ролик в конце.
Аудио - нужно для “говорящего фото” (короткий фрагмент голоса).
Разрешение - 1080p, 1440p или 2160p (чем выше, тем тяжелее и дороже).
FPS - частота кадров (например 24/25 для “как в кино”, 48/50 - более плавно, но может быть тяжелее).
Соотношение сторон - 16:9 (горизонтально) или 9:16 (вертикально); для “видео из изображения” можно оставить “Авто”.
Создавать звук - включает генерацию аудио вместе с видео (если вам нужен ролик “с атмосферой”, а не немое видео).
Длительность - сколько секунд генерировать (в зависимости от режима и выбранных параметров).

Для чего подойдёт

Сделать короткий ролик для поздравления: “кот в шапке, задувает свечи на торте” - и сразу готово видео.
Превратить фото товара в мини-демо: слегка двигается камера, появляется “живость” вместо статичной картинки.
Оживить портрет: записали голос на 10 секунд - получили говорящую “фотографию” для сторис или семейного прикола.
Удлинить удачный клип: есть 6 секунд, а нужно 10-15 - пробуете продление в конец или в начало.
Быстро исправить неудачный момент: например, заменить 3-5 секунд, где “сломалась” мимика или движение, не перегенерируя весь ролик.

Ограничения

Сложные движения, руки/пальцы, мелкие детали и надписи в кадре могут получаться с артефактами - иногда нужно несколько попыток или более простой запрос.
“Говорящее фото” обычно лучше работает с крупным планом лица и чистым аудио без шума; при плохом звуке губы могут попадать в речь хуже.
При высоком разрешении и большом FPS генерация тяжелее: может потребоваться больше времени/ресурсов и чаще помогает режим Pro.

Чем отличается от аналогов

LTX 2.3 часто выбирают, когда кроме “просто сгенерируй видео” хочется именно управляемых правок: продлить клип, аккуратно заменить фрагмент, а также получить видео со звуком или привязать движение к аудио. Ещё один заметный плюс - ориентация на вертикальные видео 9:16 и возможность получать длинные по меркам генеративных моделей клипы (до 20 секунд за один проход).