LTX 2.3 - нейросеть для генерации и редактирования видео: она умеет делать ролики по тексту, “анимировать” картинку в видео, оживлять фото под аудио (говорящее фото), продлевать уже готовый клип и “переснимать” выбранный кусок (замена фрагмента) без переделки всего ролика.
По заявлениям разработчиков, LTX 2.3 заточена под “производственный” сценарий, где важны управляемость и повторяемость: можно генерировать видео вместе со звуком, получать ролики до 20 секунд за один проход, а при необходимости запускать модель локально (на своём компьютере/инфраструктуре). Также упор делается на улучшенное качество деталей, более чистый звук по сравнению с прошлой версией и поддержку портретного формата 9:16.
Как это работает
Вы задаёте, что должно быть в кадре (текстом или картинкой), а нейросеть “дорисовывает” последовательность кадров - получается видео. В некоторых режимах она ещё и создаёт звук (музыку/шумы), а в режиме “говорящего фото” подстраивает движение лица под ваш аудиофайл, чтобы выглядело как речь.
Если нужно не новое видео, а правка, тут помогают два режима:
- продление - нейросеть достраивает продолжение (или начало) клипа, стараясь сохранить стиль и движение
- замена фрагмента - вы выбираете, какой кусок ролика надо “переснять”, и описываете, что должно быть вместо него
Режимы генерации
- Видео из текста - вы описываете сцену, стиль и действие, а нейросеть генерирует ролик.
- Видео из изображения - вы даёте исходную картинку, и она оживает: появляется движение камеры/объектов, сцена становится “видео”.
- Говорящее фото - загружаете портрет и короткое аудио (2-20 секунд), получаете “оживлённое” лицо под голос.
- Продлить видео - добавляет 1-20 секунд в начало или конец ролика.
- Изменить видео - заменяет выбранный фрагмент: можно заменить только звук, только картинку или всё сразу.
Настройки
- Тип генерации - выбираете, что именно делаете: из текста, из изображения, говорящее фото, продление или замена фрагмента.
- Модель (Fast/Pro) - Fast обычно быстрее и удобнее для черновиков, Pro - для более аккуратного результата.
- Задание - текст, где вы простыми словами описываете сцену или нужные изменения.
- Изображение - исходная картинка для режима “видео из изображения” или “говорящего фото”.
- Конечный кадр - опция для “видео из изображения”, чтобы сильнее зафиксировать, к чему должен прийти ролик в конце.
- Аудио - нужно для “говорящего фото” (короткий фрагмент голоса).
- Разрешение - 1080p, 1440p или 2160p (чем выше, тем тяжелее и дороже).
- FPS - частота кадров (например 24/25 для “как в кино”, 48/50 - более плавно, но может быть тяжелее).
- Соотношение сторон - 16:9 (горизонтально) или 9:16 (вертикально); для “видео из изображения” можно оставить “Авто”.
- Создавать звук - включает генерацию аудио вместе с видео (если вам нужен ролик “с атмосферой”, а не немое видео).
- Длительность - сколько секунд генерировать (в зависимости от режима и выбранных параметров).
Для чего подойдёт
- Сделать короткий ролик для поздравления: “кот в шапке, задувает свечи на торте” - и сразу готово видео.
- Превратить фото товара в мини-демо: слегка двигается камера, появляется “живость” вместо статичной картинки.
- Оживить портрет: записали голос на 10 секунд - получили говорящую “фотографию” для сторис или семейного прикола.
- Удлинить удачный клип: есть 6 секунд, а нужно 10-15 - пробуете продление в конец или в начало.
- Быстро исправить неудачный момент: например, заменить 3-5 секунд, где “сломалась” мимика или движение, не перегенерируя весь ролик.
Ограничения
- Сложные движения, руки/пальцы, мелкие детали и надписи в кадре могут получаться с артефактами - иногда нужно несколько попыток или более простой запрос.
- “Говорящее фото” обычно лучше работает с крупным планом лица и чистым аудио без шума; при плохом звуке губы могут попадать в речь хуже.
- При высоком разрешении и большом FPS генерация тяжелее: может потребоваться больше времени/ресурсов и чаще помогает режим Pro.
Чем отличается от аналогов
LTX 2.3 часто выбирают, когда кроме “просто сгенерируй видео” хочется именно управляемых правок: продлить клип, аккуратно заменить фрагмент, а также получить видео со звуком или привязать движение к аудио. Ещё один заметный плюс - ориентация на вертикальные видео 9:16 и возможность получать длинные по меркам генеративных моделей клипы (до 20 секунд за один проход).