Делает текстовый разбор видео по вашему вопросу: может описать, что происходит в кадре, какие действия выполняют люди и какие объекты видны. Цена - 0,3 ₽ за 1 секунду видео.
Анализ видео - это инструмент для текстового разбора ролика по вашему вопросу. Такие системы относятся к видеоанализу: они смотрят на кадры, могут учитывать звук и речь, а потом отвечают обычным текстом - например, пересказывают сюжет, описывают действия человека в кадре, замечают предметы, сцены и отдельные моменты видео.
По материалам разработчиков похожих систем для video understanding, такие модели умеют описывать содержание ролика, извлекать информацию из видео, отвечать на вопросы по содержанию и в некоторых случаях ориентироваться по таймкодам. Упор обычно делается на совместный разбор картинки и аудио, чтобы ответ был не просто пересказом по одному кадру, а с учётом развития событий по ходу видео.
На практике результат сильно зависит от самого вопроса. Чем он конкретнее, тем полезнее ответ. Вместо общего «что тут происходит?» лучше спросить «какие действия человек выполняет по шагам», «что написано на экране», «какие предметы появляются в начале и в конце ролика» или «что меняется в кадре после 15-й секунды». Для длинных роликов подробный режим обычно помогает получить более развёрнутый разбор.
Сначала вы загружаете видео и пишете вопрос. Модель просматривает ролик, выделяет важные сцены, распознаёт речь и заметные объекты, после чего собирает это в понятный текстовый ответ.
Хорошее качество исходного файла здесь очень помогает. Когда в кадре темно, камера трясётся, люди говорят одновременно или важные детали мелькают слишком быстро, разбор может стать менее точным. Зато на понятных бытовых роликах, записях экрана, лекциях и демонстрациях действий такие инструменты обычно справляются заметно лучше.
От обычного пересказа видео такой инструмент отличается тем, что отвечает именно на ваш вопрос, а не выдаёт один общий обзор. Это полезно, когда вам нужен не весь сюжет, а конкретика: действия, объекты, сцены, фразы или изменения в кадре.
От сервисов, которые работают только с расшифровкой речи, видеоанализ выигрывает тем, что смотрит и на картинку. Поэтому он может заметить предметы, жесты, интерфейс на экране, текст в кадре и другие вещи, которых нет в аудио.