Qwen Vision Translate
Переводит текст прямо с картинки: распознаёт надписи и выдаёт перевод на выбранный язык. Цена - 2 рубля за изображение.
Описание
Qwen Vision Translate - нейросеть для перевода текста на изображениях: вы загружаете картинку, она находит на ней надписи (как в режиме “умного OCR”, то есть распознавания текста), а затем переводит их на нужный язык. По названию и формату работы это часть экосистемы Qwen от Alibaba, где упор делают на “понимание картинки + работа с текстом”.
По заявлениям команды Qwen, их свежие vision-модели стали лучше читать текст на изображениях (OCR), в том числе в сложных условиях - когда фото размытое, наклонённое, с бликами или мелким шрифтом, и поддерживают много языков распознавания. В переводе это обычно ощущается так: меньше “каши” вместо букв и меньше странных догадок, если текст снят неидеально.
Как это работает
- Вы загружаете изображение (фото, скриншот, документ, вывеску).
- Нейросеть “прочитывает” текст на картинке: находит, где именно находятся надписи, и распознаёт символы.
- Переводит распознанный текст на выбранный язык и выдаёт результат.
Если на картинке несколько блоков текста (например, меню + цены + примечания мелким шрифтом), инструмент обычно обрабатывает их все, а не только одну строчку.
Настройки
- Изображение - загрузите один файл. Подойдут JPEG/PNG/WebP, а HEIC/HEIF обычно автоматически приводятся к удобному формату.
- Язык исходного текста - можно оставить “Автоопределение”, если не уверены, что это за язык. Если язык известен (например, точно японский), лучше выбрать вручную - так меньше ошибок.
- Язык перевода - на какой язык получить результат (например, на русский).
- Пропустить сегментацию изображения - сегментация это “разделение картинки на зоны с текстом”. Обычно лучше не пропускать. Имеет смысл включить пропуск, если картинка простая (одна крупная надпись) или если разметка текста почему-то ломает результат.
- Контекст перевода - коротко опишите тему на английском (например, “user interface”, “medicine”, “finance”). Это помогает, когда слово может переводиться по-разному: “charge” (заряд/плата/обвинение), “tablet” (планшет/таблетка) и т.п.
Для чего подойдёт
- Перевести меню в кафе на фото, чтобы понять состав блюд и цены.
- Разобраться с инструкцией на коробке лекарства или бытовой химии (хотя важные вещи лучше перепроверять).
- Перевести скриншот приложения или игры, где текст не копируется.
- Понять, что написано на вывеске, объявлении, табличке в поездке.
- Быстро перевести страницу из учебника/конспекта, которую вам прислали фотографией.
Ограничения
- Если текст совсем мелкий, смазанный, на сильно пёстром фоне или частично закрыт рукой/предметом, качество распознавания падает - и перевод тоже становится хуже.
- Рукописный текст распознаётся заметно хуже печатного, особенно если почерк “на бегу”.
- Специальные шрифты, вертикальные надписи, художественные логотипы и “закрученные” буквы могут читаться с ошибками.
- Контекст перевода помогает, но не спасает, если исходный текст распознался неправильно (сначала нужно “прочитать” верно, потом уже переводить).
Чем отличается от аналогов
Qwen Vision Translate удобен тем, что объединяет два шага в один: распознавание текста на картинке + перевод. Плюс у него есть простые человеческие настройки (автоязык/ручной выбор и “контекст перевода”), которые реально помогают получить более адекватные формулировки, особенно на коротких надписях и интерфейсных фразах.