惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
Apple Machine Learning Research
Apple Machine Learning Research
爱范儿
爱范儿
WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
罗磊的独立博客
S
SegmentFault 最新的问题
V
V2EX
V
Visual Studio Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
美团技术团队
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
MyScale Blog
MyScale Blog
D
Docker
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
M
Microsoft Research Blog - Microsoft Research
Martin Fowler
Martin Fowler
S
Secure Thoughts
B
Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
C
Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
True Tiger Recordings
GbyAI
GbyAI
P
Proofpoint News Feed
P
Privacy International News Feed
Jina AI
Jina AI
The Cloudflare Blog
I
Intezer
AWS News Blog
AWS News Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Archives - TechRepublic
NISL@THU
NISL@THU
The Register - Security
The Register - Security
Recent Commits to openclaw:main
Recent Commits to openclaw:main
P
Palo Alto Networks Blog
S
Schneier on Security
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Security Latest
Security Latest
C
Cybersecurity and Infrastructure Security Agency CISA

Все публикации подряд на Хабре

Как продвигать агентство недвижимости: от вывески до прямых эфиров MCP для GitHub + GitLab: инженерный гайд 2026 Вы платите OpenAI $20 в месяц, а он зарабатывает на вас ещё $100 млн за полтора месяца. И это только начало ИИ забирает работу «белых воротничков»: чему учить детей, чтобы выжить в будущем Практический ИИ-агент Python: LangGraph + Qdrant Как я делал ping и traceroute на iOS без entitlements — и почему это оказалось проще, чем UMP-консент для AdMob 4 MVP за 4 месяца, 30 холодных DM, 1 регистрация: building in public по-русски VPS-бастион: доступ к домашнему серверу без белого IP Kampus AI — нейросеть для генерации учебных работ для студентов и школьников Игры, помогающие продавать — примеры интересных рекламных акций с видеоиграми €500 в Telegram Ads принесли сделку на 350 000 ₽. Разбор B2B-кампании Чтение на выходные: «Разработка игр и теория развлечений» Рафа Костера Личный архив: сбор, бэкап, таймлайн фотографий INFOSTART TECH EVENT или INFOSTART A&PM EVENT — как понять, куда вам нужнее? Peer testing на основе Закона Линуса Релиз GitLab 19.0: ИИ-оркестрация, которая наконец-то догнала темп написания кода Как бизнесу оценить готовность к аттестации по новому Приказу ФСТЭК № 117 Технический гайд по сторис – часть 4: как мы добавили видео формат Представительство в арбитражном процессе: правовые различия между внешним защитником и инхаусом «Где новые фичи?» — Как AI-миграция легаси вернет IT-бюджет бизнесу Что нужно знать работнику про увольнение Новые требования Москвы к ЦИМ для АГР: готовый инструмент для проектировщиков в nanoCAD BIM Строительство WireGuard: простота и надёжность современного VPN-туннеля или секретное рукопожатие в тёмной комнате Выйдет ли GTA 6 в 2026 году, и чего ждать от игры Как меня назвали «невовлечённым», а я нашёл офшоры на Кипре Как LLM научила рекомендательную модель видеть больше, чем историю взаимодействий От хаоса к экосистеме: Модель зрелости комьюнити в бизнесе Свет, тьма, VEML7700 и Python Сказ о том, как мы процессы разработки в GRI меняли. Часть 2 Майский «В тренде VM»: громкие уязвимости в Linux, ActiveMQ, SharePoint и Acrobat Reader Статический анализ, заряженный ИИ: как LLM ищут уязвимости в коде и где их границы Блок “Процессы” и почему мы называем его нашим мини-n8n Как поменялся рынок интернет-рекламы: сравнение первых кварталов 2025 и 2026 годов: исследование click.ru Мониторинг Kerio Connect через Zabbix 7: разбор шаблона без агентов и regex по DAT 671 Allow в Claude Code за день: как родился сетап Spec-build 3 известные интересные задачи на логику Как айтишнику позаботиться о менталке и не перерабатывать OpenAI vs Anthropic: битва экс-коллег за корпоративного клиента и $1 трлн на IPO SEO для интернет-магазина в 2026: что поменялось и как с этим работать Сможете ли вы спроектировать Maven‑монорепозиторий для 5 микросервисов? 6 неудобных вопросов про американское произношение, которые айтишники боятся задать Неожиданная встреча: теория графов вновь помогла решить проблему в анализе Фурье Иллюзия трансформации: почему компании платят за спектакль вместо изменений AMD представила Ryzen 9 PRO 9965X3D и еще 5 процессоров, которые пойдут далеко не всем История IDE в Google Первые отзывы на новинки о System Design Влияние параметра planner_upper_limit_estimation на планы выполнения и профиль нагрузки PostgreSQL при использовании 1C Границы 100% разработки с агентами Дооснащение любительской электровакуумной мастерской. Вакуумметр, течеискатель, полярископ Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России Suricata IPS NFQueue with nDPI. Часть VI Важные изменения в защите информации в России: что нового? В чем секрет достоверного замедления биологического старения? Вредное ускорение: Умный светофор на перегруженных перекрестках Как сисадмин написал свою библиотеку для Jira на Ruby: история Rujira Сломанный найм: почему рынок труда превратился в казино и что с этим делать Физики нашли свидетельства того, что Вселенная не идеально однородна, вопреки стандартной модели космологии Вопросы на собеседованиях, к которым лучше готовиться заранее Что детектировал детектор таксофонных карт? Как работают выделенные ядра в облачном сервере: от планировщика Linux до тестов производительности Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1 Ответы с «деврел‑супервизии», вопрос седьмой: выгорание, когда от вас ждут вечный драйв и креатив История одного // todo, который ждал своего часа пол года Если пропустили Claude последние 3 месяца: топ-5 фич с юзкейсами и история про $400K в Bitcoin Проектируем с нуля калькулятор на FPGA. Части 4 и 5: Фреймворк и оборудование Почему 10× от AI могут дать только лояльные сотрудники Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX Что внутри портфолио продуктовых и ux/ui-дизайнеров из Т-Банка, Додо, Figma, Альфы, Revolut? Чем заменить Excel в 2026 году: обзор российского ПО и других аналогов Как Rust обрабатывает repr и ABI на границе с C: что ломается и почему 5 промтов, чтобы подготовить презентацию в нейросетях через SpeShu.AI Каггл «200 ёлочек 2025»: призы уже раздали, но мы и за идею задачу укладки порешаем. Часть 1 Как ФНС стала data-driven за 5 лет: минус треть штата, плюс 20 новых цифровых сервисов Как настроить кастомную авторизацию в FESB и сохранить стандартный заголовок Как CISO защищаются от прошлого, игнорируя будущее Заменит ли ИИ разработчиков — и что с этим делать компании Влияние AI на позиции QA в 2026 году Я устал гадать, мне лучше или хуже, и сделал систему непрерывного измерения температуры Исходный код Jedi Academy переполнен яростными комментариями разработчиков ИИ существовал до компьютеров: Крышесносные примеры, часть 2 Тупик на игровом поле: почему образовательные и научные настольные игры в 2026 году сжимаются Ускоряет ли нас AI-coding или просто удорожает? Почему иврит лучше учить как систему, а не как набор слов: опыт с HebrewGlot Как я без навыков fullstack-разработчика сделал свой SaaS Паттерн Backend for Frontend (BFF) в разработке современных приложений «Продай мне этот космолёт» или история любви к симуляторам. От космосима X-Tension до ActorModel/DoD/ECS архитектуры. Ч3 Архитектурные компромиссы в разработке игр Ваш Kubernetes упал: найдёте root cause за 15 минут? Надо ли бороться с анизотропией эмбеддингов Злоумышленник публикует .bash_history: смотреть без регистрации и СМС Разбираемся в ML без воды: от базы до Attention. Часть 3 Как я сделал утилиту для автоматизации ручных тестов Почему факты не работают: шесть причин, по которым люди верят слухам Neko — собираем музыкальный гаджет в домашних условиях AI Evals: Почему без оценки качества ваш продукт стоит на месте Астрологическая схемотехника Безопасный Docker с torque Spring AI: феноменология цифрового сознания, или Как я перестал бояться и полюбил облачные модели [Перевод] Torque: релизы на автопилоте
Быстрый OCR на основе Paddle
Alexandrova0 · 2026-05-22 · via Все публикации подряд на Хабре

Уровень сложностиСредний

Время на прочтение9 мин

Охват и читатели4

Туториал

Распознать текст на скане документа – задача не новая. А вот уложиться в пару секунд на CPU – уже вызов.

Там, где готовые фреймворки долго "думают", я сделала своё OCR решение на основе PaddleOCR с конвертацией в ONNX. На выходе - ускорение более чем в 4 раза (по сравнению с исходным фреймворком) и полный контроль на каждом этапе: от распознавания текстовых областей до финальной выдачи символов.

В этой статье я расскажу почему в качестве ядра был выбран Paddle, и как работает весь алгоритм на основе его моделей.

Выбор ядра и отказ от "коробочного" решения

Когда речь заходит о задаче чтения текста с картинки (OCR – optical character recognition), часто первая рекомендация – это EasyOCR. А ещё есть Tesseract, OmniParser... а что такое PaddleOCR?

Разберём популярные варианты:

  • Tesseract — проверенный временем, открытый. Но главный его недостаток – отсутствие поддержки GPU. Сегодня это не просто конкурентное преимущество, а критическое требование для сервиса, который планирует обрабатывать большие объёмы запросов. Поэтому Tesseract был исключён из конкуренции даже без проверки качества распознавания текста.

  • EasyOCR — очень популярен и с хорошей репутацией. Даже есть поддержка рукописных шрифтов (это большой плюс). Однако особенности его использования делают его тяжёлым для промышленного инференса, особенно на CPU. Установка EasyOCR неизбежно тянет за собой PyTorch, который занимает несколько ГБ на диске. Но дело не ограничивается только расходованием физической памяти, PyTorch потребляет много оперативной памяти в моменте, что замедляет параллельную обработку.

  • OmniParser — современный, но избыточно сложный и, из-за этого, медленный. На первом этапе он находит объекты интерфейса с помощью YOLO, а затем встроенный OCR извлекает текст из UI-блоков. Для задачи «просто прочитать текст» такой подход избыточен: вместо компактного OCR используется ещё и CV-алгоритмы.

И тут появляется Paddle. Три причины почему я выбрала его:

  1. Самый быстрый на CPU и GPU. Можно предсказуемо переключать инференс и не ограничиваться отсутствием GPU у клиента. Уже на СPU (16 ядер, 32 ГБ RAM) максимально долгий инференс занимал 1.5 секунды. А если GPU есть, то получаем ещё больше скорость – до 0.2 с на изображение на NVIDIA GeForce RTX 3090.

  2. Лучшая точность на русско-английских текстах. Это подтверждают метрики качества текста.

    Метрика

    PaddleOCR

    EasyOCR

    WER (кол-во ошибок на 1 слово)

    0.056

    0.12

    CER (кол-во ошибок на 1 символ)

    0.016

    0.03

    ROUGE-1 (% общих слов с эталоном)

    97.5

    95.6

    ROUGE-L (% общей последовательности с эталоном)

    95.3

    90.8

  3. ONNX совместимость. PaddleOCR легко конвертируются в ONNX (Open Neural Network Exchange) формат и запускается через ORT (OnnxRunTime) сессии. Это даёт прирост скорости и управление CUDA-памятью не хуже, чем на C++. В случае с EasyOCR, официальной поддержки ONNX (без правок исходного кода) нет.

Если PaddleOCR уже есть "из коробки", зачем писать свой сервис?

1) Пример использования PaddleOCR фрейморка:

pip install paddlepaddle
pip install paddleocr

from paddleocr import PaddleOCR
ocr = PaddleOCR(lang='ru') # c настройками по умолчанию
result = ocr.predict(image_path)

2) Ссылка на публичный сервис с Paddle в onnxruntime: https://github.com/PaddlePaddle/PaddleOCR/tree/main/deploy/paddle2onnx

И туториал по его настройке на Habr: https://habr.com/ru/articles/933634/

Результаты тестирования готовых решений на основе PaddleOCR были неудовлетворительными. Не хватало скорости и гибкости в постобработке результатов оцифровки. Например, так как формат выхода фиксирован, то нельзя было вернуть только текст с крупных текстовых блоков, игнорирую отдельно стоящие символы. Также хотелось группировать текстовые блоки по смыслу, находить заголовки окон / документов на картинке.

Когда я собрала свой пайплайн, оказалось, что кастомный OCR – это:

  • Быстро: инференс в 4 раза быстрее стандартного PaddleOCR фреймворка и в 2 раза быстрее ONNX решения

  • Гибко: запуск на CPU или GPU без переписывания кода

  • Контролируемо: легко экспериментировать с качеством моделей и добавлять необходимую постобработку результатов

Как устроен PaddleOCR + ONNX

PaddleOCR – это ансамбль из трёх последовательных нейросетевых моделей:

  • cls – определяет, не перевёрнут ли текст (0°, 90°, 180°, 270°)

  • det – находит все блоки с текстом на изображении

  • rec – читает символы внутри каждого блока

Все модели мы сохраняем в ONNX и запускаем через onnxruntime.

CLS: проверка поворота

Модель cls - это свёрточная нейронная сеть, которая классифицирует угол поворота входного изображения по 4 классам: [0, 90, 180, 270] градусов.

На выходе – вероятности для каждого из четырёх вариантов угла поворота. Выбирается угол с максимальным значением вероятности, и при необходимости изображение поворачивается перед подачей в детектор.

На практике cls этап опционален. Если все картинки заведомо ориентированы правильно (например, скриншоты экрана), cls этап можно пропустить: детектор сам справится с отклонениями перспективы до 10 градусов. Однако, хоть и пропуск cls ускоряет обработку, но в случае неожиданной подачи перевёрнутого изображения в det модель точность резко упадёт.

DET: поиск текста

Вход детектора: изображение, которое приведено к рекомендованному размеру – часто это 960 х 960 пикселей. Здесь важно, чтобы размеры сторон были кратны 32 – требование, исходящее из архитектуры свёрточных слоёв модели.

Внутри детектора (архитектура v5): изображение проходит через ResNet - сверточную нейронную сеть с остаточными связями.  Благодаря этим связям (skip connections) градиент в ResNet не затухает, что позволяет строить очень глубокие сети, способные выделять сложные признаки текстовых полей: находить линии и углы букв, различать контраст между текстом и фоном и т.д.

Выход: сеть создаёт карту вероятностей (probability map), где для каждого пикселя исходной картинки указывается вероятность: "это текст" (близко к 1) или "это фон" (близко к 0).

Постобработка: метод DB (дифференцируемая бинаризация) позволяет на размытой карте с нечёткими границами областей выделить прямоугольники (bounding boxes), внутри которых средняя вероятность наличия текста выше заданного порога (обычно 0.6).

По координатам полученных прямоугольников из исходного изображения вырезаются области с текстом и передаются дальше – на распознавание (REC).

Карта вероятности (выход det модели) и найденные текстовые области на исходном изображении

Карта вероятности (выход det модели) и найденные текстовые области на исходном изображении

REC: распознавание символов

Вход дешифровщика:

  1. Текстовая область – вырезанный прямоугольник из исходного изображения. Перед подачей в модель эта картинка масштабируется так, чтобы высота соответствовала фиксированным параметрам входа rec модели.

  2. Словарь (charset) – набор символов в фиксированном порядке, на котором обучалась модель. Размер словаря должен совпадать с размером выхода rec модели.

Внутри дешифровщика (архитектура v5): Cвязка из трансформера (SVTR) и лёгкой свёрточной сети (LCNet) вычисляет вероятности для каждого символа из словаря на каждой позиции текстовой строки.

  • LCNet быстро извлекает визуальные признаки со всего изображения (линии, углы, контраст). Полученная карта признаков разбивается на мелкие патчи, которые поступают в SVTR.

  • SVTR анализирует патчи в двух режимах: локальном (соседние патчи) и глобальном (все патчи). Так модель учится выделять буквы (комбинируя несколько патчей) и одновременно понимать их порядок.

Выход: Матрица вероятностей размером (seq_len, n_classes), где:

  • seq_len – длина текстовой строки (количество найденных символов, включая пробелы и пустые символы)

  • n_classes – размер словаря

Постобработка: В самой простой реализации используется argmax - на каждой позиции выбирает наиболее вероятный символ. Полученная последовательность склеивается в итоговую строку текста.

Конвертация в ONNX: необходимая деталь

Конвертация в ONNX освобождает инференс от привязки к окружению PaddlePaddle. Модель становится независимой от фреймворка – можем встраивать вызов модели в python код. Набор операций, их порядок и веса сохраняются в стандартизированном формате.

Но откуда берётся ускорение?

ORT написан на C++ и отпускает GIL на время выполнения модели — вычисления идут параллельно и не блокируются интерпретатором Python. Помимо этого, внутри ORT работают оптимизированные операторы Intel MKL и NVIDIA cuDNN, выжимая максимум из процессора или видеокарты. А быстрая смена провайдеров (например, с CPUExecutionProvider на CUDAExecutionProvider) позволяет использовать один код на любом железе — от ноутбука до сервера.

OCR пайплайн шаг за шагом

Шаг 1. Готовые ONNX модели или конвертация

Проще всего взять готовые модели, уже сконвертированные в ONNX, с Hugging Face:
https://huggingface.co/monkt/paddleocr-onnx/tree/main/

Выбор моделей:

  • Детектор (det) не зависит от языка — его задача просто найти факт присутствия текста на изображении. Я взяла последнюю версию для китайского (PP‑OCRv5_ch_det). Китайский — родной язык компании‑разработчика PaddleOCR (Baidu), и эта модель показала себя лучше всех по полноте детекции текстовых блоков. Оценивала по WER: если детектор слабый, он пропускает целые слова, и ошибка растёт.

  • Распознаватель (rec) обязательно идёт в паре с набором символов — ключей для декодирования (charset.txt). Для смешанных русско-английских текстов я использовала модель eslav_PP-OCRv5_rec.

Конвертация своими руками (через paddle2onnx):

Если готовых моделей нужной версии нет, конвертируем вручную. Для этого скачиваем файлы обученной модели (inference.pdmodel и inference.pdiparams) и запускаем скрипт:

import os
import subprocess

def convert_cmd(model_dir, onnx_model_dir, model_name='det_v5_en'):
    """Ручная конвертация модели в onnx формат"""

    os.makedirs(onnx_model_dir, exist_ok=True)
    output_path = os.path.join(onnx_model_dir, model_name+".onnx")
    cmd = [
        "paddle2onnx",
        "--model_dir", model_dir,
        "--model_filename", "inference.pdmodel",
        "--params_filename", "inference.pdiparams",
        "--save_file", output_path,
        "--opset_version", "12",
        "--enable_onnx_checker", "True"
    ]
    subprocess.run(cmd)

Шаг 2. Создаём ORT сессии

import onnxruntime as ort

def create_onnx_sessions(det_model_path,
                         rec_model_path,
                        providers=['CPUExecutionProvider']): 
    """Создание сессии ONNX runtime"""

    sess_options = ort.SessionOptions()

    det_session = ort.InferenceSession(det_model_path, providers=providers, sess_options=sess_options)
    rec_session = ort.InferenceSession(rec_model_path, providers=providers, sess_options=sess_options)

    print(f'rec_input_info [batch_size, colors, H, W] = {rec_session.get_inputs()[0].shape}')
    print(f'rec_output_shape [batch_size, seq_len, classes] ={rec_session.get_outputs()[0].shape}')
    
    return det_session, rec_session

Детали настройки:

  1. Выбор провайдера: providers = ['CPUExecutionProvider']   # для CPU

  2. Настройки сессий (SessionOptions):

    sess_options = ort.SessionOptions()
    sess_options.intra_op_num_threads = os.cpu_count() // 2   # потоки для вычислений (обычно = числу ядер)
    sess_options.execution_mode = ort.ExecutionMode.ORT_PARALLEL  # параллельное выполнение (где возможно)

    При желании можно добавить другие настройки оптимизации. Для CPU можно ограничиться настройками по умолчанию, но на GPU важна их специализированная настройка.

  3. Создание ORT сессий – для каждой модели своя: session = ort.InferenceSession()

  4. Проверка размерностей входа и выхода моделей

    # Вход распознавателя (eslav_PP-OCRv5_rec): [batch_size, channels (RGB), height, width]
    print(rec_session.get_inputs()[0].shape)   # [1, 3, 48, -1]  (-1 = динамическая ширина)
    
    # Выход распознавателя (eslav_PP-OCRv5_rec): [batch_size, seq_len, classes]
    print(rec_session.get_outputs()[0].shape)  # [1, -1, 519]

Шаг 3. Детекция текстовых блоков

Вход: изображение в формате np.ndarray

  1. Предобработка изображения - приводим изображение к формату, который ожидает модель детекции [batch_dim, channels, h, w]:

    • Масштабирование изображения с добавлением паддинга для кратности сторон 32

    • Нормализация цветовых каналов RGB с помощью констант: mean = [0.485, 0.456, 0.0406], std = [0.229, 0.224, 0.225]

    • Добавление batch_dim = 1 и перестановка осей тензора. Было (h, w, channels), стало (1, channels, h, w)

  2. Запуск модели детекции и получение карты вероятностей "текст / не текст"

  3. Постобработка карты вероятностей:

    • Бинаризация карты вероятностей по заданному порогу уверенности

    • Поиск контуров (cv2.Countours)

    • Расчёт средней вероятности текста внутри контуров и фильтрация контуров с низкой уверенностью

    • Обратное масштабирование контуров – прямоугольников в размеры исходного изображения

  4. Опциональная обработка результатов:

    * Фильтрация текстовых блоков по геометрическим признакам – оставляем только вытянутые в ширину блоки

    * Объединение близких блоков в один – для получения более связного текста при расшифровке

    * Группировка координат центров блоков (с помощью DBSCAN, так как не знаем заранее число кластеров) для выявления смысловых блоков информации на картинке  

Шаг 4 – детекция текстовых символов

Вход – координаты текстовых блоков с предыдущего шага

  1. Предобработка:

    • Вырезание областей с текстом из исходного изображения (по координатам bbox)

    • Коррекция перспективы (cv2.getPerspectiveTransform())

    • Пропорциональное масштабирование: модель распознавания ожидает фиксированную высоту H.

    • Добавление batch_dim = 1 и транспонирование тензора для формата [batch_size, channels, height, width]

  2. Запуск модели распознавания и получение матрицы вероятностей (seq_len, n_classes) для каждого индекса текстовой строки по символам из charset.

  3. Декодирование строки текста: проход по каждому символу последовательности и выбор индекса с наибольшей вероятностью (argmax).  Далее преобразуем индексы в буквы с помощью словаря charset.txt.

Выход – распознанная текстовая строка.

Результаты

Вы можете проверить алгоритм на качество распознавания текста на ваших картинках: https://github.com/Natalia-Alexandrova/OCR-paddle-onnx/tree/main

Ключевые заметки

1) PaddleOCR в ORT сессии работает за пару секунд на мощном CPU и за доли секунды на GPU. Это уверенный кандидат на то, чтобы выдержать промышленную скорость.

2) Удобнее взять готовые paddle модели в onnx HF. Модель детектора не зависит от языка. Для распознавателя проверяем соответствие размерности словаря-дешифровщика (charset) с заданным выходом rec модели (n_classes).

3) Перед подачей в модели требуется масштабирование картинок. Для v5 это 960 пикселей - для модели детекции и h = 48 пикселей - для модели распознавания.