Июнь 2026   |   В фокусе

PaddlePaddle PP-OCRv6: рост точности на 5,1 п.п. и поддержка 50 языков в одной модели

Точность распознавания текста выросла на 5,1 п.п., а поддержка 50 языков теперь работает в единой модели весом всего 1,5 млн параметров. Унификация архитектуры позволяет запускать сложные OCR-задачи на мобильных устройствах, устраняя необходимость в разрозненном парке моделей и снижая вычислительные затраты.

Команда PaddlePaddle выпустила PP-OCRv6 — новое поколение моделей для распознавания текста, доступных на платформе Hugging Face. Семейство включает три версии с размером от 1,5 млн до 34,5 млн параметров, что позволяет запускать их как на мощных серверах, так и на ограниченных устройствах. По сравнению с предыдущей версией PP-OCRv5_server, точность обнаружения текста выросла на 4,6 п.п., а распознавания — на 5,1 п.п. Ключевое отличие — поддержка 50 языков в единой модели среднего и малого размера, включая китайский, японский и латинские алфавиты.

Архитектура и эффективность

Разработчики пересмотрели внутреннюю структуру системы, чтобы сохранить высокую точность при минимизации вычислительных затрат. Вместо использования разных архитектур для разных задач, все три уровня моделей (tiny, small, medium) построены на едином бэкбоне PPLCNetV4. Это упрощает поддержку и интеграцию: модели не являются изолированными решениями, а представляют собой масштабируемые варианты одной технологии.

Для этапа обнаружения текста внедрен модуль RepLKFPN — облегченная сеть с большими ядрами. Она эффективнее обрабатывает текст разного масштаба, вращенные надписи и символы на сложном фоне, что критично для реальных сценариев вроде считывания промышленных этикеток или экранов. Этап распознавания использует архитектуру EncoderWithLightSVTR, сочетающую локальный контекст и глобальное внимание. Это особенно важно для работы с шумными изображениями, плотным текстом и специальными символами.

Важный нюанс: Унификация архитектуры позволяет компаниям не поддерживать парк разрозненных моделей под разные задачи, а использовать один стек технологий с разной степенью оптимизации под железо.

Сравнение производительности моделей

Семейство PP-OCRv6 предлагает гибкий выбор в зависимости от требований к скорости и точности. Ниже приведены характеристики трех доступных версий:

  • PP-OCRv6_tiny (1,5 млн параметров):
    • Точность обнаружения (Hmean): 80,6%.
    • Точность распознавания: 73,5%.
    • Сценарии: Краевые устройства (edge), локальный OCR с жесткими ограничениями по памяти, демонстрации с низкой задержкой.
  • PP-OCRv6_small (7,7 млн параметров):
    • Точность обнаружения (Hmean): 84,1%.
    • Точность распознавания: 81,3%.
    • Сценарии: Мобильные приложения, десктопные решения, сервисы с балансом между скоростью и качеством, многоязычный OCR с умеренными затратами на вычисления.
  • PP-OCRv6_medium (34,5 млн параметров):
    • Точность обнаружения (Hmean): 86,2%.
    • Точность распознавания: 83,2%.
    • Сценарии: Серверные конвейеры, промышленная обработка документов, задачи, где приоритетом является максимальная точность.

Интеграция и форматы

Модели доступны для использования через различные среды выполнения, что расширяет сферу их применения. PaddleOCR версии 3.7 предоставляет единый интерфейс для выбора движка, позволяя подключать нужный бэкенд через конфигурацию:

  • Paddle Inference: Нативный формат для максимальной производительности на оборудовании, поддерживаемом PaddlePaddle.
  • Transformers: Позволяет запускать модели в экосистеме Hugging Face и PyTorch, что удобно для разработчиков, уже работающих с этими инструментами.
  • ONNX Runtime: Обеспечивает переносимость решения в разнородные среды, где требуется стандартный формат ONNX.

Структурированный результат распознавания выводится в формате JSON, что позволяет сразу передавать данные в системы поиска, аналитики, RAG (поисковые системы с генеративным дополнением) или рабочие процессы агентов.

Стоит учесть: Поддержка бэкенда Transformers делает модель доступной для широкого круга разработчиков, не привязанных к экосистеме PaddlePaddle, снижая порог входа для внедрения.

Операционные последствия и скрытые риски

  • Выбор модели под задачу: Использование версии tiny на сервере может привести к потере точности при обработке сложных документов, тогда как medium на мобильном устройстве может вызвать задержки. Необходимо тестировать конкретную версию на целевом оборудовании.
  • Зависимость от качества изображения: Несмотря на улучшения в обработке шумных регионов, точность распознавания все равно зависит от исходного качества снимка. Сильно размытые или слишком темные изображения могут снижать эффективность даже у версии medium.
  • Языковая поддержка: Поддержка 50 языков в одной модели упрощает поддержку международных проектов, но требует проверки качества распознавания для редких языков, так как в тексте упоминается общий набор, а не детализация по каждому языку.
  • Обновление инфраструктуры: Переход на новую версию потребует обновления библиотеки PaddleOCR до версии 3.7 и проверки совместимости с текущими конвейерами обработки данных.

На фоне этого: Появление легковесных моделей с высокой точностью может ускорить внедрение OCR в приложения, где ранее использование таких технологий было невозможным из-за ограничений по вычислительным ресурсам.

Коротко о главном

Сколько языков поддерживает единая модель среднего и малого размера?

Семейство моделей обеспечивает распознавание текста на 50 языках, включая китайский, японский и латинские алфавиты, в рамках одной архитектуры. Это упрощает поддержку международных проектов, устраняя необходимость в разрозненных решениях для разных лингвистических групп.

Какая базовая архитектура используется для всех трех версий модели?

Все уровни (tiny, small, medium) построены на едином бэкбоне PPLCNetV4, что упрощает интеграцию и поддержку. Такая унификация позволяет компаниям использовать один технологический стек с разной степенью оптимизации под конкретное железо вместо парка изолированных моделей.

Какие технические модули отвечают за обработку сложного текста в новой версии?

Для обнаружения внедрен модуль RepLKFPN, эффективно работающий с вращенными надписями и сложным фоном, а для распознавания используется архитектура EncoderWithLightSVTR. Эти компоненты позволяют системе справляться с шумными изображениями и плотным текстом, что критично для промышленных сценариев.

Каковы характеристики самой легкой версии модели PP-OCRv6_tiny?

Версия с 1,5 млн параметров обеспечивает точность обнаружения 80,6% и распознавания 73,5%, что делает её пригодной для краевых устройств с жесткими ограничениями по памяти. Использование этой модели на мощных серверах может привести к потере точности при обработке сложных документов по сравнению с более тяжелыми версиями.

Какие среды выполнения поддерживаются для запуска моделей PP-OCRv6?

Модели доступны через Paddle Inference, Transformers и ONNX Runtime, что обеспечивает переносимость в разнородные среды. Поддержка бэкенда Transformers снижает порог входа для разработчиков, не привязанных к экосистеме PaddlePaddle, позволяя использовать модели в PyTorch и Hugging Face.

Какие требования к инфраструктуре возникают при переходе на новую версию?

Внедрение PP-OCRv6 требует обновления библиотеки PaddleOCR до версии 3.7 и проверки совместимости с текущими конвейерами обработки данных. Это необходимо для корректной работы единого интерфейса выбора движка и получения структурированных результатов в формате JSON.

Какие риски связаны с качеством исходных изображений при использовании новых моделей?

Несмотря на улучшения в обработке шумных регионов, эффективность распознавания все равно зависит от четкости снимка. Сильно размытые или слишком темные изображения могут снижать точность даже у самой производительной версии medium, требуя предварительной проверки качества ввода.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); ПО и разработка

Материалы по теме