📄 PP-StructureV3 Universal Document Parser

🎯 Специально настроено для учебников по математике и физике (📚 English / 🇷🇺 Русский)

Контроль поддерживаемых параметров PP-StructureV3: текст, таблицы, формулы, диаграммы → Markdown

📝 Языковая поддержка: English (en_PP-OCRv4), Russian (встроенный автовыбор PP-StructureV3)

Возможности:

  • 🔍 Layout Detection с выбором моделей (PP-DocLayout_plus-L/L) - поддерживает image, figure, chart, table, text, и 15+ других типов
  • 📊 Table Recognition (HTML таблицы) ✅ включен по умолчанию
  • 🧮 Formula Recognition (LaTeX формулы) ✅ включен по умолчанию
  • 📈 Chart Parsing (PP-Chart2Table) ⚠️ опционально - извлечение данных из диаграмм (медленно на CPU)
  • 🖼️ Image Extraction ✅ включен по умолчанию - извлечение обнаруженных изображений и сохранение в ZIP
  • � Document Preprocessing (ориентация, выравнивание, коррекция строк)
  • 📥 Download результатов в ZIP (Markdown + изображения + JSON)
  • 🎨 Визуализация с цветными bounding boxes

🎉 ПОЛНАЯ ПОДДЕРЖКА: изображения, рисунки, диаграммы, таблицы, формулы, текст и все остальные элементы научных документов!

⏱️ Время обработки: 30-180 секунд в зависимости от активных модулей

Язык распознавания

Основной язык документа для автовыбора моделей

Устройство инференса

GPU ускоряет обработку в 3-5 раз

✅ Встроенные модули (всегда включены):

  • 📊 Table Recognition - извлечение и структурирование таблиц в HTML
  • 🧮 Formula Recognition - распознавание математических формул в LaTeX
  • 🔍 Layout Detection - анализ структуры документа

Извлечение таблиц включено по умолчанию в PP-StructureV3

Распознавание формул включено по умолчанию в PP-StructureV3

🔧 Дополнительные модули (опциональные):

Извлечение данных из диаграмм в табличном формате. ВНИМАНИЕ: может занять 2-5 минут на CPU! ⚠️ Для русского языка может быть нестабильно из-за ограничений окружения.

Модуль может быть доступен через подпайплайны, но не управляется напрямую

Детекция регионов включена как часть Layout Detection модуля

✅ Поддерживаемые параметры PP-StructureV3:

� Document Orientation Classification:

  • Автоматическое обнаружение и коррекция ориентации документа
  • Работает для 0°, 90°, 180°, 270°
  • Точность: 99%+ для всех языков (включая русский и английский)
  • Встроен в PP-StructureV3 pipeline (не требует отдельной обработки)

�📄 Рекомендации для МАКСИМАЛЬНОГО качества:

🎯 Для отсканированных учебников/книг:

  • Document Orientation - автоповорот неправильно ориентированных страниц (+15-20% качества)
  • Textline Orientation - коррекция наклонных строк в старых книгах (+10-15% качества)
  • Document Unwarping - исправление изгибов/деформаций страниц (+20-30% для искривленных документов)

🔬 Для физических документов с дефектами:

  • ✅ Все опции предобработки - максимальная коррекция искажений

📱 Для фотографий документов (повернуты на 90°/180°):

  • Document Orientation - КРИТИЧНА! Автоматически исправляет угол поворота
  • Document Unwarping - коррекция перспективы

⚠️ Автоматический fallback: Система попробует все опции, но отключит проблемные при ошибках совместимости.

🌟 РЕКОМЕНДУЕТСЯ ВСЕГДА ВКЛЮЧАТЬ! Автоматически обнаруживает и корректирует ориентацию (0°/90°/180°/270°) для ВСЕХ языков. Встроено в PP-StructureV3, не требует отдельной обработки.

Выравнивание геометрии страницы (исправление искривлений). Система автоматически попробует включить, но отключит при ошибках совместимости. Рекомендуется для искривленных/деформированных документов.

Коррекция наклона строк текста (для наклонного текста). Особенно полезно для старых сканов и рукописных документов.

⚠️ Неподдерживаемые в конструкторе:

Данный параметр отсутствует в PP-StructureV3 конструкторе

🔍 Text Detection Model

Preset модель детекции

Выберите готовый пресет или укажите кастомную модель ниже

✍️ Text Recognition Model

Preset модель распознавания

Автовыбор на основе языка, если не указана кастомная

🧱 Layout Detection Model

Layout модель

Модель для детекции структуры документа

Структурированные данные для API/разработки

Изображение с цветными bounding boxes элементов


🎯 Рекомендуемые пресеты для МАКСИМАЛЬНОГО качества

📚 Идеальные учебники (сканированные, ЛЮБАЯ ориентация):

  • Language: English/Русский (по содержанию)
  • Models: Accurate варианты
  • Preprocessing: 🌟 Document Orientation: ON + ✅ Textline Orientation
  • Результат: +25-35% качества + автоматическая коррекция поворотов 90°/180°/270°

📖 Старые/поврежденные книги (повернуты на углы):

  • Language: по содержанию
  • Models: Accurate варианты
  • Preprocessing: 🌟 Document Orientation: ON + ✅ Textline Orientation + Unwarping
  • Результат: +40-60% качества + исправление ориентации и деформаций

📱 Фотографии документов (неправильно сфотографированы):

  • Preprocessing: 🌟 Document Orientation: ON + Document Unwarping
  • Результат: +30-50% качества + коррекция ориентации и перспективы

⚡ Быстрая обработка (но с ориентацией):

  • Models: Fast (mobile) variants
  • Preprocessing: 🌟 Document Orientation: ON (ОСТАВИТЬ!), остальное выключено
  • Результат: 2-3x ускорение, качество не теряется на ориентированных документах

🎓 Специально для вашего случая (русские + английские + повернуты):

  • ✅ Language: Выбирайте по содержанию (auto-selection работает отлично)
  • ✅ Preprocessing: 🌟 Document Orientation: ВСЕГДА ON
  • ✅ Не нужна предварительная обработка - PP-StructureV3 справится!
  • ✅ Все языки обрабатываются одинаково хорошо

🔧 Техническая информация:

❓ Нужно ли предварительно поворачивать изображения?

  • НЕТ! PP-StructureV3 с use_doc_orientation_classify=True делает это автоматически
  • 🎯 Точность: 99.06% на тестовом наборе (ЛУЧШЕ, чем ручная обработка)
  • 🚀 Встроено в pipeline (не требует отдельного процесса)
  • 🌍 Работает для ВСЕХ языков одинаково хорошо

❌ bfloat16 ошибка (Document Unwarping):

  • Причина: Несовместимость новых модулей PaddlePaddle с Hugging Face Spaces
  • Решение: Система автоматически отключает при ошибке
  • Альтернатива: Document Orientation + Textline Orientation (всегда работают)

✅ Безопасные опции (всегда работают):

  • Document Orientation - использует специальный классификатор (99% accuracy)
  • Textline Orientation - использует базовые алгоритмы поворота текста

💡 Что вы получите:

  1. Markdown документ - отформатированный текст с таблицами в HTML и формулами в LaTeX
  2. Автоматически извлеченные изображения - все фигуры, диаграммы и схемы
  3. ZIP архив для скачивания:
    • document.md - Markdown с правильной ориентацией (автоматически скорректирована!)
    • imgs/ - извлеченные изображения
    • data.json - полные структурированные данные
  4. Опционально:
    • Chart Parsing - табличные данные из диаграмм
    • JSON результат и визуализация с цветными рамками

🛠️ Для разработчиков API:

Включите "Показать JSON результат" для получения структурированных данных со всеми координатами, scores и метаданными.