📄 PP-StructureV3 Universal Document Parser

🎯 Специально настроено для учебников по математике и физике (📚 English / 🇷🇺 Русский)

Контроль поддерживаемых параметров PP-StructureV3: текст, таблицы, формулы, диаграммы → Markdown

📝 Языковая поддержка: English (en_PP-OCRv4), Russian (встроенный автовыбор PP-StructureV3)

Возможности:

🔍 Layout Detection с выбором моделей (PP-DocLayout_plus-L/L) - поддерживает image, figure, chart, table, text, и 15+ других типов
📊 Table Recognition (HTML таблицы) ✅ включен по умолчанию
🧮 Formula Recognition (LaTeX формулы) ✅ включен по умолчанию
📈 Chart Parsing (PP-Chart2Table) ⚠️ опционально - извлечение данных из диаграмм (медленно на CPU)
🖼️ Image Extraction ✅ включен по умолчанию - извлечение обнаруженных изображений и сохранение в ZIP
� Document Preprocessing (ориентация, выравнивание, коррекция строк)
📥 Download результатов в ZIP (Markdown + изображения + JSON)
🎨 Визуализация с цветными bounding boxes

🎉 ПОЛНАЯ ПОДДЕРЖКА: изображения, рисунки, диаграммы, таблицы, формулы, текст и все остальные элементы научных документов!

⏱️ Время обработки: 30-180 секунд в зависимости от активных модулей

📚 Идеальные учебники (сканированные, ЛЮБАЯ ориентация):

📖 Старые/поврежденные книги (повернуты на углы):

Language: по содержанию
Models: Accurate варианты
Preprocessing: 🌟 Document Orientation: ON + ✅ Textline Orientation + Unwarping
Результат: +40-60% качества + исправление ориентации и деформаций

📱 Фотографии документов (неправильно сфотографированы):

⚡ Быстрая обработка (но с ориентацией):

🎓 Специально для вашего случая (русские + английские + повернуты):

❓ Нужно ли предварительно поворачивать изображения?

❌ НЕТ! PP-StructureV3 с use_doc_orientation_classify=True делает это автоматически
🎯 Точность: 99.06% на тестовом наборе (ЛУЧШЕ, чем ручная обработка)
🚀 Встроено в pipeline (не требует отдельного процесса)
🌍 Работает для ВСЕХ языков одинаково хорошо

❌ bfloat16 ошибка (Document Unwarping):

✅ Безопасные опции (всегда работают):

Markdown документ - отформатированный текст с таблицами в HTML и формулами в LaTeX
Автоматически извлеченные изображения - все фигуры, диаграммы и схемы
ZIP архив для скачивания:
- document.md - Markdown с правильной ориентацией (автоматически скорректирована!)
- imgs/ - извлеченные изображения
- data.json - полные структурированные данные
Опционально:
- Chart Parsing - табличные данные из диаграмм
- JSON результат и визуализация с цветными рамками

Включите "Показать JSON результат" для получения структурированных данных со всеми координатами, scores и метаданными.