Textextraktion#

Quadrant IntegrityLens verwendet eine intelligente Extraktionsstrategie, die je nach PDF-Typ Geschwindigkeit und Genauigkeit abwägt.

  1. Eingebetteter Text (schneller Pfad)#

    Die meisten PDFs aus Textverarbeitungsprogrammen haben eine eingebettete Textebene. Die Extraktion dieses Textes ist sehr schnell (~0.2 Sekunden) und liefert qualitativ hochwertige Ergebnisse. Dies ist der Standardpfad für die meisten Schülerarbeiten.

  2. Erkennung defekter Textebenen#

    Manche PDFs — insbesondere von LaTeX erzeugte — haben eine Textebene mit verfälschten Zeichen. Quadrant IntegrityLens erkennt dies automatisch anhand spezifischer Unicode-Indikatoren (alleinstehende Trema-Zeichen), die auf eine defekte Textebene hinweisen. Wird eine defekte Textebene erkannt, wechselt Quadrant IntegrityLens automatisch zu OCR. Ein manuelles Eingreifen ist nicht nötig.

  3. OCR-Rückfall#

    Wenn OCR benötigt wird (automatisch oder über --force-ocr), verwendet Quadrant IntegrityLens PaddleOCR zur Neuextraktion des Textes. Dies dauert länger (~25 Sekunden), funktioniert aber zuverlässig mit allen PDF-Typen.

  4. Seitenmarkierungen#

    Unabhängig von der Extraktionsmethode verfolgt Quadrant IntegrityLens Seitengrenzen, damit jeder Befund einer bestimmten Seite im Original-PDF zugeordnet werden kann. So können Lehrpersonen markierte Stellen leicht im Originaldokument finden.