Textextraktion#
Quadrant IntegrityLens verwendet eine intelligente Extraktionsstrategie, die je nach PDF-Typ Geschwindigkeit und Genauigkeit abwägt.
Eingebetteter Text (schneller Pfad)#
Die meisten PDFs aus Textverarbeitungsprogrammen haben eine eingebettete Textebene. Die Extraktion dieses Textes ist sehr schnell (~0.2 Sekunden) und liefert qualitativ hochwertige Ergebnisse. Dies ist der Standardpfad für die meisten Schülerarbeiten.
Erkennung defekter Textebenen#
Manche PDFs — insbesondere von LaTeX erzeugte — haben eine Textebene mit verfälschten Zeichen. Quadrant IntegrityLens erkennt dies automatisch anhand spezifischer Unicode-Indikatoren (alleinstehende Trema-Zeichen), die auf eine defekte Textebene hinweisen. Wird eine defekte Textebene erkannt, wechselt Quadrant IntegrityLens automatisch zu OCR. Ein manuelles Eingreifen ist nicht nötig.
OCR-Rückfall#
Wenn OCR benötigt wird (automatisch oder über
--force-ocr), verwendet Quadrant IntegrityLens PaddleOCR zur Neuextraktion des Textes. Dies dauert länger (~25 Sekunden), funktioniert aber zuverlässig mit allen PDF-Typen.Seitenmarkierungen#
Unabhängig von der Extraktionsmethode verfolgt Quadrant IntegrityLens Seitengrenzen, damit jeder Befund einer bestimmten Seite im Original-PDF zugeordnet werden kann. So können Lehrpersonen markierte Stellen leicht im Originaldokument finden.