Architektur on Quadrant IntegrityLens

Textextraktion

Mon, 01 Jan 0001 00:00:00 +0000

Quadrant IntegrityLens verwendet eine intelligente Extraktionsstrategie, die je nach PDF-Typ Geschwindigkeit und Genauigkeit abwägt.

Eingebetteter Text (schneller Pfad)#

Die meisten PDFs aus Textverarbeitungsprogrammen haben eine eingebettete Textebene. Die Extraktion dieses Textes ist sehr schnell (~0.2 Sekunden) und liefert qualitativ hochwertige Ergebnisse. Dies ist der Standardpfad für die meisten Schülerarbeiten.
Erkennung defekter Textebenen#

Manche PDFs — insbesondere von LaTeX erzeugte — haben eine Textebene mit verfälschten Zeichen. Quadrant IntegrityLens erkennt dies automatisch anhand spezifischer Unicode-Indikatoren (alleinstehende Trema-Zeichen), die auf eine defekte Textebene hinweisen. Wird eine defekte Textebene erkannt, wechselt Quadrant IntegrityLens automatisch zu OCR. Ein manuelles Eingreifen ist nicht nötig.

Mon, 01 Jan 0001 00:00:00 +0000

Nach der Textextraktion parst Quadrant IntegrityLens die Dokumentstruktur und führt die Scanner parallel aus.

Strukturanalyse#

Der extrahierte Markdown-Text wird analysiert, um Seitengrenzen (aus -Markierungen), Überschriften (Markdown-Überschriften jeder Ebene) und Abschnitte (Text zwischen Überschriften) zu identifizieren. Diese Struktur ermöglicht es, jeden Befund mit einer präzisen Position zu versehen: Seitenzahl, Überschrift und umgebender Abschnittstext.
Parallele Scanner#

Alle aktivierten Scanner laufen parallel über den gesamten Text. Jeder Scanner ist unabhängig und konzentriert sich auf einen bestimmten KI-Indikatortyp. Scanner deklarieren, welche Sprachen sie unterstützen — bei Setzen von --language laufen nur passende Scanner. Sprachunabhängige Scanner (Unicode und Struktur) laufen immer.