Architektur#
Quadrant IntegrityLens verarbeitet Dokumente durch eine Pipeline aus Extraktion, Analyse und Berichterstattung.
flowchart TD
A[PDF-Eingabe] --> B{Textebene OK?}
B -- Ja --> C[Eingebettete Textextraktion<br/>~0.2s]
B -- Nein --> D[OCR mit PaddleOCR<br/>~25s]
C --> E[Markdown mit Seitenmarkierungen]
D --> E
E --> F[Struktur parsen<br/>Seiten + Überschriften]
F --> G[Scanner parallel ausführen]
G --> H[Befunde annotieren<br/>Seite, Überschrift, Abschnitt]
H --> I[Nach Position sortieren]
I --> J[Terminalanzeige]
I --> K[PDF-Bericht]- Textextraktion — wie PDFs in analysierbaren Text umgewandelt werden
- Analyse — wie Scanner den Text verarbeiten und Befunde erzeugen