Architektur#

Quadrant IntegrityLens verarbeitet Dokumente durch eine Pipeline aus Extraktion, Analyse und Berichterstattung.

flowchart TD
    A[PDF-Eingabe] --> B{Textebene OK?}
    B -- Ja --> C[Eingebettete Textextraktion<br/>~0.2s]
    B -- Nein --> D[OCR mit PaddleOCR<br/>~25s]
    C --> E[Markdown mit Seitenmarkierungen]
    D --> E
    E --> F[Struktur parsen<br/>Seiten + Überschriften]
    F --> G[Scanner parallel ausführen]
    G --> H[Befunde annotieren<br/>Seite, Überschrift, Abschnitt]
    H --> I[Nach Position sortieren]
    I --> J[Terminalanzeige]
    I --> K[PDF-Bericht]
  • Textextraktion — wie PDFs in analysierbaren Text umgewandelt werden
  • Analyse — wie Scanner den Text verarbeiten und Befunde erzeugen