Scanner für deutsche Sprache#

Diese Scanner erkennen Muster, die spezifisch für deutschen Text sind, und laufen nur, wenn die Sprache auf deu gesetzt ist (Standardeinstellung).

Umlaut-Digraphen (`german`)#

KI-Modelle ersetzen manchmal deutsche Umlaute (ä, ö, ü) durch ASCII-Digraphen (ae, oe, ue). Dieser Scanner erkennt solche Ersetzungen.

Um Fehlalarme zu vermeiden, verwendet Quadrant IntegrityLens eine Liste von rund 4'500 bekannten deutschen Wörtern, die Umlaute enthalten. Ein Digraph wird nur markiert, wenn das Wort (oder ein Komposita-Suffix) eine bekannte Umlaut-Form hat. Dadurch werden englische Lehnwörter wie „poem" oder legitime deutsche Wörter wie „Abenteuer" nicht markiert.

Beispiele für markierte Wörter:

„ueber" (sollte „über" sein)
„Aerger" (sollte „Ärger" sein)
„hoeren" (sollte „hören" sein)

KI-Vokabular (`ai-vocabulary`)#

Dieser Scanner misst die Dichte von Vokabular und Phrasen, die KI-Modelle in deutschem Text übermässig verwenden. Die Muster sind in vier Stufen organisiert:

Stufe A — Einleitende Floskeln#

Übergänge, die KI übermässig zur Satzverknüpfung einsetzt:

„Darüber hinaus", „Des Weiteren", „Zudem", „Nicht zuletzt", „In diesem Zusammenhang"

Stufe B — Übertriebene Wichtigkeit#

Phrasen, die gewöhnliche Beobachtungen wichtiger erscheinen lassen als sie sind:

„eine zentrale Rolle", „von grosser Bedeutung", „einen wichtigen Beitrag"

Stufe C — Formelhafte Zusammenfassungen#

Zusammenfassungen nach Schema, die keinen inhaltlichen Mehrwert haben:

„Zusammenfassend lässt sich sagen", „Es ist wichtig zu beachten", „Abschliessend lässt sich festhalten"

Stufe D — Überverwendetes Vokabular#

Einzelwörter, die KI-Modelle unverhältnismässig bevorzugen:

„wegweisend", „facettenreich", „Zusammenspiel", „ganzheitlich", „massgeblich"

Wie die Wahrscheinlichkeit bestimmt wird#

Der Scanner zählt KI-Vokabular-Vorkommen pro ~1'000 Wörter Text:

Vorkommen pro 1'000 Wörter	Wahrscheinlichkeit
3–4	Tief
5–7	Mittel
8+	Hoch

Der Scanner erkennt automatisch Schweizer Schreibvarianten (ss statt ß) und ASCII-Digraph-Ersetzungen.

Englische Title-Case-Überschriften (`heading-capitalisation-english-style`)#

Erkennt Markdown-Überschriften, die nach englischen Title-Case-Regeln geschrieben sind — jedes Inhaltswort gross — statt in korrekter deutscher Satzschreibweise, in der nur das erste Wort und Substantive grossgeschrieben werden. KI-Modelle, die mit englischdominierten Korpora trainiert wurden, übertragen diese Gewohnheit häufig auf deutschen Text.

Markiert:

Die Bedeutung Der Nachhaltigkeit Im Unternehmen
Ein Überblick Über Die Methodik

Nicht markiert (korrektes Deutsch):

Die Bedeutung der Nachhaltigkeit im Unternehmen
Ein Überblick über die Methodik

Der Scanner prüft nur Überschriften mit drei oder mehr Wörtern. Die Wahrscheinlichkeit skaliert mit der absoluten Anzahl betroffener Überschriften: eine ist Tief, zwei bis drei sind Mittel, vier oder mehr sind Hoch.