Unicode-Zeichen-Scanner#

Diese Scanner erkennen spezielle Unicode-Zeichen, die KI-Modelle (ChatGPT, Copilot usw.) häufig in Text einfügen, die aber von Lernenden fast nie manuell getippt werden. Sie laufen unabhängig von der gewählten Sprache.

Scanner-ID	Zeichen	Beispiel	Wahrscheinlichkeit
`em-dash`	U+2014 — (langer Gedankenstrich)	„Text — mehr Text" statt „Text - mehr Text"	Hoch
`en-dash-word-join`	U+2013 – zwischen Buchstaben	„Wort–Verbindung" statt „Wort-Verbindung"	Hoch
`smart-quotes`	U+201D " und U+2018 '	Typografische Anführungszeichen	Mittel / Tief
`ellipsis`	U+2026 … (Auslassungszeichen)	„und so weiter…" statt „und so weiter…"	Mittel
`non-breaking-space`	U+00A0 (geschütztes Leerzeichen)	Unsichtbar — sieht aus wie ein normales Leerzeichen	Mittel
`invisible-space`	U+200B, U+200A, U+2009, U+202F, U+FEFF	Komplett unsichtbare Zeichen ohne Breite	Hoch
`minus-sign`	U+2212 − (Minuszeichen)	„5 − 3" statt „5 - 3"	Mittel

Warum diese Zeichen wichtig sind#

Wenn Lernende Text in einem Textverarbeitungsprogramm tippen, verwenden sie die Standard-Tastaturzeichen: Bindestriche (-), gerade Anführungszeichen ("), drei Punkte (...) und normale Leerzeichen. KI-Modelle hingegen sind auf typografisch aufbereiteten Text trainiert und geben Unicode-Varianten dieser Zeichen aus.

Ein einzelner langer Gedankenstrich ist kein Beweis für KI-Nutzung. Aber ein Dokument voller langer Gedankenstriche, typografischer Anführungszeichen und Leerzeichen — kombiniert mit anderen Befunden — ist ein starkes Signal.

Sonderfälle#

U+201C " (öffnendes Anführungszeichen) wird nicht markiert, da es das deutsche schliessende Anführungszeichen ist.
U+2019 ’ (schliessender Apostroph) wird nicht markiert, da er in deutschen Zusammenziehungen vorkommt.
Auslassungszeichen in Inhaltsverzeichnissen werden herausgefiltert, um Fehlalarme durch Punktreihen zu vermeiden.