Unicode-Zeichen-Scanner#

Diese Scanner erkennen spezielle Unicode-Zeichen, die KI-Modelle (ChatGPT, Copilot usw.) häufig in Text einfügen, die aber von Lernenden fast nie manuell getippt werden. Sie laufen unabhängig von der gewählten Sprache.

Scanner-IDZeichenBeispielWahrscheinlichkeit
em-dashU+2014 — (langer Gedankenstrich)„Text — mehr Text" statt „Text - mehr Text"Hoch
en-dash-word-joinU+2013 – zwischen Buchstaben„Wort–Verbindung" statt „Wort-Verbindung"Hoch
smart-quotesU+201D " und U+2018 'Typografische AnführungszeichenMittel / Tief
ellipsisU+2026 … (Auslassungszeichen)„und so weiter…" statt „und so weiter…"Mittel
non-breaking-spaceU+00A0 (geschütztes Leerzeichen)Unsichtbar — sieht aus wie ein normales LeerzeichenMittel
invisible-spaceU+200B, U+200A, U+2009, U+202F, U+FEFFKomplett unsichtbare Zeichen ohne BreiteHoch
minus-signU+2212 − (Minuszeichen)„5 − 3" statt „5 - 3"Mittel

Warum diese Zeichen wichtig sind#

Wenn Lernende Text in einem Textverarbeitungsprogramm tippen, verwenden sie die Standard-Tastaturzeichen: Bindestriche (-), gerade Anführungszeichen ("), drei Punkte (...) und normale Leerzeichen. KI-Modelle hingegen sind auf typografisch aufbereiteten Text trainiert und geben Unicode-Varianten dieser Zeichen aus.

Ein einzelner langer Gedankenstrich ist kein Beweis für KI-Nutzung. Aber ein Dokument voller langer Gedankenstriche, typografischer Anführungszeichen und Leerzeichen — kombiniert mit anderen Befunden — ist ein starkes Signal.

Sonderfälle#

  • U+201C " (öffnendes Anführungszeichen) wird nicht markiert, da es das deutsche schliessende Anführungszeichen ist.
  • U+2019 ’ (schliessender Apostroph) wird nicht markiert, da er in deutschen Zusammenziehungen vorkommt.
  • Auslassungszeichen in Inhaltsverzeichnissen werden herausgefiltert, um Fehlalarme durch Punktreihen zu vermeiden.