Wikipedia hat einen neuen Leitfaden für seine Editoren veröffentlicht, der ihnen helfen soll, von künstlicher Intelligenz generierte Texte zu erkennen. Das WikiProject AI Cleanup hat eine umfassende Liste von Merkmalen zusammengestellt, die auf den Einsatz von KI-Tools wie ChatGPT hinweisen können, um die Integrität der Enzyklopädie zu wahren.
Sprachliche Auffälligkeiten von KI-Texten
Der Leitfaden hebt mehrere sprachliche Muster hervor, die typisch für KI-generierte Inhalte sind:
- Überbetonung von Bedeutung: Phrasen wie "stands as a testament", "plays a vital role" oder "underscores its importance" werden häufig verwendet.
- Werbesprachliche Formulierungen: Begriffe wie "rich cultural heritage", "breathtaking" oder "stunning natural beauty" verstoßen gegen die Neutralitätsrichtlinien von Wikipedia.
- Redaktionelle Kommentare: Formulierungen wie "it’s important to note" oder "it is worth" können eigene Interpretationen einführen und verstoßen gegen die Richtlinie "No-original-research".
- Übermäßige Konjunktionen: Eine häufige Verwendung von Wörtern wie "moreover", "furthermore" oder "on the other hand" kann auf einen ungeeigneten, essayartigen Ton hinweisen.
- Zusammenfassende Phrasen: Abschnitte, die mit "In summary" oder "In conclusion" beginnen, sind für Wikipedia-Artikel unüblich.
Technische Erkennungsmerkmale
Neben sprachlichen Indikatoren gibt es auch technische Hinweise:
- Überschriftenformatierung: KI-Tools verwenden oft Titelformate, bei denen alle Hauptwörter großgeschrieben werden, anstelle des in Wikipedia üblichen Satzformats.
- Formatierung mit Markdown: Die Verwendung von Sternchen (*) oder Unterstrichen (_) für Formatierungen anstelle von Wikitext ist ein weiteres Anzeichen.
- "turn0search0"-Artefakte: Seit Februar 2025 werden Platzhalter-Codes beobachtet, die auf externe Links hinweisen, die der Chatbot nicht korrekt einfügen kann.
Problematische Quellenangaben und versehentliche Preisgabe
Ein besonders kritischer Punkt sind erfundene oder fehlerhafte Quellenangaben, sogenannte "halluzinierte Referenzen". Eine hohe Anzahl von 404-Fehlern bei externen Links kann ein klares Zeichen für KI-generierte Inhalte sein, insbesondere wenn diese Links nicht in Web-Archiven zu finden sind.
Manchmal fügen Editoren versehentlich KI-generierte Korrespondenz ein, erkennbar an Phrasen wie "I hope this helps" oder "Certainly!". Auch Wissens-Cutoff-Disclaimer wie "as of [date]" oder "Up to my last training update" sind typisch für KI-Chatbots.
Vorsicht bei KI-Detektoren
Die Initiatoren des Leitfadens betonen, dass nicht alle Texte mit diesen Merkmalen zwangsläufig KI-generiert sind. Sie raten zur Vorsicht und empfehlen, mehrere Indikatoren zu berücksichtigen. Automatische KI-Erkennungssoftware wie GPTZero sollte nicht das menschliche Urteilsvermögen ersetzen, auch wenn sie besser als der Zufall funktioniert.
Die Gruppe WikiProject AI Cleanup, die sich Ende 2023 formierte, hat mit diesem Leitfaden die bisher umfangreichste Sammlung von Indizien zur Erkennung von KI-Texten veröffentlicht. Wikipedia-Gründer Jimmy Wales, der in der Vergangenheit ChatGPT für fehlerhafte Quellen kritisiert hatte, zeigt sich generell offen für KI-Unterstützung auf der Plattform.