Deutsches Sprachmodell Gehirn mit digitalen Verbindungen

German Commons: Ein Meilenstein für offene deutsche Sprachmodelle

Ein Konsortium von Forschenden hat "German Commons" veröffentlicht, den bisher größten Korpus offen lizenzierter deutscher Texte. Dieses Projekt zielt darauf ab, die Entwicklung von KI-Sprachmodellen zu erleichtern, die rechtlich unbedenklich sind und keine Lizenzprobleme mit sich bringen, wie es bei vielen auf Web-Crawls basierenden Modellen der Fall ist.

Wichtige Erkenntnisse

  • Umfangreicher Korpus: 154,56 Milliarden Token aus 35,78 Millionen Dokumenten.
  • Offene Lizenzierung: Alle Texte erlauben Weiterverbreitung, Modifikation und kommerzielle Nutzung.
  • Vielfältige Quellen: Daten aus 41 Institutionen, darunter Bibliotheken und Archive.
  • Qualitätskontrolle: Umfangreiche Filterung und Deduplizierung.
  • Reproduzierbarkeit: Veröffentlichung der Datenverarbeitungsbibliothek "llmdata".

Umfang und Zusammensetzung des Korpus

Das Forschungsteam, bestehend aus Mitgliedern der Universität Kassel, der Universität Leipzig und hessian.AI, hat eine beeindruckende Menge an deutschen Texten zusammengetragen. Der Korpus umfasst 154,56 Milliarden Token, die aus 35,78 Millionen Dokumenten stammen. Diese Daten wurden aus 41 verschiedenen Quellen gesammelt und decken sieben thematische Bereiche ab: Web-Inhalte, politische Dokumente, Rechtstexte, Nachrichten, Wirtschaftstexte, kulturelle Inhalte und wissenschaftliche Texte. Zu den namhaften Datenlieferanten zählen die Deutsche Nationalbibliothek, die Österreichische Nationalbibliothek, das Deutsche Digitale Wörterbuch (DWDS), das Leibniz-Institut für Deutsche Sprache (IDS) sowie verschiedene Wikimedia-Projekte.

Dominanz von Nachrichten und kulturellen Inhalten

Die Analyse des Korpus zeigt, dass Nachrichtentexte den größten Anteil ausmachen, gefolgt von kulturellen Inhalten. Diese stammen überwiegend aus historischen Zeitungsarchiven und digitalisierten Büchern, die zwischen dem 18. und 20. Jahrhundert veröffentlicht wurden. Web-Inhalte sind zwar ebenfalls vertreten, jedoch in geringerem Umfang. Wissenschaftliche und wirtschaftliche Texte sind im Vergleich dazu unterrepräsentiert.

Lizenzierung und Qualitätsfilterung

Ein zentrales Merkmal von German Commons ist die explizite offene Lizenzierung aller enthaltenen Texte. Gemeinfreie Inhalte dominieren, und die verwendeten Lizenzen gestatten ausdrücklich die Weiterverbreitung, Modifikation und kommerzielle Nutzung. Die Forschenden haben eine ausgeklügelte, mehrstufige Verarbeitungspipeline implementiert, die eine umfassende Qualitätsfilterung, Deduplizierung und Korrektur von Textformatierungsfehlern beinhaltet. Besonderes Augenmerk wurde auf die Reduzierung von Erkennungsfehlern bei maschinell erkannten Texten aus gescannten Dokumenten gelegt, da deutsche Sonderzeichen wie Umlaute hierbei besonders anfällig sind.

Die Qualitätsfilterung war rigoros: 46 Prozent der ursprünglich gesammelten Daten wurden entfernt, hauptsächlich wegen der Identifizierung als nicht-deutsche Texte oder weil sie zu kurz waren. Letztendlich blieben 51 Prozent der ursprünglichen Daten erhalten. Eine Untersuchung von 385.467 Textabschnitten ergab zudem, dass der Anteil toxischer Inhalte minimal ist. In fünf verschiedenen Kategorien wie Gewalt oder Diskriminierung wurden durchschnittlich 95 Prozent der Texte als unbedenklich eingestuft.

Open-Source-Pipeline für Community-Erweiterungen

Um die vollständige Reproduzierbarkeit der Ergebnisse zu gewährleisten und die Weiterentwicklung zu fördern, veröffentlichen die Forschenden neben dem Korpus auch ihre Datenverarbeitungsbibliothek "llmdata". Diese Pipeline ist speziell auf deutsche Texte zugeschnitten und kann von der breiteren Community erweitert werden. German Commons ist über Hugging Face frei zugänglich und soll die Entwicklung rechtlich sicherer deutscher Sprachmodelle maßgeblich vorantreiben. Dieses Projekt reiht sich ein in Bemühungen wie das englischsprachige Common-Pile-Projekt und das europäische OpenGPT-X-Projekt, die ebenfalls auf offen lizenzierte Daten für KI-Entwicklung setzen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like