Google Deepmind hat mit VaultGemma ein neues Sprachmodell vorgestellt, das speziell auf Datenschutz ausgelegt ist. Als bisher größtes offenes Modell dieser Art mit einer Milliarde Parametern wurde es von Grund auf mit "differential privacy" trainiert. Diese Methode fügt dem Trainingsprozess gezielt Zufallsrauschen hinzu, um zu verhindern, dass das Modell sensible Trainingsdaten wie Namen oder Adressen auswendig lernt und preisgibt.
Wichtige Erkenntnisse
- VaultGemma nutzt "differential privacy", um das Auswendiglernen von Trainingsdaten zu verhindern.
- Erste Tests deuten darauf hin, dass das Modell keine Trainingsdaten wiedergibt.
- Die Leistung von VaultGemma entspricht derzeit etwa der von LLMs ohne Privatschutz von vor fünf Jahren.
- Die Modellgewichte sind frei auf Hugging Face und Kaggle verfügbar.
Datenschutz durch "Differential Privacy"
Herkömmliche große Sprachmodelle haben die Tendenz, Teile ihrer Trainingsdaten zu "auswendig zu lernen". Dies birgt das Risiko, dass sensible Informationen wie persönliche Daten oder ganze Textpassagen unbeabsichtigt preisgegeben werden. VaultGemma begegnet diesem Problem durch den Einsatz von "differential privacy". Bei dieser Technik wird dem Trainingsprozess gezielt Rauschen hinzugefügt. Dies macht es statistisch unmöglich, das Modell auf einzelne, spezifische Datenpunkte zurückzuführen. Selbst wenn VaultGemma mit vertraulichen Dokumenten trainiert würde, könnten diese später nicht direkt rekonstruiert werden, was einen erheblichen Fortschritt im Hinblick auf den Datenschutz darstellt.
Leistungseinbußen als Kompromiss
Obwohl VaultGemma einen wichtigen Schritt in Richtung datenschutzfreundlicherer Sprachmodelle darstellt, gibt es einen deutlichen Nachteil: Die Leistung des Modells ist derzeit begrenzt. Laut Google liefert VaultGemma Ergebnisse, die mit denen von großen Sprachmodellen (LLMs) ohne spezielle Datenschutzmaßnahmen vergleichbar sind, wie sie vor etwa fünf Jahren üblich waren. Dies deutet darauf hin, dass die Implementierung von "differential privacy" auf Kosten der Modellgenauigkeit und Leistungsfähigkeit geht. Die Modellgewichte von VaultGemma sind jedoch für die breite Öffentlichkeit zugänglich und können auf Plattformen wie Hugging Face und Kaggle heruntergeladen werden, was weitere Forschung und Entwicklung in diesem Bereich ermöglicht.