Im Zentrum eines eskalierenden Urheberrechtsstreits steht die New York Times (NYT), die von OpenAI umfassenden Einblick in 120 Millionen ChatGPT-Nutzergespräche fordert. Ziel ist es, Beweise für mutmaßliche Urheberrechtsverletzungen zu sichern, bei denen ChatGPT angeblich Inhalte aus NYT-Artikeln verwendet hat. OpenAI wehrt sich gegen diese Forderung und verweist auf erhebliche Datenschutz- und technische Risiken, während die NYT auf die Notwendigkeit einer vollständigen Analyse zur Aufdeckung systematischer Verstöße pocht.
OpenAI bietet nur einen Bruchteil der geforderten Daten an
OpenAI hat sich bereit erklärt, der New York Times Zugang zu 20 Millionen Chatverläufen zu gewähren, was nur einem Sechstel der von der Zeitung geforderten 120 Millionen entspricht. Die NYT möchte diese Daten analysieren, um festzustellen, ob ChatGPT urheberrechtlich geschützte Inhalte aus ihren Artikeln generiert hat und wie sich solche Vorfälle über einen Zeitraum von 23 Monaten entwickelt haben.
Datenschutzbedenken und technische Hürden
OpenAI argumentiert, dass die vollständige Durchsuchung der Nutzergespräche erhebliche Risiken für den Datenschutz birgt. Die unstrukturierten Gesprächsprotokolle können sensible Informationen wie Adressen oder Passwörter enthalten, die vor einer Weitergabe aufwendig bereinigt werden müssten. Das Unternehmen schätzt, dass die Bereitstellung der 20 Millionen angebotenen Logs bereits zwölf Wochen dauern würde, während die vollständige Datenmenge etwa 36 Wochen in Anspruch nehmen könnte. Zudem warnt OpenAI vor neuen Angriffsflächen für Datenlecks durch die verlängerte Speicherung gelöschter Chats.
Die NYT besteht auf vollständigem Zugang
Die New York Times lehnt die von OpenAI angebotene Begrenzung ab und besteht auf vollständigem Zugang zu den Daten. Die Zeitung möchte nicht nur einzelne Fälle, sondern auch systematische Urheberrechtsverletzungen und deren zeitlichen Verlauf nachweisen können. OpenAI verweist auf die Einschätzung eines Informatikers, der 20 Millionen Datensätze als statistisch ausreichend betrachtet, und hält eine größere Datenmenge für unverhältnismäßig.
"Gelöschte" Daten und die Sorge vor Beweisvernichtung
Der aktuelle Streit folgt auf eine frühere gerichtliche Anordnung, die OpenAI dazu verpflichtete, sämtliche Chatverläufe, einschließlich gelöschter Gespräche, aufzubewahren. Diese Anordnung war auf Initiative der NYT und anderer Medienhäuser ergangen, die OpenAI beschuldigten, potenziell belastende Beweise durch automatisches Löschen zu vernichten. OpenAI hatte dies als schweren Eingriff in die Privatsphäre der Nutzer kritisiert und betont, dass viele Gespräche zutiefst persönliche Informationen enthalten. Das Unternehmen widersprach zudem dem Vorwurf der Beweisvernichtung und bezeichnete die Behauptung, Nutzer würden massenhaft Chats löschen, um rechtlich bedenkliche Inhalte zu verbergen, als spekulativ. Dennoch ordnete die zuständige Richterin vorsorglich die umfassende Datensicherung an, um den Verlust von Beweisen zu verhindern.