Nvidia: Gerichtsdokumente enthüllen Korrespondenz um Raubkopie-Datensatz

vor 2 Stunden 2

Der US-Konzern Nvidia soll das Archiv-Projekt Anna’s Archive kontaktiert haben, um Zugang zu Millionen von raubkopierten Büchern zu erhalten. Das geht aus Gerichtsdokumenten hervor, die der Blog Torrentfreak zuerst veröffentlichte. Den im Rahmen einer Klageerweiterung am Bundesbezirksgericht für den nördlichen Bezirk Kaliforniens eingereichten Dokumenten zufolge wandte sich ein Mitglied des Datenstrategieteams von Nvidia direkt an Anna’s Archive. Dabei sollen die Rahmenbedingungen für einen besonders schnellen Zugriff auf rund 500 Terabyte an Daten aus der Schattenbibliothek thematisiert worden sein.

Hintergrund der nun veröffentlichten Interna ist eine bereits im Januar 2024 eingereichte Sammelklage dreier US-Schriftsteller gegen Nvidia. Sie werfen dem Grafikprozessorhersteller vor, ihre urheberrechtlich geschützten Werke ohne Erlaubnis für das Training der hauseigenen KI-Modelle, etwa des Frameworks NeMo, genutzt zu haben und fordern Entschädigungen. Die betroffenen Werke der Autoren seien Teil des mehr als 196.000 Bücher umfassenden Books3-Datensatzes der Schattenbibliothek Bibliotik gewesen. Den ursprünglich klagenden Schriftstellern haben sich bereits weitere angeschlossen. Potenziell könnten allerdings noch hunderte weitere Autoren folgen.

Vergangenen Freitag reichten die Kläger eine Klageerweiterung beim Bezirksgericht in Kalifornien ein, die unter anderem brisante Korrespondenzen zwischen einem Angestellten des Datenstrategieteams von Nvidia und Anna’s Archive enthält. Die seitens Torrentfreak zitierten E-Mail-Verläufe belegen, dass Nvidia die Schattenbibliothek gezielt kontaktierte, um eine Integration ihrer Inhalte in die Trainingsdaten von Nvidias eigenen Large Language Models (LLM) zu ermöglichen.

Anna’s Archive habe mehr als 10.000 US-Dollar für einen sogenannten Schnellzugang zu den gehosteten Daten gefordert, woraufhin Nvidia die genauen Modalitäten eines solchen beschleunigten Zugriffs erfragt habe. Nvidia sei von den Verantwortlichen der Schattenbibliothek auch darüber in Kenntnis gesetzt worden, dass die angefragten Datensätze illegal erworben und gepflegt worden seien. Anna’s Archive habe deshalb erfragt, ob eine interne Genehmigung vorliege. Diese habe Nvidia innerhalb einer Woche erteilt, woraufhin die Schattenbibliothek den Zugang zu den rund 500 Terabyte an raubkopierten Büchern ermöglicht habe. Ob Nvidia für den Zugriff auf die Daten tatsächlich bezahlt hat, geht aus den Gerichtsdokumenten nicht hervor.

Torrentfreak zufolge ist es das erste Mal, dass E-Mail-Verläufe zwischen einem großen US-Technologieunternehmen wie Nvidia und Anna’s Archive veröffentlicht wurden.

Nvidia wird im Rahmen der Klageerweiterung vorgeworfen, neben dem Books3-Datensatz weitere Daten aus den Schattenbibliotheken LibGen, Sci-Hub und Z-Library heruntergeladen und für das LLM-Training genutzt zu haben. Zudem soll Nvidia Skripte und Tools vertrieben haben, die es Firmenkunden ermöglicht haben sollen, „The Pile“ herunterzuladen. „The Pile“ ist ein mehr als 886 Gigabyte großer Open-Source-Datensatz, der zum Training von LLMs genutzt wird. Das Korpus enthält neben gemeinfreien Werken auch den raubkopierten Books3-Datensatz.

Die Klage gegen Nvidia ist nicht die erste ihrer Art. Die New York Times hat bereits gegen OpenAI geklagt. ChatGPT, der KI-gestützte Chatbot des Unternehmens, soll urheberrechtlich geschützte Inhalte der Zeitung wortwörtlich wiedergegeben haben. Die New York Times hat schon die nächste Klage eingereicht, dieses Mal gegen die KI-Suchmaschine Perplexity. In Deutschland hat die GEMA in erster Instanz gegen OpenAI gewonnen.

(rah)

Gesamten Artikel lesen