StartseiteArtikel

Nvidia wird verklagt. Ist es ein verstecktes Regime in der Branche, große Sprachmodelle mit illegalen Kopien zu trainieren?

《财经》新媒体2026-02-09 10:41
Die "Schattenbibliothek" speichert illegal und verbreitet eine riesige Anzahl von Buchressourcen und bietet eine bezahlbare "Prioritätsdownloadroute" an. Obwohl dies den Bedarf von Entwicklern großer Modelle an hochwertigen Daten befriedigt, bringt es enorme Urheberrechtsrisiken mit sich; Im Zusammenhang mit einem Rechtsstreit hat NVIDIA einen formellen Antrag gestellt und behauptet, dass ihr Verhalten als "angemessene Nutzung" gilt.

In letzter Zeit ist NVIDIA Beschuldigter in einem kollektiven Rechtsstreit um das Urheberrecht von AI-Trainingsdaten geworden.

Die Kläger in diesem Verfahren sind fünf Schriftsteller, die mehrere urheberrechtlich geschützte Werke besitzen. In der Klageschrift wird NVIDIA beschuldigt, bei der Entwicklung seines nächsten Big Language Models (großen Sprachmodells) mit dem NeMo Megatron-Framework Datensätze aus einer illegalen Bibliothek, die auch als "Schattenbibliothek" bekannt ist, zu verwenden, die die urheberrechtlich geschützten Werke der Kläger enthalten.

NeMo Megatron ist ein von NVIDIA entwickeltes End-to-End-Framework zur Erstellung, zum Training und zur Bereitstellung von großen Sprachmodellen.

Die Kläger haben das Verfahren vor dem Bundesgericht für das nördliche Distrikt Kalifornien in den USA eingeleitet. Am 31. Januar 2026 hat NVIDIA einen formellen Antrag gestellt, in dem es behauptet, dass die Kläger nicht genügend Beweise für ein Urheberrechtsverstoß der Firma vorgelegt haben. NVIDIA hat darum gebeten, die Klageschrift abzuweisen und behauptet, dass seine Handlungen als "angemessene Nutzung" anzusehen seien. Das Gericht hat für den 2. April 2026 eine Anhörung angesetzt, um den Antrag von NVIDIA zu prüfen.

Interne Aufzeichnungen, die in der Klageschrift vorgelegt wurden, zeigen, dass NVIDIA unter dem Wettbewerbsdruck von OpenAI steht. Um auf der Entwicklerkonferenz 2023 seine führende Technologie zu präsentieren, habe es sich nicht gescheut, über "Schattenbibliotheken" Millionen von illegalen E-Büchern zu erhalten, um seine großen Sprachmodelle zu trainieren.

Darüber hinaus wird in der Klageschrift festgestellt, dass NVIDIA seinen Kunden Tools und Skripte zur Verfügung stellt, um sie zu ermutigen und zu unterstützen, illegale Datensätze herunterzuladen.

Im Zuge der Boomphase der großen Sprachmodelle ist nicht nur NVIDIA in Streitigkeiten um das Urheberrecht von Trainingsdaten verwickelt. Auch Künstliche-Intelligenz-Riesen wie OpenAI, xAI, Anthropic und Meta sind bereits Gegenstand von Rechtsstreiten geworden. In einem Urheberrechtsverstoßfall hat Anthropic zugesagt, sich mit einer Entschädigung von mindestens 1,5 Milliarden US-Dollar auszugleichen, was möglicherweise einen neuen Rekord bei Urheberrechtsentschädigungen setzt.

01

Hat die NVIDIA-Führung die Zusammenarbeit mit illegalen Bibliotheken genehmigt?

Die Qualität und Menge der Trainingsdaten spielen eine entscheidende Rolle bei der Entwicklung von großen Sprachmodellen. Bücher können eine ausreichende Datenmenge liefern und gelten in der Branche als hochwertige Trainingsdaten. Für Entwickler von großen Sprachmodellen sind die Daten aus "Schattenbibliotheken" leichter zugänglich und erfüllen den Bedarf an Buchdaten für das Training.

Die Klageschrift zeigt, dass NVIDIA mehrere große Sprachmodelle der NeMo Megatron-Serie veröffentlicht hat. Laut der Beschreibung auf der Hugging Face-Website wurden diese Modelle auf dem Datensatz The Pile trainiert, der von der gemeinnützigen Forschungsorganisation EleutherAI veröffentlicht wurde.

The Pile enthält eine Teilmenge namens Books3, die aus der "Schattenbibliothek" Bibliotik stammt und etwa 190.000 Bücher umfasst.

Darüber hinaus wird NVIDIA beschuldigt, direkt mit "Schattenbibliotheken" zusammengearbeitet zu haben, um seine großen Sprachmodelle mit illegalen Buchressourcen zu trainieren. Dazu gehört auch die weltweit größte "Schattenbibliothek" Anna’s Archive.

Anna’s Archive wurde im November 2022 gegründet, als die bekannte E-Bibliothek Z-Library von der US-Regierung massiv gesperrt und deren Gründer festgenommen wurden. Das Ziel war es, die Ressourcen von Z-Library, Library Genesis (LibGen), Open Library und Sci-Hub zu integrieren und ein "permanentes Backup" des Wissens zu schaffen. Im Januar 2026 hat das Bundesgericht in Ohio in den USA einen dauerhaften Verbotsbefehl erlassen, wonach alle gesammelten Daten aus der weltweit größten Bibliothekskatalogdatenbank WorldCat gelöscht werden müssen.

Die Klageschrift enthüllt den gesamten Kommunikations- und Verhandlungsprozess zwischen NVIDIA und Anna’s Archive. Interne Dokumente zeigen, dass der direkte Grund für die Beschaffung von illegalen Büchern durch NVIDIA der heftige Wettbewerb in der Branche war. Im September 2022 hat NVIDIA die große Sprachmodelle der NeMo Megatron-Serie veröffentlicht. In den folgenden zwölf Monaten war das von OpenAI entwickelte ChatGPT ein großer Erfolg, was die Investoren für Künstliche Intelligenz interessierter machte. Daher sah NVIDIA die jährliche Entwicklerkonferenz im Herbst 2023 als wichtigen Zeitpunkt an. Nur durch die Veröffentlichung eines leistungsstarken großen Sprachmodells auf dieser Konferenz konnte es dem heftigen Wettbewerb besser standhalten.

Die Klageschrift zeigt, dass NVIDIA bei der Beschaffung von Daten für das Projekt mit dem internen Code-Namen "NextLargeLLM", "NextLLMLarge" und "Next Generation LLM" (im Folgenden zusammenfassend als NextLargeLLM bezeichnet) stark auf Buchkorpora fokussiert war. Im August 2023 hat NVIDIA mit mehreren Buchverlagen verhandelt, um schnell Zugang zu Buchdaten zu erhalten. Diese Anfrage wurde jedoch abgelehnt, und es konnte kein Datenlizenzvertrag geschlossen werden.

Um den dringenden Bedarf an Buchressourcen zu befriedigen, hat NVIDIA Anna’s Archive eine Schreiben gesendet, um Informationen über die konkrete Form des "Schnellzugangs" zu dessen Daten zu erhalten. Anna’s Archive hat in seiner Antwort darauf hingewiesen, dass es aufgrund der illegalen Herkunft seiner Ressourcen ratsam sei, dass NVIDIA intern überprüfe, ob eine Zusammenarbeit möglich sei, bevor es dies mitteilt und vorantreibt.

Innerhalb einer Woche nach der Kontaktaufnahme mit Anna’s Archive hat die NVIDIA-Führung schnell die Zusammenarbeit beider Parteien genehmigt. Danach hat Anna’s Archive NVIDIA Zugang zu Millionen von illegalen Buchdaten mit einer Gesamtmenge von etwa 500 TB gewährt.

Die Klageschrift besagt, dass NVIDIA neben Anna’s Archive und The Pile auch Buchressourcen aus anderen "Schattenbibliotheken" heruntergeladen hat, darunter Z-Library, LibGen und Sci-Hub.

Z-Library war aufgrund der schnellen Aktualisierung seiner Bücher und des guten Benutzererlebnisses schnell gewachsen. Im November 2022 hat die US-amerikanische Federal Bureau of Investigation (FBI) mehr als 200 Kern-Domains von Z-Library beschlagnahmt. Zwei russische Gründer wurden in Argentinien festgenommen und stehen unter Beschuldigung von Geldwäsche und Urheberrechtsverstößen. Die US-Regierung sucht derzeit ihre Auslieferung. Darüber hinaus haben die Gerichte in den USA, Österreich, Deutschland und Indien mehrmals an Domain-Registrar befohlen, die Domains von Z-Library zu kündigen.

Library Genesis gilt als der Urvater der "Schattenbibliotheken". Im Jahr 2017 hat das Gericht in New York Library Genesis verurteilt, dem Verlag Elsevier 15 Millionen US-Dollar Schadensersatz zu zahlen. Im Jahr 2023 haben mehrere US-amerikanische Schulbuchverlage erneut gegen LibGen klagen lassen und verlangt, dass es seine Domain abgibt oder vollständig aus dem Internet gelöscht wird.

Sci-Hub konzentriert sich auf wissenschaftliche Artikel. Die Gerichte in Ländern wie Großbritannien, Frankreich und Deutschland haben inzwischen alle wichtigen Internetdienstanbieter (ISP) angewiesen, Sci-Hub zu blockieren. Seit Ende 2020 hat Sci-Hub im Wesentlichen aufgehört, neue Artikel in großem Maßstab hochzuladen.

Im Februar 2024, vier Monate nach der Einigung mit Anna’s Archive, hat NVIDIA sein damals leistungsstärkstes großes Sprachmodell Nemotron-4 15B veröffentlicht. Offizielle Informationen zeigen, dass Nemotron-4 15B 15 Milliarden Parameter hat und mit 8 Billionen Textmarkierungsdaten vorgespeichert wurde. NVIDIA hat die Herkunft der Trainingsdaten für dieses große Sprachmodell nicht preisgegeben, hat jedoch öffentlich angegeben, dass 70 % der Trainingsdaten aus einem "englischen natürlichen Sprach"-Datensatz stammen, der selbst 4,6 % Buchinhalte enthält. Die Klageschrift geht davon aus, dass die Trainingsdaten von NVIDIA Millionen von Büchern enthalten müssen. Ohne die Nutzung von illegalen Ressourcen wäre es der Firma unmöglich, eine ausreichende Menge an Buchdaten zu erhalten.

Darüber hinaus zeigt die Klageschrift, dass NVIDIA seinen Kunden über das NeMo Megatron-Framework und die BigNLP-Plattform Skripte zur automatischen Herunterladung und Vorverarbeitung des The Pile-Datensatzes zur Verfügung gestellt hat. NVIDIA hat auch den Kunden Persimmon AI Labs und Amazon ähnliche Unterstützung bei der Herunterladung und Verarbeitung des The Pile-Datensatzes geleistet.

02

Trägt der Bedarf an Trainingsdaten für große Sprachmodelle dem illegalen Geschäft bei?

"Schattenbibliotheken" speichern und verbreiten illegal eine große Menge an hochwertigen urheberrechtlich geschützten Inhalten und sind auch bereit, Entwicklern von großen Sprachmodellen einen bezahlbaren "Prioritätsdownloadkanal" anzubieten.

Anna's Archive hat auf seiner offiziellen Website erklärt: "Große Sprachmodelle können nur mit hochwertigen Daten gedeihen. Wir verfügen über die weltweit größten Ressourcen an Büchern, Artikeln, Zeitschriften usw., die die höchstwertigen Textressourcen sind. Wir bieten einen schnellen Unternehmenszugang im Austausch gegen Spenden im sechsstelligen US-Dollar-Bereich."

Dieses Geschäftsmodell hat den "Schattenbibliotheken" auch eine Chance auf Überleben gegeben. Anna's Archive hat auf seiner Website erklärt, dass die "Schattenbibliotheken" vor kurzem am Rande des Untergangs standen. Aufgrund von Rechtsstreitigkeiten hat Sci-Hub, die eine große Menge an illegalen wissenschaftlichen Artikeln enthält, aufgehört, neue Werke aufzunehmen. "Mit dem Aufstieg der Künstlichen Intelligenz haben fast alle Unternehmen, die große Sprachmodelle entwickeln, uns kontaktiert, um Daten für das Training zu erhalten. Wir haben bereits etwa 30 Unternehmen mit schnellen Zugangsberechtigungen versorgt."

Aber die Nutzung von illegalen Buchressourcen birgt für Unternehmen, die große Sprachmodelle entwickeln, ein hohes Risiko von Urheberrechtsstreitigkeiten. Der Bericht "Copyright and Artificial Intelligence" der US-amerikanischen Urheberrechtsbehörde vom Mai 2025 zeigt, dass die Datensammlung und -vorverarbeitung das Herunterladen, Umwandeln und Ändern einer großen Menge an urheberrechtlich geschützten Werken beinhalten. Unabhängig davon, ob die Datenquellen öffentliche Websites sind, kann dies möglicherweise zu einer mehrfachen Verletzung des Kopierrechts, des Bearbeitungsrechts und des Bearbeitungsrechts führen. Das Risiko ist besonders groß in kommerziellen Anwendungen.

Im Jahr 2025 hat das US-amerikanische Gericht in zwei Fällen, in denen Urheber gegen Unternehmen, die große Sprachmodelle entwickeln, wegen der Nutzung von illegalen Buchressourcen klagten, Urteile gefällt.

Am 23. Juni 2025 hat das Bundesgericht für das nördliche Distrikt Kalifornien in den USA in einem Urheberrechtsstreit zwischen Andrea Bartz und anderen Schriftstellern und Anthropic entschieden, dass die Nutzung von urheberrechtlich geschützten Werken für das Training von Künstlicher Intelligenz als angemessene Nutzung anzusehen ist. Allerdings hat das Gericht festgestellt, dass das Herunterladen von mehr als 7 Millionen "bekanntlich illegalen" E-Büchern von Websites wie Library Genesis und Pirate Library Mirror "im Wesentlichen und unheilbar" einen Urheberrechtsverstoß darstellt und nicht durch das Prinzip der angemessenen Nutzung entschuldigt werden kann. Im September desselben Jahres wurde berichtet, dass Anthropic zugesagt hat, sich mit einer Entschädigung von mindestens 1,5 Milliarden US-Dollar auszugleichen. Ein Gericht in Kalifornien hat diesen Vergleich vorläufig genehmigt. Dies würde der bisher größte öffentlich bekannte Urheberrechtsentschädigungsfall in der Geschichte werden.

Am 25. Juni 2025 hat das gleiche Gericht in einem Fall, in dem Richard Kadrey und andere Schriftsteller gegen Meta Platforms klagten, dass die Nutzung von illegalen Büchern für das Training des großen Sprachmodells Llama einen Urheberrechtsverstoß darstellt, ein einstweiliges Urteil gefällt. Das Gericht hat ebenfalls festgestellt, dass die Handlungen von Meta als angemessene Nutzung anzusehen sind. Allerdings hat das Gericht entschieden, dass das Erwerb und die Nutzung von illegalen Werken durch Meta nicht für sich allein einen Urheberrechtsverstoß darstellt, da Meta diese Werke für das Training eines großen KI-Sprachmodells nutzt und diese Nutzung als umwandelnde Nutzung anzusehen ist.

Genauer gesagt hat Meta die Bücher der Kläger verwendet, um sein großes Sprachmodell Llama zu trainieren. Dieses Modell kann verschiedene Texte generieren und eine Vielzahl von Funktionen ausführen. Die ursprünglichen Werke wurden hauptsächlich zum Lesen und zur Unterhaltung oder Bildung genutzt. Daher hat die Nutzung der Bücher der Kläger durch Meta einen "weiteren Zweck" und eine "andere Natur", d. h. sie ist stark umwandelnd. Angesichts des Zusammenhangs zwischen der Kopieraktion und dem umwandelnden Nutzungszweck von Meta ist die Kopiermenge auch vernünftig und notwendig. Und in Bezug auf die Marktwirkung hat die Klägerpartei keine wirksamen Beweise dafür vorgelegt, dass ihr Markt beeinträchtigt oder verdünnt wurde.

Es ist jedoch zu beachten, dass das Gericht den Geltungsbereich des Urteils eingeschränkt hat und erklärt hat, dass dieser Fall "keinen kollektiven Rechtsstreit darstellt" und "kein Präzedenzfall für die legale Nutzung von urheberrechtlich geschützten Materialien für das Training von Sprachmodellen durch Meta bildet".

03

Das Problem des Urheberrechts von Trainingsdaten hat weitere Rechtsstreitigkeiten ausgelöst

Nach dem Anthropic-Fall haben auch mehr Schriftsteller oder Urheberrechtsinhaber Klagen erhoben. Am 22. Dezember 2025 hat der New York Times-Journalist und Schriftsteller John Carreyrou zusammen mit fünf anderen Schriftstellern eine Klage gegen sechs Unternehmen, darunter Google, OpenAI, xAI, Anthropic, Meta und Perplexity, in einem Bundesgericht in Kalifornien eingereicht. Sie beschuldigen diese Unternehmen, ohne Genehmigung urheberrechtlich geschützte Bücher für das Training von Künstlichen-Intelligenz-Systemen zu verwenden.

Die Kläger haben klar gemacht, dass sie keine kollektive Klage mit einer größeren Anzahl von Klägern erheben möchten, da dies den Beklagten zugute käme. Die Beklagten könnten versuchen, mit einer großen Anzahl von Klägern einen einheitlichen Vergleichsvertrag zu schließen, um mehrere Ansprüche auf einmal zu lösen. In der Klageschrift heißt es: "Unternehmen, die große Sprachmodelle entwickeln, sollten nicht so leicht Tausende von hochwertigen Ansprüchen gegen einen sehr geringen Preis begleichen können."

Bereits im Dezember 2023 hat die New York Times zusammen mit acht anderen Medienunternehmen Microsoft und OpenAI beschuldigt, Artikel aus den Medien für das Training von Künstlichen-Intelligenz-Modellen zu verwenden und dadurch das Urheberrecht zu verletzen.

Im März 2025 hat das Gericht für das südliche Distrikt New York in den USA den Antrag von OpenAI abgelehnt, die Kernbehauptungen der Klage direkt abzuweisen, und es dem zentralen Streitpunkt erlaubt, in die nächste Phase zu gehen. Die Frage, ob die Nutzung von New York Times-Nachrichteninhalten durch OpenAI für das Training seines Modells einen Urheberrechtsverstoß darstellt, wird nun einer tatsächlichen gerichtlichen Prüfung unterzogen. Die Branche ist der Ansicht, dass dieses verfahrenstechnische Urteil für die Klägerpartei äußerst vorteilhaft ist, da es bedeutet, dass das Gericht der Ansicht ist, dass die Behauptungen der New York Times ausreichend gesetzlichen Grund haben und einer umfassenden Beweisprüfung und einer materiellen Entscheidung bedürfen. Im November 2025 wurde OpenAI aufgefordert, Benutzerprotokolle bereitzustellen. Diese Beweise sind von großer Bedeutung, um die