Neues US-Gerichts-Urteil: Künstliche Intelligenz darf "lesen", Bücher zur AI-Trainierung ohne Autoren-Zustimmung nutzen

Die Legalität der Datenquelle ist größer als die Legalität des Verwendungszwecks.

Ohne Zustimmung des ursprünglichen Autors kann KI nun veröffentlichte Bücher als Trainingsdaten nutzen.

In einem kürzlich entschiedenen Rechtsstreit hat ein US-Gericht entschieden, dass das hinter Claude stehende Unternehmen Anthropic ohne Genehmigung der Autoren rechtmäßig erworbene veröffentlichte Bücher zur KI-Trainierung nutzen darf.

Das Gericht hat sich dabei auf das Prinzip des „Fair Use“ im US-Urheberrecht berufen und festgestellt, dass die KI-Trainierung als „transformative Nutzung“ (Transformative Use) anzusehen ist. Dies bedeutet, dass die neue Nutzung des Originals nicht den Markt des Originals ersetzen würde und zugleich der technologischen Innovation und dem öffentlichen Interesse dient.

Dies ist das erste Mal, dass ein US-Gericht die Nutzungsrechte von KI-Unternehmen an Büchern anerkennt und KI-Unternehmen schützt, wenn sie urheberrechtlich geschützte Texte zur Training von LLMs nutzen, ohne hierdurch eingeschränkt zu werden:

Es wird das Urheberrechtsrisiko bei der KI-Trainingsdaten erheblich reduziert.

Viele Internetnutzer sehen es so: Wenn es für Menschen unstrittig ist, Bücher zu lesen und zu verstehen, sollte es auch für KI vernünftig sein, Bücher zu lesen und zu verstehen.

Was ist passiert?

Im August 2024 haben drei Schriftstellerinnen und Schriftsteller Anthropic verklagt.

Interessanterweise bezieht sich der Fall von Anthropic nicht nur auf die Nutzung veröffentlichter Bücher zur KI-Trainierung, sondern auch auf die Herkunft der Bücher:

Im Jahr 2021 hat Ben Mann, Mitbegründer von Anthropic, 196.000 urheberrechtlich geschützte Bücher von Piraten-Websites heruntergeladen.

Im Jahr 2022 hat Anthropic von LibGen und PiLiMi „mindestens 5 Millionen Kopien“ und „2 Millionen Kopien“ heruntergeladen und damit eine digitale Bibliothek aufgebaut.

Obwohl Anthropic damals bereits die rechtlichen Risiken der Piraterie erkannt hatte („not so gung ho about pirated books for legal reasons“), hat es alle piratischen Kopien behalten.

Im März 2023 hat Anthropic einen Teil der Bücher aus der digitalen Bibliothek ausgewählt, um das Claude-Modell zu trainieren. Die erste Version von Claude wurde veröffentlicht.

Im Februar 2024 hat Anthropic Turvey, den ehemaligen Leiter des Google Book Scanning Projekts, eingestellt und wechselte zur rechtmäßigen Beschaffung und zum Scannen von Büchern. Es wurden Millionen von Broschüren gekauft.

Turvey hat „ein oder zwei E-Mails“ („an email or two“) an Verlage geschickt, hat aber nicht weitergearbeitet („let those conversations wither“).

Aus der Entscheidung des US-Gerichts gegen Anthropic lassen sich folgende Punkte ableiten:

1. Der Streitpunkt in diesem Fall liegt hauptsächlich darin, dass Anthropic ohne Genehmigung der Urheber sowohl rechtmäßig erworbene als auch piratische Bücher zur Trainierung von Claude genutzt hat.

2. Die Kläger haben Anthropic beschuldigt, illegal Werke (einschließlich Piraten- und Scansversionen) zur KI-Trainierung zu kopieren und damit das Urheberrecht zu verletzen.

3. Das Gericht hat entschieden, dass Anthropic gescannte Kopien von rechtmäßig erworbenen Büchern zur Datenverarbeitung bei der KI-Trainierung nutzen kann. Die KI-Trainierung wird als „hochgradig transformativ“ angesehen, da sie nicht direkt den Markt des Originals ersetzt und die Ausgabe die Werke der Kläger nicht verletzt.

4. Das Gericht hat auch entschieden, dass die Nutzung von piratischen Büchern keine gerechtfertigte Nutzung darstellt, da die Piraterie selbst eine Urheberrechtsverletzung darstellt. Die Verantwortung und die Schadensersatzfragen im Zusammenhang mit der Piraterie müssen in einem weiteren Verfahren geklärt werden.

Einige Internetnutzer haben es so zusammengefasst: Der Schlüssel liegt darin, ob die Quelle der Bücher für die Trainierung piratisch ist oder nicht.

Das heißt, dass KI-Unternehmen veröffentlichte Bücher ohne Genehmigung der Urheber zur KI-Trainierung nutzen können.

Einige Internetnutzer finden, dass dies eine richtige Entscheidung ist, genauso natürlich wie Menschen in Bibliotheken lesen oder ihre eigenen Bücher lesen können.

Dennoch gibt es auch einige Streitigkeiten: Kann man KI mit Menschen vergleichen? Wie können Urheber ihr Wissen schützen?

Ähnliche Fälle

Ähnliche Fälle sind in anderen KI-Rechtsstreitigkeiten aufgetaucht.

Google Books 2015: Das Oberste Gericht der Vereinigten Staaten hat es als „Fair Use“ anerkannt

Im Jahr 2004 hat Google das „Google's Library Project“ gestartet. In diesem Projekt arbeitete Google mit verschiedenen Bibliotheken zusammen, um mehr als 20 Millionen Bücher zu scannen und zu digitalisieren, damit Google-Nutzer direkt suchen konnten. Die gescannten Bücher umfassten sowohl gemeinfreie Werke, deren Urheberrechtsschutz abgelaufen war, als auch Werke, die noch unter Urheberrechtsschutz standen.

Google Books hat gemeinfreie Werke und Inhalte kostenlos im Volltext anzeigen und im PDF-Format herunterladen lassen. Für Werke, die noch unter Urheberrechtsschutz standen, wurden nur Titel, Zusammenfassungen und einige Kapitel angezeigt, und es wurden Links zum Kauf von e-Books oder gedruckten Ausgaben bereitgestellt.

Im Jahr 2005 haben die amerikanische Schriftstellervereinigung und andere Organisationen Google Books verklagt und behauptet, dass das unbefugte Scannen ganzer Bücher durch Google eine Urheberrechtsverletzung darstellt. Die Gründe waren:

Die vollständige digitale Kopie verletzt das Kopierrecht der Autoren;
Die Funktion des Teildurchsichts kann den Markt des Originals ersetzen;
Es besteht ein kommerzieller Motiv (der Ertrag aus der Suchdienstleistung);
Die Speicherung von digitalen Kopien birgt das Risiko eines Hackerangriffs;
Die Verteilung von Kopien an Partnerbibliotheken kann das Interesse der Urheberrechtsinhaber schädigen.

Im Jahr 2013 hat das US-Bundesgericht die erste Entscheidung gefällt und die Klage der Kläger abgewiesen. Es wurde festgestellt, dass die Such- und Teildurchsichtsfunktion von Google nur die ursprüngliche Nutzung des Werks „transformiert“ hat (von der Lektüre zur Informationssuche). Da keine wesentlichen Ersatzinhalte bereitgestellt wurden und die akademische Forschung und die Entdeckung von Büchern gefördert werden können, erfüllt dies die Bedingungen für eine gerechtfertigte Nutzung.

Im Jahr 2015 wurde das Urteil auf Zweitinstance bestätigt.

GitHub Copilot 2022: Hat KI-Unternehmen zur Einführung der Funktion „Code-Quellenangabe“ veranlasst

GitHub Copilot ist ein von GitHub, einer Tochtergesellschaft von Microsoft, entwickeltes KI-Programmierhilfsmittel. Es basiert auf dem Codex-Modell von OpenAI und generiert Codevorschläge, indem es öffentliche Code-Bibliotheken (z. B. Open-Source-Projekte auf GitHub) analysiert.

Im Jahr 2022 haben mehrere Open-Source-Entwickler und Organisationen GitHub Copilot beschuldigt:

Lizenzverstoß: Copilot hat beim Training Code mit „infektiösen“ Open-Source-Lizenzen wie GPL verwendet, aber der generierte Code hat nicht die Anforderungen der ursprünglichen Lizenz befolgt (z. B. die Beibehaltung der Urheberrechtserklärung).
Urheberrechtsverletzung: Der generierte Code ist dem Open-Source-Code sehr ähnlich und wird als direkte Kopie vermutet.
Kommerzielle Missbrauch: Microsoft hat kostenlosen Open-Source-Code in ein kostenpflichtiges Tool (Copilot Enterprise Edition) umgewandelt, was dem Geist der Open-Source-Entwicklung widerspricht.

Aus öffentlichen Berichten und der Rechtslage lassen sich folgende Schlussfolgerungen ziehen:

Das Gericht hat festgestellt, dass die Nutzung von Open-Source-Code bei der KI-Trainierung als „transformative Nutzung“ anzusehen ist und keine direkte Urheberrechtsverletzung darstellt (analog zum Fall von Google Books);
Die Kläger konnten nicht beweisen, dass Copilot systematisch urheberrechtsverletzenden Code ausgibt. Gelegentliche ähnliche Fragmente stellen keine massive Verletzung dar;
Das Gericht hat GitHub aufgefordert, die Filterung zu verbessern, um die Ausgabe von Code, der unter starken Lizenzen wie GPL steht, zu vermeiden, oder die Quelle und die Lizenzanforderungen eindeutig anzugeben und Tools bereitzustellen, mit denen Benutzer die Ähnlichkeit des Codes mit Open-Source-Bibliotheken überprüfen können.

Im Februar 2023 hat GitHub die Funktion „Code-Quellenermittlung“ (Code Referencing) offiziell veröffentlicht. Sie ist als Standarddienstleistung in Copilot integriert und hilft Benutzern, die Verbindung zwischen generiertem Code und Open-Source-Projekten zu erkennen.

OpenAI & Meta 2023: Der Fall wird noch bearbeitet

Im Jahr 2023 haben mehrere Schriftsteller, Schauspieler und die globale Verlagsvereinigung OpenAI und Meta beschuldigt, piratische Daten zur KI-Trainierung zu nutzen. Die Daten umfassten Bücher aus der „Schattenbibliothek“ (z. B. Bibliotik, LibGen, Z-Library), die Webseiten, die unbefugte urheberrechtlich geschützte Inhalte anbieten.

ChatGPT kann die Bücher der Kläger genau zusammenfassen, was beweist, dass das Modell die geschützten Texte „gedacht“ hat. Meta-Chef Zuckerberg und das KI-Team wussten, dass LibGen piratisch war, aber sie haben dennoch beschlossen, die Daten von LibGen zur Trainierung von Llama 3 zu nutzen, um OpenAI schneller zu überholen.

Der Fall von OpenAI und Meta wird noch bearbeitet, und es gibt noch keine endgültige Entscheidung.

Der Sieg von Anthropic in diesem Fall ist nicht ein Alleingang, sondern ein Zeichen dafür, dass das US-Rechtssystem in der Auseinandersetzung zwischen „technologische Innovation“ und „Urheberrechtsschutz“ der ersteren den Vorzug gibt. Es ist auch das erste Mal, dass ein US-Gericht das Prinzip des Fair Use unterstützt und KI-Unternehmen schützt, wenn sie urheberrechtlich geschützte Texte zur Training von LLMs nutzen, ohne hierdurch eingeschränkt zu werden.

Das bedeutet, dass KI im Zukunft Inhalte untersuchen kann, die sie erworben, nicht aber von Piraten-Websites bezogen haben.

Einige Internetnutzer meinen, dass diese Entscheidung die Entscheidung des US-Gerichts im Fall von OpenAI und Meta beeinflussen könnte.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Künstliche Intelligenz darf nun "lesen": Das neueste Urteil eines US-Gerichts besagt, dass bereits erworbene Bücher zur AI-Trainierung verwendet werden können, ohne die Zustimmung der Autoren einzuholen.

Was ist passiert?

Ähnliche Fälle

OpenAI & Meta 2023: Der Fall wird noch bearbeitet