400 Medien inkl. New York Times verklagen Microsoft: Wer ist der "Mittäter" bei KI

Der Kampf um die Urheberrechte an KI schreitet voran – von der Frage „Wer hat das Modell trainiert?“ hin zu der Frage „Wer hat dem Modell dabei geholfen, sein Training abzuschließen?“

Der Kampf um das Urheberrecht im Bereich Künstlicher Intelligenz (KI) geht nun nicht nur darum, „wer das Modell trainiert hat“, sondern auch „wer dem Modell geholfen hat, die Trainingsphase abzuschließen“.

Wenn man sagt, dass OpenAI der sichtbare Entwickler des Modells ist, dann wird Microsoft diesmal in den Mittelpunkt gerückt, und es wird eine tiefere Frage gestellt: Wenn ein Unternehmen Superrechenleistung, ein maßgeschneidertes System, einen kommerziellen Zugang und die Fähigkeit zur Produktdistribution bietet, kann es sich dann noch immer nur als „neutraler Infrastrukturanbieter“ bezeichnen?

Am 25. Juni 2026 hat die New York Times in einem Urheberrechtsstreit gegen OpenAI und Microsoft beantragt, die dritte revidierte Klageschrift einzureichen. Die neue Klageschrift richtet sich nun auch gegen Microsoft und beschuldigt es, nicht nur passiv von der Nutzung urheberrechtlich geschützter Inhalte durch OpenAI zum Trainieren von KI-Modellen zu profitieren, sondern auch aktiv durch die Erstellung eines maßgeschneiderten Supercomputersystems die massenhafte Urheberrechtsverletzung zu induzieren, zu unterstützen und zu ermöglichen.

Laut Berichten umfasst dieses Supercomputersystem über 285.000 CPU-Kerne und 10.000 GPU. Die New York Times versucht damit zu zeigen, dass Microsoft kein gewöhnlicher Cloud-Dienstleister ist, sondern in den Prozess der Entwicklung der Trainingsfähigkeit von OpenAIs großen Modellen entscheidende Infrastruktur und technische Bedingungen bereitgestellt hat.

Fast gleichzeitig hat eine Gruppe von Verlagen, die fast 400 amerikanische lokale Zeitungen repräsentiert, auch gegen Microsoft und OpenAI Klage erhoben und sie beschuldigt, ohne Genehmigung eine große Anzahl von Nachrichtenartikeln zu kopieren und für das Training von KI-Produkten wie ChatGPT und Copilot zu verwenden. Die Kläger behaupten auch, dass OpenAI bei der Verwendung von Text-Extraktionswerkzeugen wie „Dragnet“ und „Newspaper“ absichtlich die Autorenangaben, Urheberrechtserklärungen und Nutzungsbedingungen aus den Artikeln entfernt hat, was möglicherweise gegen die Bestimmungen des US-amerikanischen Digital Millennium Copyright Act (im Folgenden DMCA) in Bezug auf den Schutz von Urheberrechtsverwaltungsinformationen verstößt.

Diese beiden Gruppen von Fällen senden ein sehr klares Signal: Urheberrechtsklagen im Bereich KI richten sich nicht mehr nur gegen die Modellentwickler, sondern breiten sich entlang der technologischen, kommerziellen und Verantwortungskette aus.

I. Diesmal wird gefragt, „wer die Urheberrechtsverletzung ermöglicht hat“

In der Vergangenheit konzentrierten sich die Diskussionen über Urheberrechtsstreitigkeiten beim KI-Training in der Regel auf Modellentwickler wie OpenAI. Enthalten die Trainingsdaten urheberrechtlich geschützte Werke? Besteht das Training in einer Kopie? Ersetzt die Ausgabe des Modells das ursprüngliche Werk? Kann die gerechtfertigte Nutzung angewendet werden?

Der Schwerpunkt der Revision der Klageschrift durch die New York Times liegt jedoch darin, Microsoft in eine aktivere Position zu setzen.

Die Kläger versuchen zu beweisen, dass Microsoft kein von dem Trainingsprozess entfernter Investor ist, noch ein reiner Anbieter von Cloud-Rechenleistung, sondern dass es durch ein tiefgreifend maßgeschneidertes Supercomputersystem die entscheidenden Bedingungen für das massenhafte Training von OpenAI bereitgestellt hat.

Dadurch wird der Fokus des Falls von der „direkten Urheberrechtsverletzung“ weiter in Richtung „Hilfeleistung bei der Urheberrechtsverletzung“, „Induktion zur Urheberrechtsverletzung“ oder „gemeinsame Urheberrechtsverletzung“ verschoben.

Mit anderen Worten, die Frage, die das Gericht in Zukunft möglicherweise beantworten muss, lautet: Wenn ein Subjekt keine Artikel direkt kopiert und kein Modell direkt trainiert hat, aber es weiß oder wissen sollte, dass das Training auf einer großen Anzahl von urheberrechtlich geschützten Inhalten basiert, und dennoch speziell entworfene Rechenleistung, Systeme und kommerielle Unterstützung bietet, kann es dann möglicherweise Teil der Kette der KI-Urheberrechtsverantwortung werden?

Die wahre Bedeutung des Begriffs „Mitschuldiger“ im Titel kann so verstanden werden, dass die KI-Urheberrechtsverletzung nicht immer nur bis zum Modellentwickler zurückverfolgt werden kann.

II. Microsofts Problem liegt in der Bindung an OpenAIs Industriekette

Die Beziehung zwischen Microsoft und OpenAI ist keine normale Beziehung zwischen Lieferant und Kunde.

Microsoft ist sowohl ein wichtiger Investor in OpenAI als auch der Anbieter von Cloud-Computing und Rechenleistungsinfrastruktur. Gleichzeitig integriert Microsoft die Modellfähigkeiten von OpenAI in Produkte und Dienstleistungen wie Copilot, Bing, Office und Azure.

Das macht es für Microsoft schwierig, sich als völlig neutralen, völlig externen und völlig uninformierten Infrastrukturanbieter zu beschreiben, der nichts von den Verwendungszwecken der unteren Ebenen weiß.

Bei einem allgemeinen Cloud-Dienst ist die Verantwortungsgrenze relativ klar. Der Cloud-Anbieter stellt Server zur Verfügung, und der Kunde lädt seine eigenen Daten hoch, trainiert Modelle und deployt Anwendungen. Der Cloud-Anbieter trägt in der Regel keine Verantwortung, wenn der Kunde die Cloud-Ressourcen zur Urheberrechtsverletzung nutzt.

Aber wenn die Infrastruktur für das Training eines bestimmten Modells hochgradig maßgeschneidert ist, wenn der Dienstleister tief in das Design der Trainingsarchitektur involviert ist, wenn er weiß, dass das Training eine riesige Menge an Textinhalten erfordert, und wenn er weiterhin kommerzielle Vorteile aus den unteren KI-Produkten zieht, dann wird die Verteidigung als „neutrales Werkzeug“ schwierig.

Das ist genau die Angriffsrichtung der Klageschrift der New York Times.

Es geht nicht einfach darum, dass Microsoft „reich“, „technologisch leistungsfähig“ und in einer „Zusammenarbeit“ ist, sondern es wird versucht, zu beweisen, dass Microsoft einen wesentlichen Beitrag zum Prozess der Entwicklung von OpenAIs Trainingsfähigkeit geleistet hat.

III. Die Pressebranche hat sich zu einem kollektiven Gegenangriff zusammengeschlossen

Wenn die Klage der New York Times für die starke Verteidigung der Rechte der Top-Medien steht, dann repräsentiert die Kollektivklage von fast 400 lokalen Zeitungen die weit verbreitete Sorge um das Überleben der Pressebranche.

Lokale Zeitungen sind keine Technologie-Riesen und keine Traffic-Plattformen. Ihr Wert kommt aus langjähriger Berichterstattung, lokalen Untersuchungen, Gemeindeberichten, Faktenprüfung und der Pflege öffentlicher Aufzeichnungen.

Wenn diese Inhalte von KI-Systemen kostenlos kopiert, trainiert und dann über Produkte wie ChatGPT und Copilot neu verpackt werden, müssen lokale Medien nicht nur mit Urheberrechtsverlusten, sondern auch mit Verlusten an Zugang, Traffic, Abonnements und Werbung rechnen.

D.h., dass KI nicht nur die Nachrichteninhalte „lernt“, sondern auch die Art und Weise, wie Benutzer Nachrichten erhalten, verändern kann.

Früher mussten Benutzer die Webseiten der Zeitungen besuchen, die Originalartikel lesen, Klicks generieren und so Abonnement- und Werbeeinnahmen erzielen. Jetzt können Benutzer direkt an KI Fragen stellen und Zusammenfassungen, Antworten und aufbereitete Informationen erhalten. Die Inhaltsproduzenten tragen die Kosten, die KI-Produkte nehmen den Zugang weg, die Plattformen erhalten den kommerziellen Wert, und die Nachrichtenagenturen werden aus der Verteilungskette herausgedrängt.

Das ist genau das, was die Inhaltsanbieter am wenigsten akzeptieren können.

Der Streit um die Trainingsdaten von KI ist im Wesentlichen kein abstrakter Konflikt zwischen „technologischer Innovation und traditionellem Urheberrecht“, sondern ein sehr konkretes Problem der Interessenteilung.

Wer produziert die Inhalte? Wer trägt die Kosten? Wer nimmt die Daten? Wer erhält den Wert? Wer wird vom Markt ersetzt?

IV. Die Wucht der DMCA-Beschuldigung liegt darin, dass sie auf das „Entfernen des Urheberrechtsschilds“ abzielt

In den Klagen dieser lokalen Zeitungen sind die DMCA-bezogenen Ansprüche besonders bemerkenswert. Die Kläger sagen nicht nur, dass ihre Artikel kopiert wurden, sondern auch, dass OpenAI bei der Verarbeitung der Inhalte mit Text-Extraktionswerkzeugen die Autorenangaben, Urheberrechtserklärungen und Nutzungsbedingungen aus den Artikeln entfernt hat.

Wenn diese Beschuldigung zutrifft, hat sie eine größere Bedeutung als eine normale Urheberrechtsverletzung.

Weil bei einer normalen Urheberrechtsverletzung es darum geht, „ob du das Werk genommen hast“; die DMCA-Regeln für die Verwaltung von Urheberrechtsinformationen befassen sich dagegen mit der Frage, „ob du das Rechtsschild abgerissen hast, bevor du das Werk genommen hast“.

In der KI-Trainingsumgebung ist dies besonders empfindlich.

Die Verarbeitung großer Datenmengen umfasst in der Regel die Schritte des Crawlings, der Reinigung, der Duplikatentfernung, des Slicings, der Annotation und der Vektorisierung. Viele Engineering-Systeme betrachten Autoren, Quellen, Urheberrechtserklärungen, Webseitenbedingungen und Lizenzbeschränkungen als „Rauschen“ und entfernen sie während der Reinigungsphase.

Aber aus der Sicht der Urheberrechtskonformität sind diese Informationen genau kein Rauschen, sondern die Grenzen der Rechte. Beim KI-Training ist es nicht immer besser, die Daten so sauber wie möglich zu machen. Manche „schmutzigen Informationen“ sind genau die Schutzgrenzen der Rechteinhaber.

V. Die gerechtfertigte Nutzung ist immer noch das Hauptschlachtfeld, aber sie ist nicht mehr ein Allheilmittel

Microsoft und OpenAI werden wahrscheinlich weiterhin die gerechtfertigte Nutzung beanspruchen.

Dies ist auch eine der zentralen Verteidigungen in US-amerikanischen KI-Urheberrechtsklagen: Das Training von großen Modellen dient nicht der Kopie des Originaltexts, sondern dem Lernen von Sprachregeln und Wissenszusammenhängen; das Training hat eine transformative Wirkung; wenn das Training von KI mit Inhalten aus dem öffentlichen Internet verboten würde, würde dies die technologische Innovation behindern.

Diese Verteidigung hat noch Raum.

Aber die Inhaltsanbieter stärken auch ihre Gegenargumente: Nachrichtenwerke erfordern hohe Investitionen, haben eine hohe Aktualität und einen hohen Marktwert; KI-Produkte können Zusammenfassungen generieren, das Lesen ersetzen und den Zugang abfangen; wenn die Trainingsdaten Inhalte hinter einer Bezahlschranke oder mit Zugangsbeschränkungen enthalten und es sogar zu einem Entfernen von Urheberrechtsverwaltungsinformationen kommt, dann wird die Berechtigung der „gerechtfertigten Nutzung“ geschwächt.

KI-Urheberrechtsfälle entwickeln sich von einer Wertdebatte zu einem Beweisprozess.

Urteilsbildung von Zhichanli

Diese Gruppe von Fällen warnt chinesische Unternehmen sehr direkt.

Heute trainieren viele Unternehmen keine großen Modelle von Grund auf, sondern entwickeln vertikale KI-Anwendungen gemeinsam mit Modellentwicklern, Cloud-Anbietern, Datenlieferanten und Branchenkunden. Je komplexer die Kooperationskette ist, desto wahrscheinlicher ist es, dass die Verantwortung fehlplatziert wird.

Das Technikteam kümmert sich um die Modellleistung, das Geschäftsteam um die Zeit bis zur Markteinführung. Wenn das Rechtsabteilungsteam nur am Ende des Vertrags eine Klausel hinzufügt, dass der andere Vertragspartner die Legitimität der Daten garantiert, ist das bei weitem nicht genug.

Unternehmen müssen mindestens fünf Dinge im Voraus sicherstellen.

Erstens muss die Herkunft der Daten erklärbar sein.

Zweitens muss der Umfang der Genehmigung klar definiert sein.

Drittens müssen die Urheberrechtsinformationen beibehalten werden.

Viertens muss der technologische Prozess nachvollziehbar sein.

Fünftens muss die Kooperationsverantwortung klar getrennt sein.

Die KI-Konformität ist kein Verpackungsvorgang vor der Markteinführung des Produkts, sondern eine grundlegende Maßnahme, bevor die Daten in das System gelangen.

Die zukünftige KI-Konkurrenz misst sich nicht nur an den Modellparametern, sondern auch an der Herkunft der Daten; nicht nur an der Rechenleistung, sondern auch an der Kette der Rechte; nicht nur an der Geschwindigkeit der Produkte, sondern auch an der Konformitätsbasis.

KI kann die Welt trainieren, aber sie darf nicht die Inhalte anderer als unbesetztes Brennmaterial behandeln. Wer Inhalte als Brennmaterial verwendet, muss sich darauf vorbereiten, zu erklären, wer das Feuer angezündet hat.

Dieser Artikel stammt aus dem WeChat-Account „Zhichanli“ (ID: zhichanli), Autor: Shawn/MCP, veröffentlicht von 36Kr mit Genehmigung.