StartseiteArtikel

Unterschiede zwischen der chinesischen Datenverwaltung und dem westlichen Muster

王建峰2025-12-23 11:51
Unterschiede zwischen der Datenverwaltung in China und dem westlichen Muster

China baut derzeit eine beispiellose Infrastruktur auf, um Daten in handelbare „Produktionsfaktoren“ umzuwandeln – strategische Wirtschaftsressourcen, die gleichberechtigt mit Land, Arbeitskraft, Kapital und Technologie stehen. Dieser Ansatz unterscheidet sich grundlegend von der westlichen Datengovernance: China sieht Daten nicht hauptsächlich als ein Privatsphäreproblem, sondern als nationale Wirtschaftsvermögen, die von staatlichen Marktmechanismen geleitet werden müssen. Für internationale Künstliche-Intelligenz-Praktiker ist es von entscheidender Bedeutung, diesen Rahmen zu verstehen, da er die Compliance-Anforderungen, die technische Architektur und den Zugang zu chinesischen Daten für das Modelltraining beeinflusst.

Die politische Logik von Daten als nationaler Infrastruktur

Das chinesische Ökosystem der Datenelemente beruht auf einer spezifischen Diagnose: Massive Datenressourcen sind auf verschiedene Sektoren wie staatliche Verwaltungen, staatliche Unternehmen und private Technologieplattformen verteilt, was zu Informationsinseln führt, Marktsversagen verursacht und die wirtschaftliche Entwicklung hemmt. Die politische Gegenmaßnahme betrachtet dies als ein Problem der Ressourcenallokation, das staatliche Intervention erfordert, und positioniert den Staat als Koordinator des Datenaustauschs, der in der von den politischen Entscheidungsträgern genannten „sozialistischen Marktwirtschaft mit chinesischen Eigenheiten“ eine wichtige Rolle spielt.

Im Dezember 2022 veröffentlichten die Zentralkomitee der Kommunistischen Partei Chinas und die Staatsrat der Volksrepublik China die bahnbrechenden „Zwanzig Vorschläge für Daten“, die die vier Säulen der Datengovernance festlegten. Die innovativste davon ist die erste Säule, die das Problem des Dateneigentums durch eine „strukturelle Trennung“ löst – dieser Rahmen gibt keine Dateneigentumsrechte, sondern unterscheidet zwischen Besitzrecht, Verarbeitungsrecht und Betriebsrecht. Diese geschickte Lösung vermeidet sowohl das philosophische Problem des Dateneigentums (Daten selbst sind nicht konkurrierend und können unbegrenzt kopiert werden) als auch fördert sie den Datenaustausch auf dem Markt. Die anderen Säulen haben durch die kategorielle Datenverwaltung ein System für den Datenfluss und -handel, ein Mechanismus für die Ertragsverteilung und ein System für die Sicherheitsgovernance etabliert.

Der zweite Meilenstein trat im August 2023 ein, als das chinesische Finanzministerium die weltweit ersten staatlichen Rechnungslegungsvorschriften für Datenvermögen veröffentlichte, die im Januar 2024 in Kraft traten. Unternehmen können nun qualifizierte Datenressourcen in der Bilanz als Warenbestand (für verkäufliche Daten) oder immaterielle Vermögenswerte (für Daten zur Dienstleistungserbringung) anerkennen. Obwohl die Umsetzung dieser Vorschriften noch in der Anfangsphase ist, markiert diese Rechnungslegungsinnovation Chinas Engagement für die Finanzialisierung von Daten, um sie zur wirtschaftlichen Infrastruktur zu machen.

Im Oktober 2023 wurde unter der Leitung der Nationalen Entwicklungs- und Reformkommission die Nationalen Datenbehörde gegründet, und die Organisationsstruktur nahm allmählich Form an, um die Koordination zwischen den zuvor verstreuten lokalen Verwaltungsbehörden zu verbessern. Die Nationale Datenbehörde ist für die Datenentwicklung und -verteilung zuständig, während die Nationale Internetinformationsbehörde für die Datensicherheit verantwortlich ist – diese Aufteilung spiegelt das anhaltende Konflikt zwischen der offenen Datenflucht und der Aufrechterhaltung der Datenkontrolle wider.

Die technische Infrastruktur von „Daten sind nutzbar, aber nicht sichtbar“

Die chinesische Dateninfrastruktur basiert auf einem Schlüsselprinzip: Die Berechnung von Daten, ohne die zugrunde liegenden Aufzeichnungen preiszugeben. Die technische Architektur, um dieses Ziel zu erreichen, umfasst drei integrierte Ebenen.

Staatlich unterstützte Datenbörsen fungieren als Vermittlungsplattformen, die für die Anmeldung, Preisgestaltung und den Handel von Datenprodukten verantwortlich sind. Die Shanghai Data Exchange (gestartet im November 2021) ist ein nationales Vorbild, und ihr internationaler Sektor wurde im April 2023 gegründet, um den grenzüberschreitenden Handel zu fördern und Partnerschaften mit internationalen Datensupplern einzugehen. Die Beijing International Big Data Exchange und die Shenzhen Data Exchange bilden das Hauptnetzwerk von Knotenpunkten. Diese Börsen sind für die Produktregistrierung verantwortlich, einschließlich Metadaten und Nutzungsrechten, und setzen die Trennung der drei Rechte um. Sie verlangen, dass Käufer die Nutzungsszenarien vor der Genehmigung klarstellen und integrieren die Zertifizierung von Drittparteien, die Sicherheitsüberprüfung und die Compliance-Prüfung.

Plattformen für datenschutzfreundliche Berechnung bilden die Enabling-Ebene. Das FATE (Federated AI Technology Enabler) der Webank wird seit 2019 von der Linux Foundation verwaltet und bietet industrietaugliche Technologien für federatives Lernen und sichere mehrseitige Berechnungsvereinbarungen. Das SecretFlow der Ant Group wurde 2022 Open Source und deckt fast alle gängigen Technologien für datenschutzfreundliche Berechnung ab. Diese Plattformen setzen federatives Lernen ein, um kooperatives Modelltraining ohne die Zentralisierung der Originaldaten durchzuführen; sichere mehrseitige Berechnung, um gemeinsame Funktionen ohne die Offenlegung der Eingaben zu realisieren; vertrauenswürdige Ausführungsumgebungen, um hardwarebasierte isolierte Räume bereitzustellen; und homomorphe Verschlüsselung, um Berechnungen auf verschlüsselten Daten durchzuführen.

Vertrauenswürdige Datenräume repräsentieren die produktive Infrastruktur für den sicheren Datenfluss in China. Das von der Nationalen Datenbehörde im November 2024 veröffentlichte Aktionsprogramm hat das Ziel, bis 2028 mehr als 100 vertrauenswürdige Datenräume aufzubauen, und es wurde 2025 angekündigt, Pilotprojekte in den Bereichen Unternehmen, Branche, Stadt und grenzüberschreitende Anwendungen durchzuführen. Diese Räume enthalten digitale Verträge, verfügen über automatische Compliance-Ausführung, Echtzeitüberwachung, vollständige Audit-Trails und mehrseitige Koordination und verbinden Datenlieferanten, Nutzer und Aufsichtsbehörden über die Blockchain-basierte Nachverfolgung.

Der Schnittpunkt zwischen Dateninfrastruktur und Künstliche-Intelligenz-Modelltraining

Das chinesische Ökosystem der Datenelemente ist durch verschiedene Mechanismen eng mit der Entwicklung von Large Language Models verbunden. Das Beijing International Big Data Exchange Center hat das „AI-Alchemie-Programm“ gestartet, um globale Trainingsdatensätze zu sammeln. Im März 2024 wurde in Shanghai die staatlich geführte Shanghai Kuppas Technology Co., Ltd. gegründet, die sich speziell auf die Sammlung von AI-Korpusdaten konzentriert. Das „5+6“-Vertikalkorpus-Projekt in Shanghai richtet sich jeweils auf die Bereiche Finanzen, Fertigung, Bildung, Gesundheit, Kultur- und Tourismus und Stadtverwaltung.

Das Compliance-Rahmenwerk für Künstliche-Intelligenz-Trainingsdaten stammt aus der „Vorläufigen Verordnung über die Verwaltung von generativer Künstlicher Intelligenz-Diensten“ (August 2023) – der weltweit ersten speziell für generative Künstliche Intelligenz erlassenen Verwaltungsverordnung. Trainingsdaten müssen aus legalen Quellen stammen, dürfen kein geistiges Eigentum verletzen, und wenn persönliche Informationen betroffen sind, muss die Zustimmung eingeholt oder eine gesetzliche Grundlage gemäß dem „Gesetz zum Schutz persönlicher Informationen“ vorgelegt werden. Die ursprünglich strengen Anforderungen an die „Sicherung“ der Datenqualität wurden deutlich gelockert zu „Verbesserung“ der Datenqualität – dies spiegelt eine realistische Berücksichtigung der Herausforderungen bei der massiven Umsetzung wider.

Drei verbindliche nationale Standards werden im November 2025 in Kraft treten (GB/T 45652–2025 für Pretraining-Daten, GB/T 45654–2025 für Dienstleistungssicherheit, GB/T 45674–2025 für Annotation), die detaillierte Annotationsanforderungen festlegen, einschließlich ausgebildeten Personen, Stichprobenprüfung der Inhaltsgültigkeit und standardisierter Überprüfung.

Technologien für datenschutzfreundliche Berechnung bieten einen kompatiblen Zugang zu sensiblen Daten. Federatives Lernen ermöglicht es Krankenhäusern, gemeinsam an medizinischen Künstliche-Intelligenz-Modellen zu trainieren, ohne Patientenakten zu teilen. Die Modellberechnung (MPC) erlaubt es Finanzinstitutionen, gemeinsam an Risikomodellen zu arbeiten, ohne proprietäre Daten preiszugeben. Der DeepLink-Technologiestack des Shanghai Artificial Intelligence Laboratory zeigt die Spitze in diesem Bereich: Das gemischte Training ist jetzt über das Telekommunikationsnetz in den Gebieten Peking, Shanghai und Qinghai möglich. Diese verteilte Architektur – teilweise aufgrund der Zwangsanforderungen der US-Exportkontrollen, um GPU von mehreren Herstellern zu integrieren – zeigt, wie datenschutzfreundliches verteiltes Training die kompatible Modellentwicklung über Rechtsbereiche hinweg ermöglichen kann.

China und das GDPR: Grundlegend unterschiedliche operative Annahmen

Um Chinas Ansatz zu verstehen, muss man die konzeptionellen Unterschiede zu dem EU-GDPR-Rahmen verstehen. Dieser Unterschied zeigt sich nicht nur auf der regulatorischen Ebene, sondern auch auf der ideologischen Ebene.

Die EU sieht die Datengovernance als Rechtsschutz: Der Schutz der Datenschutz erweitert die individuelle Autonomie und schützt sie vor übermäßiger Intervention von Unternehmen und staatlicher Macht. Diese menschenzentrierte Tradition sieht persönliche Daten im Wesentlichen als Eigentum der Person an, und die einschlägigen Gesetze zielen darauf ab, diese Beziehung aufrechtzuerhalten. Der daraus resultierende Rahmen konzentriert sich auf Zustimmungsmodelle, Zweckbeschränkung und Datenminimierung – alles, um die Person vor Ausbeutung zu schützen.

China sieht die Datengovernance als Industriepolitik: Daten sind eine strategische nationale Ressource, deren Wert unterschätzt wird und die derzeit in einem unregulierten Markt von Marktdistortionen betroffen sind. Die Hauptrolle des Staates besteht nicht darin, zu schützen, sondern zu verteilen – um den Datenfluss so zu lenken, dass die nationalen wirtschaftlichen Effekte maximiert werden. Das „Gesetz zum Schutz persönlicher Informationen“ beachtet immer noch die Interessen der Person, aber diese Interessen müssen in einem Rahmen funktionieren, der das Potenzial der Datenproduktion priorisiert.

Dies erklärt einige bemerkenswerte Merkmale der chinesischen Datenverarbeitung: Die Zwangslokalisierung bestimmter Datentypen, die Sicherheitsbewertung von grenzüberschreitenden Datenübertragungen, der staatliche Support anstelle eines reinen Privatmarktes und die klare Förderung von Unternehmen, Daten in ihrer Bilanz widerzuspiegeln. Die grundlegende Logik besteht darin, dass Datenressourcen – wie Land oder Mineralressourcen – koordinierte Entwicklung und Nutzung erfordern, anstatt einer verteilten individuellen Kontrolle.

Für internationale Praktiker schafft dies eine „Doppelstack“-Realität: Viele multinationale Unternehmen betreiben derzeit unabhängige globale IT-Architekturen und chinesisch lokalisierte IT-Architekturen. Drei Rechtsrahmen – das „Netzsicherheitsgesetz“ (2017), das „Datensicherheitsgesetz“ (2021) und das „Gesetz zum Schutz persönlicher Informationen“ (2021) – haben überlappende Compliance-Anforderungen geschaffen. Grenzüberschreitende Datenübertragungen erfordern je nach Datentyp und Datenmenge eine staatliche Sicherheitsbewertung, die Zertifizierung von Drittparteien oder die Verwendung chinesischer Standardvertragsklauseln.

Jüngste Anzeichen deuten auf eine Politikänderung hin: Die im März 2024 in Kraft getretenen Vorschriften haben einige strenge grenzüberschreitende Anforderungen gelockert, aber der grundlegende Rahmen – die Betrachtung von Daten als staatlich verwaltete Produktionsfaktoren – bleibt unverändert.

Technische Architekturanforderungen für Künstliche-Intelligenz-Unternehmen

Unternehmen, die in China Künstliche-Intelligenz-Systeme entwickeln oder einsetzen, müssen in ihrer technischen Architektur verschiedene Funktionen integrieren.

Systeme zur Datenquellenverfolgung müssen alle Trainingsdatenquellen aufzeichnen, die Zustimmungsnachweise für persönliche Informationen aufrechterhalten und Daten markieren, die als „wichtige Daten“ klassifiziert werden können. Deren grenzüberschreitende Übertragung erfordert die Zustimmung der Regierung. Die Definition von wichtigen Daten variiert je nach Branche und entwickelt sich ständig, daher ist eine kontinuierliche Überwachung erforderlich.

Infrastruktur für die Inhaltsicherheit umfasst voreingestellte Korpusdaten zur Filterung verbotenen Inhalts, Echtzeitüberprüfung der Ausgabe und Funktionen zur Modelloptimierung, um Verstöße innerhalb der von den Vorschriften festgelegten Frist von drei Monaten zu behandeln. Das System zur Algorithmusmeldung und -registrierung muss den Anforderungen der CAC entsprechen.

Datenschutzfreundliche Datenpipelines ermöglichen einen kompatiblen Zugang zu sensiblen chinesischen Daten: Federatives Lernen für verteiltes Training, differentielle Privatsphäre für die Anonymisierung von Korpusdaten, TEE/MPC-Integration für sichere mehrseitige Szenarien. Dies sind nicht nur Compliance-Mechanismen, sondern auch Schlüssel für die Steigerung der Wettbewerbsfähigkeit – sie bieten Zugang zu Datenressourcen, die sonst nicht zugänglich wären.

Mit den US-Exportkontrollen, die dazu führen, dass inländische Acceleratoren wie Huawei Ascend, Biren, Moore Threads, Cambricon etc. die Integration von GPU von mehreren Herstellern vornehmen, ist die heterogene Recheninfrastruktur zum Standard geworden. Das Training über lange Distanzen zwischen verschiedenen Rechenzentren wurde validiert und zeigt, wie datenschutzfreundliches verteiltes Training im großen Maßstab funktionieren kann.