Datenmanagement im Zeitalter der künstlichen Intelligenz: Zehn Umbrüche, die Daten, Organisationen und Praktiken neu formen
Mit der raschen Entwicklung von Künstlicher Intelligenz (KI) und deren zunehmendem Einfluss auf fast alle Bereiche der Gesellschaft konzentrieren sich die Debatten über die Governance hauptsächlich auf Modelle und deren Output: Transparenz, Fairness, Rechenschaftspflicht und Konsistenz. Diese Fokussierung ist zwar notwendig, aber unzureichend. Die Zuverlässigkeit, Fairness und Effektivität von KI-Systemen hängen vollständig von den Daten ab, auf denen sie trainiert und betrieben werden.
Die Daten-Governance ist kein Randthema der KI-Governance, sondern deren Grundpfeiler.
Zugleich hat der Aufstieg der KI nicht nur neue Anforderungen an die Daten-Governance gestellt, sondern diese auch grundlegend verändert. Um den Möglichkeiten und Risiken der KI gerecht zu werden, werden die Definition von Daten, die Art ihrer Verwaltung, die Nutzungsrechte und die Regulierungsmechanismen neu definiert.
Dieser Artikel untersucht 10 Schlüsselbereiche oder Veränderungen, in denen sich die Daten-Governance neu gestaltet – sowohl als Reaktion auf die KI als auch als direkte Folge davon.
1. Neudefinition der Bedeutung von Daten
Historisch gesehen lag der Schwerpunkt der Daten-Governance auf strukturierten Tabellendatasets. Heute hat sich der Fokus auf unstrukturierte Daten verschoben: Texte, Bilder, Audio, Video und multimodale Inhalte, die die Grundlage für große Modelle bilden.
Große Sprachmodelle (LLM) sind insbesondere auf riesige Korpora angewiesen, die aus dem Internet gesammelt werden. Dies wirft neue Governance-Herausforderungen im Hinblick auf Herkunft, Einwilligung, Urheberrecht und Repräsentanz auf.
Zugleich ist die KI nicht nur ein Verbraucher von Daten, sondern auch ein Produzent . Synthetische Texte, Bilder und Informationen, die von KI-Systemen generiert werden, werden zunehmend in den Trainingsfluss zurückgeführt. Dies wirft Bedenken hinsichtlich des Kollaps des Modells auf und macht ein Governance-Framework für maschinell generierte Daten selbst notwendig.
2. Vom FAIR zum FAIR-R
Das FAIR-Prinzip – Findbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit – war lange Zeit das Leitprinzip der Datenverwaltung und bleibt auch weiterhin die Grundlage für die verantwortungsvolle Zugänglichkeit und Wiederverwendung von Daten. Aber KI-Systeme benötigen mehr. Der zusätzliche "R" (Ready-for-AI) soll die Anwendbarkeit des FAIR-Prinzips von der Zugänglichkeit und Interoperabilität auf die Welt erweitern, in der Daten von Algorithmen verwendet werden müssen.
Dies bedeutet, dass nicht nur technische Eigenschaften, sondern auch Governance, Qualität und Ethik berücksichtigt werden müssen. Das FAIR-R fordert Organisationen auf, folgende Fragen zu stellen:
· Sind die Daten ausreichend annotiert, ausgeglichen und dokumentiert, um den Anforderungen des maschinellen Lernens zu genügen?
· Sind die Institutionen, die Herkunft und der Zweck klar definiert?
· Wer entscheidet, was als "verantwortungsvolle Wiederverwendung" gilt?
· Wir sehen, dass es notwendig ist, das FAIR-Prinzip auf FAIR-R (Ready-for-AI) zu erweitern, um Folgendes zu umfassen:
· Strukturierte Metadaten für die maschinelle Interpretierbarkeit;
· Besser dokumentierte Herkunft und Provenienz;
· Bewertung von Vorurteilen und Repräsentanz;
· Einhaltens von verantwortungsvollen KI-Praktiken.
Kurz gesagt müssen Daten jetzt nicht nur wiederverwendbar sein, sondern auch auf sichere, nachvollziehbare und mit sozialen Werten vereinbare Weise von Maschinen wiederverwendet werden können.
3. Der Aufstieg von Kontext als Infrastruktur
Daten ohne Kontext werden in KI-Systemen immer schwieriger zu verwenden. Modelle benötigen nicht nur die Rohdaten, sondern auch strukturierte Informationen über die Bedeutung, die Beziehungen und den beabsichtigten Verwendungszweck.
Dies hat zur Entwicklung neuer Protokolle geführt, wie z. B. dem Model Context Protocol (MCP), das darauf abzielt, die Struktur des Kontexts (z. B. Werkzeuge, Gedächtnis und Umgebungsinformationen) zu standardisieren und ihn zusammen mit den Daten an KI-Systeme zu übertragen.
Der Kontext wird zur Infrastruktur – verwaltet, kontrolliert und standardisiert – und prägt, wie KI-Systeme Daten interpretieren und verarbeiten.
4. Vom Datenmanagement zum strategischen Datenmanagement
Das traditionelle Datenmanagement konzentriert sich auf die Einhaltung von Vorschriften, die Standardverwaltung und die Qualitätskontrolle. In der Ära der KI reicht dies jedoch nicht aus.
Es besteht ein zunehmender Bedarf an strategischem Datenmanagement – einem proaktiven, zielgerichteten Ansatz, der:
· Die Datennutzung mit dem geschäftlichen Wert in Einklang bringt
· Die zukünftigen KI-Anwendungen voraussehen kann
· Die Beziehungen zwischen verschiedenen Branchen und Anwendungen berücksichtigt
· Die verantwortungsvolle Wiederverwendung im großen Stil ermöglicht
Die Rolle der Datenverwalter wandelt sich von der eines Datenhüters zu der eines Koordinators des Datenökosystems.
5. Neue Lizenzsysteme in der Ära der KI
Die bestehenden Datenlizenzrahmen (z. B. Creative Commons) wurden ohne Berücksichtigung der KI-Trainings entwickelt.
Daher sind neue Ansätze entstanden, einschließlich KI-spezifischer Lizenzen und Signalmechanismen (z. B. "cc-signal"), die anzeigen, ob und wie Daten für das Modelltraining verwendet werden können.
Diese Entwicklungen spiegeln eine breitere Veränderung wider: von statischen Lizenzen hin zu Präferenzsignalen und einer dynamischeren, maschinenlesbaren Governance der Datenrechte.
6. Soziale Genehmigung und partizipative Governance
Reine gesetzliche Einhaltung und die Einwilligung der Benutzer reichen nicht mehr aus, um die Datennutzung in KI-Systemen zu legitimieren. Das Vertrauen der Öffentlichkeit hängt zunehmend von einem breiteren Konzept der sozialen Genehmigung ab.
Wir sehen den Aufstieg von partizipativen Mechanismen (Bürgerversammlungen, Stakeholder-Beratungen, Community-Governance-Modelle), die es den betroffenen Gruppen ermöglichen, die Entscheidungen über die Verwendung ihrer Daten zu beeinflussen.
Dies markiert die Umwandlung der Einwilligung von einer Transaktion in einen Prozess.
7. Neue institutionelle Formen: Daten-Sharing und andere
Um den Risiken, die mit der Datenerhebung und -konzentration verbunden sind, zu begegnen, entstehen neue institutionelle Arrangements, darunter Daten-Sharing, Genossenschaften und Treuhänder.
· Diese Modelle zielen darauf ab:
· Kollektive Governance zu integrieren;
· Die Datennutzung mit den Präferenzen der Gemeinschaft und den gemeinsamen Zielen in Einklang zu bringen;
· Den durch die Daten generierten Wert neu zu verteilen.
In der KI-Branche sind solche Arrangements entscheidend, um sicherzustellen, dass Daten nicht nur extrahiert, sondern auch für kollektive Aktionen und das öffentliche Interesse mobilisiert werden.
8. Synthetische Daten als Governance-Tool
Synthetische Daten – künstlich generierte Datensätze, die reale Muster imitieren – haben sich zunehmend als Methode zur Bewältigung von Herausforderungen bei der Privatsphäre, der Zugänglichkeit und der Knappheit etabliert.
Wenn sie auf verantwortungsvolle Weise implementiert werden, haben sie folgende Governance-Implikationen:
· Sie ermöglichen die sichere Datenfreigabe ohne die Offenlegung sensibler Informationen;
· Sie können Lücken in unterrepräsentierten Datensätzen schließen;
· Sie werfen Fragen hinsichtlich der Fidelität, der Verstärkung von Vorurteilen und des Missbrauchs auf.
Daher sind synthetische Daten nicht nur eine technische Lösung, sondern selbst ein neues Governance-Objekt.
9. Die Anwendung von KI in der Daten-Governance
Die KI wird nicht nur von der Daten-Governance geregelt, sondern wird auch zunehmend zur Durchführung der Daten-Governance eingesetzt. Anwendungsbereiche umfassen:
· Automatisierte Datenfindung und -klassifizierung;
· Qualitätsbewertung und Anomalieerkennung;
· Überwachung der Einhaltung von Vorschriften und Nutzungsmodellen;
· Prüfung von Datensätzen und Modellen auf Vorurteile und Risiken.
Dies bringt sowohl Effizienzsteigerungen als auch neue Risiken mit sich, da die Governance selbst teilweise automatisiert wird.
10. Der Aufstieg von KI-Agenten in der Daten-Governance
Schließlich markiert der Aufstieg von KI-Agenten (Systeme, die autonom mehrstufige Entscheidungen treffen können) eine neue Phase in der Datenverwaltung und -governance. Diese Agenten werden eingesetzt:
· Zur Verhandlung von Datenzugangsrechten
· Zur Durchführung von Governance-Regeln
· Zur dynamischen Verwaltung von Datenpipelines
· Als Vermittler zwischen Benutzern und dem Datenökosystem
Dies wirft grundlegende Fragen über die Delegation von Autorität, die Rechenschaftspflicht und die Kontrolle in einem Governance-System auf, in dem Maschinen im Namen von Menschen handeln.
Zusammenfassung: Daten-Governance als dynamische Praxis
Die Daten-Governance ist die Grundlage, auf der KI-Systeme aufgebaut werden. In der Ära der KI ist sie jedoch nicht mehr eine statische Grundlage, sondern eine dynamische, sich ständig entwickelnde Praxis und ein System, das von der Technologie, die es unterstützt, geprägt wird.
Wir gehen in eine Welt, in der:
· Die Daten-Governance die KI prägt;
· Die KI die Daten-Governance neu gestaltet;
beide in einem kontinuierlichen Feedback-Zyklus gemeinsam evolvieren.
Die Herausforderungen der Zukunft bestehen nicht nur darin, die bestehenden Rahmen anzupassen, sondern die Daten-Governance als lebendige Praxis und System neu zu konzipieren – um sicherzustellen, dass die KI nicht nur Effizienz und Innovation, sondern auch Fairness, Rechenschaftspflicht und das öffentliche Interesse dient.
Dieser Artikel stammt aus dem WeChat-Account "Data-driven Intelligence" (ID: Data_0101), Autor: Xiaoxiao. Veröffentlicht von 36Kr mit Genehmigung.