StartseiteArtikel

Warum wird die Datenqualität zum wichtigsten Problem im Bereich der künstlichen Intelligenz?

王建峰2026-04-01 09:40
Warum wird die Datenqualität zum wichtigsten Problem im Bereich der künstlichen Intelligenz?

Kurz gesagt: Das traditionelle Datenqualitätssystem, das auf handschriftlichen Regeln und passiven Prüfungen basiert, wurde nie für Agenten-Künstliche Intelligenz entwickelt. Bis 2026 wird niemand eingreifen, um Probleme zu entdecken, wenn autonome Agenten fehlerhafte Daten verarbeiten. Die Organisationen, die im Bereich Künstliche Intelligenz erfolgreich sind, beginnen nicht mit besseren Modellen, sondern mit der Schaffung einer Datenvertrauensschicht, die Daten vor dem Handeln des Agenten detektieren, reparieren und sich selbst reparieren kann. Dies ist die Essenz der modernen autonomen Datenqualität.

Die meisten Organisationen glauben, dass sie das Problem der Datenqualität gelöst haben. Sie haben einige Regeln festgelegt, einige Prüfmechanismen eingerichtet, ein Datengovernance-Team gegründet und es mit einem Rahmen ausgestattet. Lange Zeit war das ausreichend.

Das reicht nicht mehr.

Die Datenumgebung, in der sich die meisten Unternehmen heute befinden, unterscheidet sich fast vollständig von der Umgebung, für die das ursprünglich entwickelte Datengovernance-Rahmenwerk konzipiert war. Vor ein paar Jahrzehnten stammten die Daten einer typischen Organisation aus nur wenigen ERP- und CRM-Systemen. Strukturierte Tabellen, vorhersehbare Muster, kontrollierbare Bereiche und leicht zu wartende Regeln. Theoretisch konnte eine Person das Ganze verstehen.

Heute verwaltet ein Unternehmen im Durchschnitt über 900 Anwendungen. Jede Anwendung erzeugt Daten. Die meisten können jedoch nicht effektiv miteinander kommunizieren. Und fast alle diese Daten sollten schließlich in die AI-Projekte fließen, die die Unternehmensleitung öffentlich zugesagt, in das Budget aufgenommen und für die sie die Verantwortung für die Lieferung trägt.

Genau hier wird die moderne künstliche-intelligenzgesteuerte Datenqualität nicht nur zu einem Problem, das das Datenteam beachten muss, sondern zu einem Problem der Geschäftskontinuität.

Diese Zahlen offenbaren eine härtere Wahrheit, als die meisten Organisationen hören möchten.

Nach Schätzungen von Gartner verliert eine Organisation im Durchschnitt jährlich 12,9 Millionen US-Dollar aufgrund schlechter Datenqualität. Über ein Viertel der Organisationen berichtet von einem jährlichen Verlust von über 5 Millionen US-Dollar, und 7 % der Organisationen verlieren über 25 Millionen US-Dollar. Diese Zahlen wurden über Jahre hinweg häufig in Vorstandssitzungen erwähnt, normalerweise, um die Notwendigkeit des Kaufs einer Datenqualitätsplattform zu begründen, und wurden dann stillschweigend beiseite gelegt.

Bis 2026 wird nicht der konkrete Betrag die Diskussion verändern, sondern die nachhaltigen Auswirkungen der derzeit schlechten Daten.

Im traditionellen Analysebereich ist immer ein Mensch beteiligt. Ein Bericht zeigt einen Zahlenfehler, jemand entdeckt ihn und meldet die Situation. Da jemand das Problem rechtzeitig entdeckt und behandelt hat, bevor es sich ausbreiten konnte, wurde der Schaden auf ein begrenztes Maß beschränkt.

Agenten-Künstliche Intelligenz beseitigt diese Pufferung vollständig. Wenn ein autonomer Agent auf der Grundlage beschädigter Daten Entscheidungen trifft, hält er nicht an, um eine Plausibilitätsprüfung durchzuführen, sondern handelt direkt. Er konfiguriert fehlerhafte Infrastrukturen, löst fehlerhafte Workflows aus und gibt den Kunden fehlerhafte Empfehlungen. Und da Agenten mit Maschinengeschwindigkeit in tief vernetzten Systemen arbeiten, kann ein einzelner Datenqualitätsfehler sich auf den gesamten Prozess ausbreiten, bevor jemand bemerkt, was passiert ist.

Dies ist das zentrale Problem, das die automatisierte Datenqualitätsinfrastruktur bis 2026 lösen muss: nicht Fehler für Analysten zu entdecken, sondern Fehler zu entdecken, bevor der Kundendienstpersonal handelt.

Bis 2026 wird der globale Ausgabenbetrag für Künstliche Intelligenz voraussichtlich über 2 Billionen US-Dollar liegen. Jeder Dollar, der investiert wird, hängt von der Qualität der Daten ab, die durch das System fließen. Schlechte Datenqualität verringert nicht nur die Rendite der KI-Investitionen, sondern kann in einer Agenten-Umgebung auch große Schäden verursachen.

Die Art und Weise, wie wir bisher die KI-Bereitschaft gemessen haben, war falsch.

57 % der Organisationen geben an, dass ihre Daten nicht für die aktuelle oder zukünftige KI-Anwendung bereit sind. Angesichts der riesigen Investitionen in die Dateninfrastruktur in den letzten zehn Jahren ist dieser Anteil erstaunlich. Dies zeigt nicht nur Datenprobleme, sondern auch Probleme mit den Messkriterien.

Die meisten Organisationen bewerten die Datenqualität anhand von Vollständigkeit, Genauigkeit und Konsistenz. Diese Dimensionen sind zwar wichtig, aber sie wurden unter der Annahme entwickelt, dass der Endbenutzer ein überlegener menschlicher Analyst ist. Für autonome KI-Systeme sind die Standards jedoch völlig anders und viel höher.

KI-Agenten müssen nicht nur wissen, ob in einem bestimmten Feld Daten vorhanden sind, sondern auch, ob die Daten semantisch korrekt im Kontext sind, ob ihr Wert im Kontext der relevanten Datenpunkte sinnvoll ist, ob die Datenquelle vertrauenswürdig ist und ob die Daten aktuell genug sind, um die getroffenen Entscheidungen zu unterstützen. Das moderne künstliche-intelligenzgesteuerte Datenqualitätsframework umfasst jetzt semantische Validierung, Quellübergreifende Konsistenzprüfung, Drift-Detektion und Qualitätsbewertung. Diese Funktionen können dem Agenten mitteilen, wie viel Gewicht er einer bestimmten Datenquelle zu einem bestimmten Zeitpunkt zuweisen sollte.

Dies ist eine grundlegend andere Definition von Qualität und erfordert auch eine grundlegend andere Art der Umsetzung.

Die Ära der Regeln ist vorbei

Das grundlegende Problem der traditionellen Datenqualität besteht darin, dass sie von vornherein passiv konzipiert war. Ein Mensch stellt sich ein bestimmtes Fehlermuster vor, schreibt Regeln, um es zu erfassen, und das System prüft dann anhand dieser Regeln. Dieses Modell funktioniert, wenn die Datenumgebung stabil ist und die Personen, die das Regelhandbuch pflegen, auf Veränderungen schnell reagieren können.

Beide Bedingungen gelten nicht mehr.

Heute stammen die Daten aus Hunderten von Quellen, die Formate ändern sich ständig, und sie werden in Systeme eingegeben, die bei ihrer Entstehung nicht auf Interoperabilität ausgelegt waren. Kein Analyseteam kann schnell genug Regeln schreiben, um auf diese Veränderungen zu reagieren. Auch kein statisches Regelhandbuch kann alle Fehlermuster vorhersagen, die auftreten, wenn Hunderte von Systemen auf unerwartete Weise interagieren.

Der Wandel bei der modernen Agenten-KI-Datenqualität besteht darin, dass er von menschlich definierten Regeln zu maschinell entdeckten Mustern übergeht. Dies zeigt sich in Verhaltensanomalien in Bezug auf Datenmenge, Geschwindigkeit und Verteilung sowie in Referenzdrift, die aufgrund von Beziehungen zwischen Datensätzen, die nie formell festgelegt wurden, und die keine Regel vorhersehen kann. Darüber hinaus zeigt es sich in zeitlichen Inkonsistenzen, die nur sichtbar werden, wenn man das Verhalten der Daten im Laufe der Zeit beobachtet, und nicht nur, ob sie einen bestimmten Zeitpunktsprüfung bestanden haben.

Wenn die entdeckten Muster mit den festgelegten Regeln kombiniert werden, erhält das Qualitätssystem wirklich die Fähigkeit zur Selbstanpassung. Es kann den normalen Zustand jedes Datensatzes lernen, Abweichungen von dieser Basislinie erkennen und Probleme melden, bevor schlechte Daten irgendeinen Verarbeitungsschritt erreichen.

Hier ein konkretes Beispiel. Die Bestellungstabelle einer Retailplattform sollte die genauen staatlichen und lokalen Verkaufsteuern in Tausenden von Gerichtsbarkeiten in den Vereinigten Staaten widerspiegeln. Diese Steuersätze ändern sich ständig. Ein regelbasiertes System kann diese gegen bekannte Tabellen überprüfen. Aber wie kann man das Muster von fehlerhaften Steuerberechnungen in neuen Produktkategorien entdecken, bevor es sich auf Tausende von Transaktionen akkumuliert hat? Diese Detektion erfordert Verhaltensmodellierung, nicht Regelmatching.

Der wahre Grund, warum 79 % der KI-Agenten nicht in die Produktionsumgebung eingeführt werden

Fast vier von fünf Unternehmen haben KI-Agenten in irgendeiner Form eingeführt. Aber nur ein Neuntel der Unternehmen setzt sie in großem Maßstab in der Produktionsumgebung ein. Diese Lücke ist die zentrale Herausforderung für die Unternehmens-KI bis 2026, und die meisten Diskussionen rund um diese Herausforderung konzentrieren sich auf die Reife des Modells, die Komplexität der Orchestrierung und den Mangel an qualifizierten Mitarbeitern.

Diese Faktoren sind alle real. Aber der am leichtesten übersehene Faktor ist das Vertrauen in die Daten.

Agentenfehler sind fast immer Kontextfehler. Sprachmodelle oder autonome Agenten benötigen nicht nur Daten, sondern auch den Kontext hinter den Daten: die Bedeutung dieser Werte, die aktuell gültige Definitionsversion, die Datenquelle, welche Transformationen die Daten durchlaufen haben und ob die Daten aktuell genug sind, um die angeforderte Entscheidung zu unterstützen. Ohne diesen Kontext können Agenten Täuschungen haben, falsche Informationen erhalten und auf der Grundlage technisch gültiger, aber semantisch falscher Signale handeln.

Selbstheilende Datenpipelines und automatisierte Datenqualitätsinfrastrukturen sind nicht deshalb bemerkenswert, weil sie die manuelle Arbeit des Datenteams reduzieren (obwohl sie das auch können), sondern weil sie sicherstellen können, dass autonome Agenten sicher in die Produktionsworkflows integriert werden können und man sich auf ihr Verhalten verlassen kann. Bis 2026 werden die Organisationen, die im Bereich Agenten-Künstliche Intelligenz erfolgreich sind, nicht wegen besserer Modelle, sondern weil sie zuerst eine Datenvertrauensschicht aufgebaut haben.

Wie sieht autonome Datenqualität in der Praxis aus?

Die moderne Methode zur Datenqualitätsverwaltung ist kein Überwachungsdashboard, das täglich von einer Person überprüft wird, sondern ein kontinuierlich laufendes System. Dieses System kann das erwartete Verhalten jedes Datensatzes, den es verarbeitet, verstehen, Abweichungen vom erwarteten Verhalten in Echtzeit erkennen, die Auswirkungen auf die nachgelagerten Daten bewerten und automatisch reparieren oder genügend Informationen bereitstellen, damit eine Person schnell handeln kann.

Bis 2027 werden die Organisationen, die nicht die KI-bereiten Daten priorisieren, bei der Erweiterung von vollständigen KI- und Agentenlösungen voraussichtlich einen Produktivitätsverlust von 15 % erleiden. Dies ist keine Warnung zur Datenqualität, sondern zur kumulativen Schäden, die durch fehlerhafte Infrastruktur verursacht werden, insbesondere wenn die darauf aufbauenden Systeme ständig erweitert werden.

Die Organisationen, die am Ende erfolgreich sind, sind diejenigen, die die automatisierte Datenqualität als Infrastruktur betrachten, die in die gleichen Kategorien wie Rechenleistung und Speicher fällt, und nicht als ein Projekt, das parallel zur eigentlichen Arbeit durchgeführt wird.

Das ist der Wandel. Die Datenqualität ist nicht mehr eine Reparaturmaßnahme, sondern ein Schlüsselfaktor für die zuverlässige Funktion der KI.

Dieser Artikel stammt aus dem WeChat-Account „Data-driven Intelligence“ (ID: Data_0101), Autor: Xiaoxiao. Veröffentlicht von 36Kr mit Genehmigung.