Endlich zum Einsatz: Das Datenverzeichnis, das der AI

Das Datenverzeichnis kommt endlich zum Einsatz, denn der AI-Agent wird es lesen.

Das teuerste Regal im Gebäude

Jedes große Unternehmen hat ein Datenverzeichnis. Die meisten davon wurden zwischen 2018 und 2024 erstellt, als es einen Boom um die Daten-Demokratisierung, die Self-Service-Analyse und die damals revolutionäre Idee gab, dass Menschen in der Lage sein sollten, die von ihrer Organisation erzeugten Daten zu finden und zu verstehen.

Dieses Konzept ist äußerst attraktiv. Ein durchsuchbares Verzeichnis, das alle Datensätze, Tabellen und Spalten innerhalb der Organisation enthält und mit ausführlichen Beschreibungen, Besitzinformationen, Daten-Herkunft, Qualitätsbewertungen und Nutzungsstatistiken versehen ist. Jeder Mitarbeiter kann über eine einheitliche Schnittstelle vorhandene Daten entdecken, deren Bedeutung verstehen und ihre Vertrauenswürdigkeit bewerten. Dies würde das Zeitalter des "Stammeswissens" beenden und eine neue Ära der Datenkompetenz eröffnen.

Die Realität sieht jedoch ganz anders aus. Organisationen haben Millionen von Euro in die Erstellung von Verzeichnisplattformen investiert, Daten-Governance-Teams eingestellt, um die Daten zu füllen, und interne Marketingkampagnen gestartet, um die Benutzeradoption zu fördern, nur um zu sehen, wie die Nutzungsrate stagniert. Die Verzeichnisaktualisierungen sind sporadisch, die Suchanfragen sind selten, und die Anzahl der Wartungspersonal nimmt ab. Sie fühlen sich wie die Betreiber eines Museums, das niemand besucht.

Eine nach der anderen Studie bestätigt dieses Muster. Die Adoptionsrate von Datenverzeichnissen liegt zwischen 10 % und 25 % der Zielgruppe. Die meisten Suchvorgänge werden von einer kleinen Gruppe fortgeschrittener Benutzer durchgeführt - in der Regel von Dateningenieuren, die Informationen zur Daten-Herkunft benötigen, und nicht von den Geschäftsanalysten, für die das Verzeichnis eigentlich gedacht war. In den meisten Organisationen ist der Traum von der Self-Service-Datenentdeckung stillschweigend gescheitert, erdrückt von der menschlichen Natur: Menschen neigen dazu, ihre Kollegen zu fragen, anstatt im Verzeichnis zu suchen, und sie bevorzugen vertraute Datensätze gegenüber dokumentierten, aber unbekannten Datensätzen.

Die Produkteverzeichnisse an sich sind nicht schlecht. Sie lösen das falsche Problem - oder genauer gesagt, sie lösen das richtige Problem für den falschen Verbraucher. Es hat sich gezeigt, dass die Menschen nur mäßig in der Lage sind, strukturierte Metadaten zu verarbeiten. Sie lesen nur die Beschreibungen, ignorieren die Datenwörterbücher und verlassen sich auf Mustererkennung und organisatorisches Gedächtnis, anstatt systematisch Informationen zu entdecken.

Künstliche Intelligenz-Agenten dagegen sind genau das Gegenteil. Und das ändert alles.

Der perfekte Verbraucher taucht auf

Große Sprachmodelle und auf diesen Modellen basierende Agentensysteme haben eine Reihe von Eigenschaften, die sie zu idealen Verbrauchern von Verzeichnissen machen - Eigenschaften, die fast genau das Gegenteil des menschlichen Verhaltens sind.

Künstliche Intelligenz-Agenten lesen ausführlich. Wenn menschliche Analysten im Verzeichnis nach relevanten Datensätzen suchen, lesen sie normalerweise die ersten drei Ergebnisse, überfliegen die Beschreibungen schnell und wählen dann dasjenige aus, dessen Name passend klingt. Künstliche Intelligenz-Agenten hingegen lesen jede Beschreibung, jeden Spaltenkommentar und alle zusätzlichen Metadaten jedes Kandidaten-Datensatzes und treffen auf der Grundlage vollständiger Informationen eine Entscheidung. In der Vergangenheit war es eine mühsame Arbeit, ausführliche Spaltenbeschreibungen zu schreiben, da diese Arbeit im Wesentlichen vergeblich war, wenn die Zielgruppe Menschen waren, die diese Beschreibungen nicht lesen würden. Wenn die Zielgruppe jedoch ein sprachlernendes KI-System (LLM) ist, das alles liest, wird diese Arbeit von entscheidender Bedeutung.

Künstliche Intelligenz-Agenten haben kein Erfahrungswissen. Ein Analyst, der seit drei Jahren in der Firma arbeitet, weiß, dass eine bestimmte Version der Umsatz-Tabelle revenue_metrics_v2 die autoritative Quelle ist und dass revenue_final_BACKUP ignoriert werden sollte, auch wenn sein Änderungsdatum neuer ist. Künstliche Intelligenz-Agenten haben kein solches Wissen. Sie verlassen sich vollständig auf die Metadaten im Verzeichnis, um autoritative Quellen von veralteten Kopien zu unterscheiden. Das Verzeichnis ist für den Agenten nicht ein bequemes Werkzeug, sondern die gesamte Darstellung seines Verständnisses der Datenlandschaft.

KI-Agenten stellen Abfragen programmgesteuert. Wenn ein KI-Agent eine Frage zur Quartalsumsätze der verschiedenen Produktlinien beantworten muss, startet er nicht ein BI-Tool und durchsucht keine Dashboards, sondern erstellt eine Abfrage. Um die richtige Abfrage zu erstellen, muss er wissen, welche Tabelle die Umsatzdaten enthält, welche Spalte den netto bestätigten Umsatz und den Gesamtumsatz darstellt, welche Dimensions-Tabelle die Produkt-Hierarchie enthält und wie diese Tabellen verbunden werden können. Alle diese Informationen (falls vorhanden) sind im Produkteverzeichnis gespeichert. Die Fähigkeit des Agenten, die richtige Abfrage zu generieren, steht in direktem Verhältnis zur Qualität der Produkteverzeichnis-Metadaten.

Künstliche Intelligenz-Agenten können in großem Maßstab betrieben werden. Menschliche Analysten suchen möglicherweise nur ein paar Mal pro Woche im Verzeichnis. Ein Cluster von Künstlichen Intelligenz-Agenten, der die Datenabfragen einer Organisation bedient, kann jedoch tausende Mal am Tag das Verzeichnis abfragen und jedes Mal Kontextinformationen über Tabellen, Spalten, Beziehungen und Qualitätsbewertungen sammeln, um seine Vorgehensweise zu bestimmen. Das Verzeichnis wandelt sich von einem gelegentlich konsultierten Referenzdokument zu einer entscheidenden Laufzeitabhängigkeit für kontinuierliche Abfragen.

Diese Umwälzung ändert die Ökonomie der Datenkatalogisierung. Seit zehn Jahren war der Wert der Verzeichnisse durch die menschliche Adoptionsrate begrenzt, die immer niedrig blieb. Jetzt, da Künstliche Intelligenz-Agenten die Hauptbenutzer sind, ist der Wert der Verzeichnisse nur durch die Qualität ihres Inhalts begrenzt - plötzlich hat jede Beschreibung, jeder Kommentar, jede Besitz- und Herkunftsmetadaten einen messbaren Einfluss auf die Genauigkeit der von Künstlicher Intelligenz generierten Antworten.

Was KI-Agenten wirklich aus dem Verzeichnis brauchen

Nicht alle Verzeichnis-Metadaten sind für Künstliche Intelligenz-Agenten gleichermaßen wertvoll. Die Funktionen, die Verzeichnis-Anbieter an menschliche Benutzer vermarkten - wie z. B. visuelle Herkunftsdiagramme, soziale Funktionen wie "Gefällt mir" und "Folgen" sowie ansprechende Datenqualitäts-Trend-Dashboards - sind für LLM (Lebenszyklusmanagement) größtenteils irrelevant. Was die Agenten wirklich brauchen, sind konkrete, strukturierte und überraschend einfache Informationen.

Präzise Spaltenbeschreibungen. Nicht "Kunden-Transaktionsbetrag", sondern "Gesamtbetrag der Transaktionen in US-Dollar, einschließlich Steuern und ohne Rückerstattungen, erfasst bei der Kaufautorisation, nicht bei der Abrechnung". Je präziser die Beschreibung ist, desto geringer ist die Wahrscheinlichkeit, dass der Agent die Spalte fehlverwendet. Dies ist genau das Problem, das in den letzten zehn Jahren bei der Verzeichnisqualität besteht: Die meisten Verzeichnisse haben bestenfalls Tabellenbeschreibungen, und Spaltenbeschreibungen fehlen entweder oder sind zu allgemein, um nützlich zu sein.

Normative Kennzeichnungen. Für jedes geschäftliche Konzept - wie z. B. Umsatz, Anzahl der Kunden, Kundenabwanderungsrate - muss das Verzeichnis eindeutig kennzeichnen, welche Tabelle und Spalte die autoritative Quelle ist. Andernfalls hat der Agent dasselbe Problem wie ein neuer Mitarbeiter: Ein Datenlager mit zwölf Tabellen, die möglicherweise "Umsatz"-Daten enthalten, aber ohne Möglichkeit zu wissen, welche Tabelle der Chefkontroller als die richtige ansieht. Normative Markierungen oder Labels im Verzeichnis können diese Mehrdeutigkeit beseitigen.

Beziehungs- und Verbindungsmetadaten. Schema-Fremdschlüssel erfassen strukturelle Beziehungen. Verzeichnis-Metadaten sollten semantische Beziehungen erfassen: Diese beiden Tabellen können anhand eines bestimmten Schlüssels customer_id verbunden werden, aber Tabelle B muss zuerst gefiltert werden, um status = 'active' zu vermeiden, um doppelte Zählungen zu vermeiden. Diese Verbindungsbedingungen sind "Erfahrungswissen", das Menschen oft im Gedächtnis behalten und nie aufschreiben. Für Künstliche Intelligenz-Agenten ist es jedoch die einzige Möglichkeit, sie aufzuschreiben.

Frische- und Qualitäts-Signale. Ein Agent, der Abfragen erstellt, muss nicht nur wissen, welche Daten vorhanden sind, sondern auch, ob diese Daten aktuell und zuverlässig sind. Ein Verzeichnis, das Frische-Metadaten (z. B. das letzte Aktualisierungsdatum, die erwartete Aktualisierungsfrequenz, die aktuelle Qualitätsbewertung) anzeigen kann, ermöglicht es dem Agenten, auf der Grundlage dieser Informationen fundierte Entscheidungen zu treffen, welche Datenquellen vertrauenswürdig sind und welche besonderes Augenmerk erfordern.

Nutzungsszenarien und anerkannte Anwendungsfälle. Die fortschrittlichsten Verzeichnis-Implementierungen enthalten Metadaten über die erwartete Verwendung der Datensätze. "Diese Tabelle ist die autoritative Quelle für Finanzberichte" unterscheidet sich stark von "Diese Tabelle ist ein experimenteller Merkmals-Speicher, den das Machine-Learning-Team verwendet". Ein Agent, der diese Anwendungsfälle versteht, kann basierend auf dem Kontext die passende Datenquelle auswählen, anstatt einfach die Tabelle auszuwählen, die anhand des Spaltennamens am relevantesten aussieht.

Die Feedback-Schleife, die alles ändert

Hier kommt der wirklich spannende Teil der Geschichte. Künstliche Intelligenz-Agenten nehmen nicht nur Verzeichnis-Metadaten auf, sondern generieren auch Signale, um das Verzeichnis zu verbessern.

Jedes Mal, wenn ein Künstlicher Intelligenz-Agent das Verzeichnis abfragt, einen Datensatz auswählt, eine Abfrage erstellt und ein Ergebnis generiert, entstehen reichhaltige Feedback-Signale. Welche Datensätze wurden in Betracht gezogen, welche wurden ausgewählt? Welche Beschreibungen waren ausreichend, um dem Agenten eine zuverlässige Entscheidung zu ermöglichen, welche benötigen zusätzliche Kontextinformationen? In welchen Fällen haben die Agenten-Abfragen aufgrund von unklaren oder unvollständigen Metadaten fehlerhafte Ergebnisse geliefert?

Diese Feedback-Schleife hat eine transformierende Bedeutung, da sie das Wartungsproblem löst, das ursprünglich die Verbreitung des Verzeichnisses behinderte. Das Verzeichnis wird veraltet, weil die Kosten für die Wartung von Menschen getragen werden, die davon praktisch keine direkten Vorteile haben. Dateningenieure, die Spaltenbeschreibungen schreiben, leisten eine unbezahlte Arbeit für vermeintliche zukünftige Benutzer, die diese Beschreibungen möglicherweise nie lesen werden.

Mit Künstlichen Intelligenz-Agenten als Verbrauchern ist die Feedback-Schleife sofortig und messbar. Wenn eine Spaltenbeschreibung fehlt, wird der Agent die Spalte missverstehen und dadurch fehlerhafte Antworten generieren, die wiederum ein Fehlersignal erzeugen, das auf das Fehlen der Metadaten zurückgeführt werden kann. Die Kosten für schlechte Metadatenqualität sind nicht mehr hypothetisch - sie führen zu einer quantifizierbaren Abnahme der Künstlichen Intelligenz-Genauigkeit.

Dies bildet einen virtuousen Zyklus: Die Verwendung von Künstlicher Intelligenz entdeckt Metadatenlücken, die nach dem Auffüllen der Lücken von Künstlicher Intelligenz bessere Ergebnisse erzeugen, was wiederum die Verwendung von mehr Künstlicher Intelligenz fördert und damit mehr Lücken entdeckt. Die Verbesserung des Verzeichnisses resultiert nicht aus ehrgeizigen Managementbemühungen, sondern aus dem natürlichen Druck eines unermüdlichen und anspruchsvollen Benutzers - der eine Warnung auslöst, wenn die Metadaten fehlerhaft sind.

Einige Organisationen gehen noch einen Schritt weiter und nutzen das Lebenszyklusmanagement (LLM), um das Verzeichnis-Metadaten zu füllen. Agenten können das Schema einer Tabelle lesen, Beispiel-Daten prüfen, vorhandene Dokumentation kreuzreferenzieren und Entwürfe von Beschreibungen generieren, die von Menschen überprüft und genehmigt werden können. Diese Technologie macht das Verzeichnis nicht nur als Verbraucher bequemer, sondern auch als Beitragenden leichter zu warten.

Das Verzeichnis-Architektur für KI-Verbrauch neu denken

Die meisten bestehenden Produkteverzeichnisse sind so konzipiert, dass die Web-Benutzeroberfläche die Hauptschnittstelle ist, und die REST-API ist eine spätere Ergänzung. Für die native KI-Nutzung muss diese Hierarchie umgedreht werden.

Die API des Verzeichnisses wird zur Hauptschnittstelle. Sie muss die effiziente Suche nach geschäftlichen Konzepten ("Finden Sie die autoritative Quelle für den Quartalsumsatz"), technischen Referenzen ("Beschreiben Sie alle Spalten in der Bestell-Tabelle") und Beziehungen ("Welche Tabellen können mit der customer_profiles-Tabelle verbunden werden und unter welchen Bedingungen") unterstützen. Diese Abfragen müssen strukturierte, LLM-freundliche Antworten liefern, anstatt HTML-Seiten, die für das menschliche Lesen ausgelegt sind.

Das Antwortformat ist von entscheidender Bedeutung. Wenn eine Verzeichnis-API einen Text zurückgibt, der eine Tabelle beschreibt, ist sie für den Agenten weitaus weniger nützlich als eine API, die strukturierte Metadaten (z. B. Spaltennamen, Typen, Beschreibungen, Aktualisierungszeitstempel, Qualitätsbewertungen, normative Kennzeichnungen und Verbindungsbedingungen) zurückgibt, und die Metadaten müssen in einem analysierbaren Format vorliegen. Der Agent muss diese Metadaten verstehen, nicht nur lesen.

Die Latenz ist von entscheidender Bedeutung. Wenn die Verzeichnis-Suche ein wichtiger Bestandteil des kritischen Pfads der Abfrageerstellung eines Künstlichen Intelligenz-Agenten ist (was immer häufiger der Fall ist), ist eine Antwortzeit von einigen hundert Millisekunden akzeptabel. Eine Antwortzeit in Sekunden ist jedoch nicht akzeptabel. Dies hat weitreichende Auswirkungen auf die Verzeichnis-Infrastruktur, die viele Anbieter noch nicht ausreichend bewusst sind.

Die Versionskontrolle ist von entscheidender Bedeutung. Wenn sich Einträge im Verzeichnis ändern - z. B. wenn eine Spaltenbeschreibung aktualisiert oder die Kennzeichnung der autoritativen Quelle geändert wird - müssen die nachgeschalteten KI-Agenten davon in Kenntnis gesetzt werden. Verzeichnisänderungen sollten versionskontrolliert und als Ereignisse gesendet werden, damit die Agenten die zwischengespeicherten Metadaten ungültig machen und die Arbeit mit einem veralteten Verzeichniszustand vermeiden können. Dies entspricht dem Cache-Invalidierungsmodell in Software-Systemen, nur dass es auf Metadaten angewendet wird.

Eine beunruhigende Prüfung

Wenn Ihre Organisation ein Datenverzeichnis hat, ist es an der Zeit, es mit einer neuen Perspektive zu prüfen - genauer gesagt, aus der Perspektive eines Künstlichen Intelligenz-Agenten, der jede Beschreibung wörtlich nimmt und kein Stammeswissen hat.

Die Prüfung sollte die folgenden fünf Fragen beantworten:

Welcher Anteil der von KI-Systemen verwendeten Tabellen enthält Spaltenbeschreibungen? In den meisten Organisationen ist diese Zahl erstaunlich niedrig. Jede Spalte ohne Beschreibung wird von KI-Agenten nur anhand ihres Namens interpretiert - das ist der Grund, warum Sie cust_txn_amt_usd verwenden sollten, wenn rev_net_recognized stattdessen summiert wird

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。