Wie bereitet man seine Daten optimal für Künstliche Intelligenz vor?

Wie bereitet man seine Daten für Künstliche Intelligenz vor?

Agenten-Künstliche Intelligenz revolutioniert das Big-Data-Paradigma. Sie verlangt, dass wir bewusst Daten in speziell dafür eingerichtete intelligente Rechenplattformen einführen, und nicht umgekehrt. Diese Veränderung verändert grundlegend unser festgefahrenes Verständnis von Datenmodellierung und -speicherung, da Low-Level Machine Learning (LLM) in der Lage ist, mit viel kleineren Datensätzen als herkömmliches Machine Learning kontextbezogen zu lernen. Daher machen die ständig wachsenden Kontextfenster und die Fähigkeit zur Tool-Aufrufung moderner Künstlicher Intelligenz viele herkömmliche ETL/ELT-Prozesse schnell überholt und zwingen Dateningenieure, ihre gesamte Vorgehensweise grundlegend neu zu überdenken.

Was ist die Ursache für diese Verwirrung?

Einer der Gründe für diese Veränderung ist die sich verändernde Art und Weise, wie Menschen mit Daten umgehen.

Unternehmensanwendungen und Dashboards werden von Softwareingenieuren und Datenwissenschaftlern entwickelt, um die Bedürfnisse nicht-technischer Benutzer zu befriedigen. Im Gegenzug nehmen Unternehmensanalysten und Endbenutzer diese Inhalte passiv entgegen. Die Anwendungen können einige Interaktionsfunktionen integriert haben, aber alle diese Interaktionen folgen starren, vordefinierten Arbeitsabläufen. Als Dateningenieure ist es unsere Aufgabe, Datenformate bereitzustellen, die von solchen Anwendungen genutzt werden können.

Es findet ein Übergang vom "Builder"-zentrierten Modell (technische Benutzer erstellen Anwendungen) hin zum "Interactor"-zentrierten Modell statt (nicht-technische Benutzer interagieren direkt mit Daten über Künstliche-Intelligenz-Agenten).

Immer mehr nicht-technische Benutzer interagieren direkt mit Daten. Sie können nach ihren eigenen Bedürfnissen Anwendungen und Tools entwickeln. Bestehende SaaS-Anwendungen beschränken sich nicht mehr darauf, nebeneinanderliegende Chat-Schnittstellen zu integrieren, sondern nutzen Frameworks wie CopilotKit, um natürliche Sprachinteraktionen auf eine ursprünglichere Weise einzubetten. Vorausschauende Entwickler wiederholen nicht einfach starre Arbeitsabläufe, sondern integrieren KI-Agenten in die Anwendungen, damit diese über Tool-Aufrufe auf Backend-APIs zugreifen können.

Zweitens verschiebt sich der Schwerpunkt. In der Vergangenheit waren die Datenmengen riesig, daher mussten Rechenressourcen dort platziert werden, wo sich die Daten befanden, um umfangreiche Datenmigrationen zu vermeiden. Heute liegt der Schwerpunkt jedoch auf modernen KI-Modellen (LLM), und KI-Anwendungen werden um diese herum entwickelt.

Da sich der Schwerpunkt verschoben hat, dreht sich auch die technische Architektur um. Im Gegensatz zur Vergangenheit, als es erforderlich war, maßgeschneiderte Rechenressourcen für die Datenverarbeitung bereitzustellen, nutzen Agenten-KI-Anwendungen Large Language Models (LLM) als Inferenz-Engine, die in der Lage ist, die Benutzerabsicht zu verstehen, Aufgaben zu inferieren und Tools zur Ausführung von Aktionen aufzurufen. Diese neue Welle von Anwendungen zielt darauf ab, die Benutzerabsicht direkt in Aktionen umzusetzen.

Wie wirken sich diese beiden dynamischen Veränderungen auf die Arbeit von Dateningenieuren aus? Hier sind fünf Prinzipien, die beim Vorbereiten von Daten für die Künstliche Intelligenz in Erinnerung gehalten werden sollten.

1. ETL/ELT neu überdenken: Von Normalisierung hin zum Kontext

Heute investieren Dateningenieure viel Zeit und Energie in die Datennormalisierung, die Erstellung klarer Datenmodelle und die Aufbau von Transformationspipelines. Ziel ist es, dass downstream-Analysten und Anwendungen die Daten verstehen können.

Das bedeutet nicht, dass ETL/ELT irrelevant wird. Die Bereitstellung von Daten bleibt weiterhin von großer Bedeutung. Aber Sie können sich auf Agenten verlassen, um das Datenmodell zu interpretieren, die Beziehungen zu verstehen und Daten in verschiedenen Formaten zu verarbeiten, ohne umfangreiche Vorverarbeitung.

Allerdings ist es ein großer Missbrauch der Fähigkeiten von Agententechnologie, einfach nur Datenkataloge und MCP-Server zu bestehenden Tabellen hinzuzufügen. Darüber hinaus erhöht dies die Arbeitsbelastung von KI-Agenten erheblich. Warum?

KI-Agenten können Daten im Kontext verstehen. Sie benötigen nicht, dass alle Daten vorher in ein starres Schema normalisiert werden. Tatsächlich wird es für heutige Agenten immer schwieriger, Daten richtig zu interpretieren und korrekte SQL-Anweisungen zum Verbinden aller Daten zu schreiben, je mehr Tabellen es gibt. Darüber hinaus steigt die Wahrscheinlichkeit von Konflikten und Mehrdeutigkeiten mit zunehmender Anzahl von Datenschnitten. Beispielsweise kann es in zwei Tabellen jeweils eine Spalte "Kreditbetrag" geben. In einer Tabelle kann dies der Betrag sein, den der Kreditnehmer beantragt hat, in der anderen der eigentliche ausgezahlte Kapitalbetrag des Kreditgebers. Je mehr die Datenstruktur verarbeitet, normalisiert und verteilt ist, desto schwieriger ist es, Kontextinformationen zu übermitteln.

Behalten Sie die Arbeitsabläufe zur Sicherstellung der Datenverfügbarkeit bei, aber hinterfragen Sie, ob jeder Normalisierungsschritt noch notwendig ist. Können Agenten die Daten im richtigen Kontext verstehen, ohne dass eine Transformation erforderlich ist? Kann man aus der ursprünglichen Konditionenliste oder der Finanzierungsmemorandum einen Textausschnitt extrahieren, der erklärt, welche Zahlungen der Auftraggeber in Raten erhält, anstatt nur eine Zahl anzugeben?

Vermeiden Sie die Versuchung, nur unstrukturierte Daten für KI-Agenten zugänglich zu machen – obwohl es einfach ist, PDFs, E-Mails usw. zu verarbeiten, sind die wirklich handlungsrelevanten Daten in einer Organisation in der Regel immer noch strukturierte Daten.

2. Datensortierung statt Datensammlung priorisieren

Kontextbasiertes Lernen macht die Inhaltsorganisation wichtiger als die Datensammlung.

In der Big-Data-Zeit war das Ziel, so viele Daten wie möglich zu sammeln, weil man Machine Learning-Modelle auf extrem großen Datensätzen trainieren wollte – mehr Daten bedeuteten bessere Machine Learning-Modelle.

KI-Agenten werden jedoch auf der Grundlage von Kontextlernen aufgebaut, bei dem ein oder zwei Beispiele in der Eingabe bereitgestellt werden. Learning Learning Models (LLM) können diese Beispiele effektiv imitieren, sei es, indem sie einem bestimmten Arbeitsablauf folgen (Chain of Thought) oder einer bestimmten Formatierung oder einem bestimmten Stil (Few-Shot Learning). Mit dem Aufkommen von Kontextlernen ist die Qualität der Beispiele wichtiger als die Anzahl.

Die Beispielsdaten, die Sie einem Agenten zeigen, beeinflussen sein Verständnis aller ähnlichen Daten. Sie können eine Beispielsbibliothek erstellen und auswählen, welche Beispiele für bestimmte Arten von Benutzerabfragen verwendet werden. Da die Datenverwaltung immer wichtiger wird, wird es für Dateningenieure von entscheidender Bedeutung, die folgenden Tools zu entwickeln:

• Finden Sie die Daten höchster Qualität, wie z. B. vollständige, genaue und repräsentative Datenstichproben.

• Aktualisieren Sie diese Beispiele regelmäßig, wenn sich die Standards ändern.

• Verifizieren Sie, ob die sorgfältig sortierten Daten tatsächlich als effektive Beispiele für das Lernen von Agenten dienen können.

Als Dateningenieur müssen Sie eine der Schlüsselrollen, die Sie befähigen müssen, der Datenadministrator sein. Die Art der Speicherungen, die Sie unterstützen müssen, wird sich auch ändern, einschließlich Graphdatenbanken und Vektordatenbanken.

3. Infrastruktur für Agenten aufbauen: Wahrnehmung und Handlung

KI-Agenten benötigen eine Infrastruktur, die zwei Kernfähigkeiten unterstützt: die Wahrnehmung von Daten und die Fähigkeit, auf der Grundlage dieser Daten Handlungen auszuführen.

Nicht alle Datenformate sind für auf Sprachmodellen basierende Agenten gleichermaßen zugänglich. Berücksichtigen Sie, wie einfach es ist, dass ein Agent ein Datenformat analysiert, versteht und die Bedeutung daraus extrahiert. Formate, die die semantische Bedeutung bewahren und nur einen minimalen Vorverarbeitungsaufwand erfordern, können die Interaktionswiderstände verringern.

KI-Agenten führen Aktionen aus, indem sie Tools (einschließlich Funktionen, APIs und Diensten) aufrufen, die es ihnen ermöglichen, Daten zu verarbeiten. Ihre Infrastruktur muss sicherstellen, dass Agenten diese Tools finden und nutzen können. Das bedeutet klare Schnittstellen, gute Dokumentation und zuverlässige Ausführung.

Überprüfen Sie Ihre Datenzugriffsmuster und Tools aus der Perspektive eines KI-Agenten. Welche Informationen muss ein autonomes System kennen, um sie effektiv nutzen zu können? Welche Schritte behindern den reibungslosen Ablauf?

4. Agentenartefakte als Daten erster Ordnung verwalten

KI-Agenten verbrauchen nicht nur Daten, sondern generieren auch Daten. Tatsächlich werden Sie feststellen, dass die von Künstlicher Intelligenz generierten Inhalte die "ursprünglichen" Daten in einem System bei weitem übersteigen.

Wenn ein Agent Ausgaben erzeugt, Entscheidungen trifft, Code schreibt oder seinen Inferenzprozess protokolliert, werden diese auch zu Daten.

Egal, ob der Inhalt von Menschen erstellt, aus Software-Systemen gesammelt oder von KI-Agenten generiert wird, er muss den geltenden Branchenstandards und Vorschriften entsprechen. Neben der Einhaltung der Vorschriften haben die von Agenten generierten Daten auch für das Debugging, die Prüfung, das Training zukünftiger Agenten und das Verständnis des Systemverhaltens einen Wert.

Behandeln Sie die von Agenten generierten Daten genauso streng wie andere Daten:

• Speichern Sie die Agentenausgaben in einem System.

• Bewahren Sie Entscheidungslogs und Inferenzspuren auf.

• Verwalten Sie den von Agenten generierten Code als versionskontrollierte Artefakte.

• Stellen Sie sicher, dass diese Daten für die Analyse und das zukünftige Training zugänglich sind.

Diese Artefakte werden Teil Ihres Datenökosystems. Entwerfen Sie daher die Speicher- und Zugriffsmuster entsprechend.

5. Beobachtung und Training verbinden

Der schnellste Weg, um die Leistung von Agenten zu verbessern, ist es, eine geschlossene Schleife zwischen Beobachtbarkeit und Training herzustellen. Die Infrastruktur für KI-Agenten benötigt eine bidirektionale Pipeline, die die Modellleistung und die Beobachtbarkeit mit dem kontinuierlichen Training verbindet.

Zunächst benötigen Sie eine Beobachtbarkeitspaltform, die Datenqualitätsindikatoren verfolgen kann, und insbesondere in der Lage ist, Datenabweichungen (Veränderungen der Eingabedatenmerkmale) und Konzeptabweichungen (Veränderungen der Beziehung zwischen Eingabe und Ausgabe) zu erkennen. Gleichzeitig muss sie auch die wichtigsten Modellleistungsindikatoren überwachen, wie z. B. die Genauigkeit, die Latenz und die Halluzinationsrate. Setzen Sie automatische Trigger ein, die mit vordefinierten Schwellwerten verknüpft sind.

Ihre Beobachtbarkeitspaltform muss auch erweitert werden, um menschliches Feedback aufzunehmen. Jede Änderung, die ein Benutzer an den generierten Inhalten vornimmt, muss protokolliert und zur Verbesserung des KI-Modells genutzt werden.

Zweitens benötigen Sie einen Retraining-Prozess, der automatisch aktiviert wird, wenn das Überwachungssystem ein Ereignis auslöst. Er muss vollständig automatisiert sein, die neuesten Versionen der Trainingsdaten extrahieren, die Modellretraining- oder Feintuning-Aufgaben starten und das neu trainierte Modell gründlich evaluieren und auf Rückfall testen. In der Agenten-Ära ist es für Machine Learning/Dateningenieure von entscheidender Bedeutung, ein solches geschlossenes System aufzubauen, das die Leistungsüberwachung direkt mit der automatisierten Bereitstellung verbindet. Die Grenze zwischen beiden wird immer verschwommener.

Wie ändert sich die Rolle von Dateningenieuren?

All diese fünf Veränderungen drehen sich um ein gemeinsames Thema: der Übergang von starren, vordefinierten Arbeitsabläufen hin zu flexiblen, kontextbewussten Architekturen. Die Tool-Aufruf- und Reflexionsfähigkeiten moderner Agenten machen starre ETL/ELT-Pipelines weniger wichtig. Kontextbasiertes Lernen macht die Auswahl von Beispielen wertvoller als die umfassende Sammlung von Beispielen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。