Schreiben Sie SQL nur mit der Stimme. Mit Codex und dauerhaftem Gedächtnis bringt OpenAI die Schwierigkeit der Abfragen auf Null.
Warum stecken Daten-Teams immer wieder in derselben Falle?
Die Antwort liegt oft nicht in zu wenig Rechenleistung, sondern in zu vielen Tabellen, zu vielen Definitionen und zu verstreuten Erfahrungen:
Selbst wenn man von „aktiven Benutzern“ spricht, können die Definitionen in verschiedenen Tabellen völlig unterschiedlich sein. Selbst wenn man die richtige Tabelle wählt, muss man hunderte Zeilen SQL schreiben, um ein Ergebnis zu erhalten. Ein falscher Join-Bedingung kann alles zunichte machen.
Innerhalb von OpenAI wurde ein noch radikaleres Vorgehen gewählt: Ein von Codex angetriebenes Daten-Intelligenzsystem übernahm die Kette „Tabelle finden – Tabelle verstehen – SQL schreiben – Ergebnis prüfen“. Mit einer sechsstufigen Kontextarchitektur wurden die Daten-Semantik ergänzt, organisatorisches Wissen integriert und Erfahrungen gespeichert, damit Ingenieure Fragen stellen können, anstatt mühsam Daten zu bearbeiten.
Datenabfragen erfordern kein manuelles Durchsuchen von Tabellen mehr
„Wir haben eine Vielzahl von Tabellen mit ähnlicher Struktur. Ich verbringe viel Zeit damit, die Unterschiede zwischen ihnen zu verstehen und die richtige Tabelle auszuwählen.“ Ein alltägliches Plädoyer eines OpenAI-Ingenieurs spricht für alle Datenarbeiter.
Die 600 PB Daten auf OpenAIs internen Datenplattformen verteilen sich auf 70.000 Datensätze. Stellen Sie sich vor, ein OpenAI-Ingenieur möchte das Wachstum der ChatGPT-Benutzer analysieren und steht vor Dutzenden ähnlicher Benutzer-Tabellen. Jede Tabelle behauptet, die „Benutzeraktivität“ zu erfassen, doch die Definitionen sind unterschiedlich.
Falsche Tabellenauswahl bedeutet, dass Tage an Arbeit umsonst sind. Noch schlimmer ist es, wenn auf der Grundlage falscher Daten wichtige Entscheidungen getroffen werden.
Was noch ärger ist: Selbst wenn man die richtige Tabelle wählt, ist es eine Herausforderung, korrekte Ergebnisse zu erhalten.
Die über 180 Zeilen lange SQL-Anweisung in der folgenden Abbildung ist wie ein unüberwindbarer Berg – komplexe Tabellenverknüpfungen und Aggregationsoperationen. Ein kleiner Fehler kann die gesamte Analyse zunichte machen.
Mit dem von Codex angetriebenen Intelligenzsystem mit selbstlernender Fähigkeit müssen Ingenieure nicht mehr hunderte Zeilen SQL-Abfragen schreiben. Sie müssen nur eine Frage stellen, um die benötigten Informationen aus dem Datenmeer zu erhalten. Ein Beispiel ist die Abfrage in der folgenden Abbildung, die die Anzahl der aktiven Benutzer zwischen zwei Zeitpunkten vergleichen soll.
Das „Datenhirn“ mit sechsstufiger Architektur
Es gibt viele Tools, die natürliche Sprache in SQL-Anweisungen umwandeln können. Das Kerninnovation der von OpenAI intern verwendeten Daten-Intelligenzsystem liegt in seiner mehrstufigen Kontextarchitektur.
Die unterste Ebene der Grundmetadaten umfasst grundlegende Informationen wie Tabellenstruktur und Spaltentypen. Sie bildet das Gerüst für das Intelligenzsystem, um ein Datenmodell zu erstellen.
Die nächste Ebene ist die manuelle Annotation, die von Fachleuten sorgfältig geschriebene Beschreibungen von Tabellen und Spalten umfasst. Sie erfasst die Absicht, Semantik, geschäftliche Bedeutung und bekannte Hinweise, die nicht leicht aus dem Schema oder früheren Abfragen abgeleitet werden können. Diese Ebene gibt dem Intelligenzsystem eine grundlegende Schulung über die Informationen in jeder Tabelle.
Die Codex-Verstärkung ermittelt die codebasierte Definition von Tabellen, damit das Intelligenzsystem den tatsächlichen Inhalt der Daten besser verstehen kann. Diese Ebene liefert wichtige Informationen wie die Eindeutigkeit von Werten, die Aktualisierungsfrequenz der Tabellendaten und den Datenbereich. Durch diese Ebene kann das Intelligenzsystem die Unterschiede in der Konstruktion und Aktualisierung verschiedener Tabellen verstehen.
Die nächste Ebene, das Organisationswissen, ermöglicht es dem Intelligenzsystem, auf Slack, Google Docs und Notion zuzugreifen, um wichtige Unternehmenshintergrundinformationen wie Produktveröffentlichungen, Zuverlässigkeitsereignisse, interne Codes und Tools sowie die definierten Definitionen und Berechnungslogiken von Schlüsselmetriken zu erhalten.
Mit den Hintergrundinformationen, die aus externen Texten gewonnen werden, macht das Intelligenzsystem keine allzu offensichtlichen Fehler.
Wenn ein Benutzer beispielsweise fragt, warum die Nutzung des Connectors im Dezember stark zurückgegangen ist, berichtet das Intelligenzsystem nicht einfach von einem Rückgang der Zahlen. Stattdessen erkennt es mithilfe des Organisationswissens, dass es sich hauptsächlich um ein Mess- oder Protokollierungsproblem handelt, nicht um einen echten Einbruch der Nutzung. Dies hängt mit den Änderungen bei der Datenerfassung infolge der Veröffentlichung von ChatGPT 5.1 zusammen.
Die wichtigste fünfte Ebene, das Lernen und die Evolution, gibt dem Intelligenzsystem ein bleibendes Gedächtnis. Wenn es von Benutzern korrigiert wird oder Feinheiten in den Datenproblemen entdeckt, kann es diese Erfahrungen für die nächste Verwendung speichern. Das Gedächtnis kann auch manuell von Benutzern erstellt und bearbeitet werden. Es kann global oder nur für einen bestimmten Benutzer gelten.
Die oberste Ebene, der Laufzeitkontext, ermöglicht es dem Intelligenzsystem, wenn kein vorhandener Kontext oder die vorhandenen Informationen veraltet sind, direkt in das Datenlager zu fragen, um Tabellen zu überprüfen und abzufragen. Es kann auch mit anderen Datenplattformsystemen (Metadaten-Service, Airflow, Spark) kommunizieren, um einen breiteren Datenkontext zu erhalten.
Dynamischer Wechsel zwischen Offline-Suche und Online-Abfrage
Wie arbeiten die sechs Ebenen des Systems zusammen?
Es kann in zwei Schritte unterteilt werden: Offline und Online.
Jeden Morgen um Mitternacht scannt das Intelligenzsystem systematisch die tatsächlichen Nutzungen und Aufrufpfade von Tausenden von Tabellen aus dem Vortag. Es sammelt die Anmerkungen und Erkenntnisse von Datenexperten und nutzt Codex, um die Logik hinter dem Code zu verstehen, um die geschäftliche Semantik hinter den Tabellen zu erweitern. Alle diese verstreuten „Wissensfragmente“ werden zu einem einheitlichen, standardisierten „Wissensgraphen“ zusammengeführt.
Dann werden sie mithilfe von OpenAIs Einbettungsmodell in Vektoreinbettungen umgewandelt und in einer Hochgeschwindigkeits-Suchbibliothek gespeichert. Somit ist ein sofort einsatzbereites „Datengedächtnis“ für das KI-Intelligenzsystem fertiggestellt.
Wenn eine Benutzerfrage eingeht, muss das Intelligenzsystem nicht wie ein menschlicher Analyst in die Metadatenmeer eintauchen und stundenlang manuell suchen. Stattdessen nutzt es Such-verstärkte Generierungstechniken, um diejenigen Tabellen präzise zu identifizieren und zu extrahieren, die am relevantesten für die aktuelle Frage sind. Dieser Prozess ist schnell, skalierbar und mit minimaler Latenz.
Für Anfragen, die auf die neuesten Daten angewiesen sind, startet das Intelligenzsystem gleichzeitig einen Echtzeitabfragekanal und sendet direkt eine Abfrageanfrage an das Datenlager. So wird sowohl die Aktualität des Laufzeitkontexts gewährleistet als auch eine tiefe Integration mit dem Offline-Wissen erreicht. Somit wird eine komplexe geschäftliche Frage durch die „Blitzsuche“ im Offline-Gedächtnis und die „präzise Navigation“ in Echtzeitdaten zu einer klaren Erkenntnis, die in Sekunden erhalten werden kann.
Paradigmenwechsel von statischem Tool zu dynamischem Teammitglied
Das erstaunlichste an diesem Intelligenzsystem ist nicht seine technische Komplexität, sondern wie es in den täglichen Arbeitsablauf integriert wird und ein echtes „Teammitglied“ wird. Im Gegensatz zu herkömmlichen „Frage-Antwort“-Tools ist das von OpenAI intern verwendete Datenanalyse-Intelligenzsystem als „Teammitglied, mit dem man argumentieren kann“ konzipiert. Es ist dialogfähig, immer online und kann sowohl schnelle Antworten als auch iterative Erkundungen verarbeiten.
Stellen Sie sich vor, ein Produktmanager stellt eine unklare oder unvollständige Frage. Das Intelligenzsystem klärt die Frage aktiv auf. Wenn es keine Antwort erhält, wendet es vernünftige Standardwerte an, um die Arbeit fortzusetzen. Wenn ein Benutzer beispielsweise nach Unternehmenswachstum fragt, ohne einen Datumsbereich anzugeben, kann es die letzten sieben oder 30 Tage annehmen. So kann das Intelligenzsystem weiter antworten und gleichzeitig mit dem Benutzer zusammenarbeiten, um genauere Ergebnisse zu erhalten.
Um zu verhindern, dass das sich ständig weiterentwickelnde Intelligenzsystem in die falsche Richtung lernt, hat das OpenAI-Team mit der Evals API einen strengen Aufseher für das Intelligenzsystem eingesetzt.
Für jede wichtige Frage in der Evals API gibt es eine manuell geschriebene SQL-Anweisung, die als „Goldstandard“ dient. Die Leistung des Intelligenzsystems wird kontinuierlich überwacht und bewertet.
Diese Bewertungen überprüfen nicht nur die Korrektheit der SQL-Syntax, sondern vergleichen auch die Genauigkeit der Ergebnisdaten. Wenn das Intelligenzsystem „schlecht lernt“, gibt das System sofort eine Warnung, um sicherzustellen, dass Probleme erkannt und behoben werden, bevor sie die Benutzer betreffen.
Was die Datensicherheit betrifft, regelt das Intelligenzsystem, dass Benutzer nur auf die Tabellen zugreifen können, auf die sie bereits Zugang haben. Wenn Zugangsberechtigungen fehlen, markiert es dies oder greift auf alternative Datensätze zurück, auf die der Benutzer Zugang hat.
Um den Datenanalyseprozess transparent zu gestalten, fasst das Intelligenzsystem neben jeder Antwort die Annahmen und Ausführungssschritte zusammen, um seinen Argumentationsprozess zu offenbaren. Wenn eine Abfrage ausgeführt wird, verlinkt es direkt auf die zugrunde liegenden Ergebnisse, sodass Benutzer die Rohdaten überprüfen und jeden Schritt der Analyse validieren können.
Wie man ein Datenanalyse-Intelligenzsystem aufbaut
Das oben beschriebene Datenanalyse-Intelligenzsystem von OpenAI ist nicht Open Source. Wenn man jedoch ein ähnliches System selbst bauen möchte, haben die OpenAI-Ingenieure auch über die Hürden berichtet, mit denen sie konfrontiert waren.