7 Prognosen für Daten und Künstliche Intelligenz im Jahr 2026

Die Infrastruktur, die die Künstliche Intelligenz unterstützt, wird grundlegend neu aufgebaut. Hier erfahren Sie, was sich ändern wird und was nicht.

Jedes Jahr hören wir Vorhersagen über den Niedergang von SQL, den Aufstieg der Lakehouse - Architektur oder eine neue Paradigma, die alles auf den Kopf stellen soll. Die meisten dieser Vorhersagen bleiben jedoch unerfüllt.

2026 wird sich jedoch anders anfühlen. Dies liegt nicht an der Hype, sondern an der Fusion. Die über Jahre hinweg angesammelten Kräfte haben endlich ihren Wendepunkt erreicht: Die offenen Tabellenformate sind reif, die KI - Funktionen können in die Produktion gehen, und die Kosten für einen Datenschachtel mit 50 Tools sind kaum noch tragbar.

Hier sind die Trends, die ich anhand von Gesprächen mit Hunderten von Datenführern, unserer Arbeitsweise bei Sifflet und den großen Veränderungen in der gesamten Branche sehe.

Vorhersage 0: Die Grundlagen bleiben wichtig

Bevor wir in die spannenden Dinge einsteigen, lassen Sie uns zunächst auf dem Boden der Tatsachen bleiben.

Architekturänderungen können immer noch Pipelines zerstören. NULL - Werte können immer noch Berichte beschädigen. Auch am Wochenende, wenn niemand überwacht, können immer noch Verkehrsausreißer auftreten.

Laut Schätzungen von Gartner verursacht eine schlechte Datenqualität Unternehmen im Durchschnitt jährlich 12,9 Millionen US - Dollar an Verlusten. Viele Studien haben gezeigt, dass Datenteams bis zu 40 % ihrer Zeit mit Problemen der Datenqualität verbringen, die eigentlich für strategische Aufgaben genutzt werden könnte.

Es besteht eine enorme Kluft zwischen dem, was "möglich ist", und dem, was "tatsächlich eingesetzt wird". Die meisten Teams kämpfen immer noch mit grundlegenden Kapazitäts - und Frischeprüfungen.

Im Jahr 2026 wird es nicht darum gehen, ob diese Probleme existieren - sie werden sicherlich vorhanden sein. Der Knackpunkt wird sein, ob Sie diese Probleme in wenigen Minuten oder in einigen Tagen entdecken können und ob Sie sie manuell oder automatisch beheben können.

Dies ist die gemeinsame Hauptlinie, die sich durch alles Folgende zieht.

Vorhersage 1: Offene Datenobservabilität gewinnt, aber die Metadaten werden zum Schlachtfeld

Der Kampf um die Speicherschicht ist vorbei. Iceberg, Delta Lake und Hudi haben gewonnen. Parquet ist zur universellen Sprache geworden. Die Frage "Wo werden meine Daten gespeichert?" hat nun eine klare Antwort.

Aber jetzt ist es so: Der Krieg verschiebt sich stromaufwärts. Wer die Metadatenschicht beherrscht, beherrscht auch die Informationsschicht.

Die Metadatenschicht wird das Schlachtfeld des nächsten Kampfes sein.

Schauen Sie sich an, was passiert:

Snowflake hat Polaris als offenes Verzeichnis für Iceberg eingeführt. Databricks setzt auf Unity Catalog als allgemeine Governance - Schicht. Apache Gravitino (in Entwicklung) positioniert sich als Anbieter - neutrales Alternativlösung.

Warum ist das wichtig? Weil das Verzeichnis nicht mehr nur eine technische Komponente ist, sondern zur Betriebssystem der Daten wird. Datenhintergrund, Qualitätsregeln, Zugriffsrichtlinien, geschäftlicher Kontext usw. befinden sich alle in der Metadatenschicht.

Wenn Ihre Observabilitäts - Tools die Metadaten von Iceberg - Tabellenänderungen, Zeitreise und Partitionen nicht nativ verstehen können, sind sie schon veraltet.

Das bedeutet: Die Datenobservabilität, die auf offenen Formaten aufbaut, wird den Tools überlegen sein, die Iceberg erst später berücksichtigen. Die native Integration ist keine Option, sondern eine Grundvoraussetzung.

Vorhersage 2: Der Datenschachtel mit 50 Tools wird zu 5 Plattformen vereinfacht

Wir haben den Höhepunkt der Tool - Müdigkeit erreicht.

Im Durchschnitt verwaltet ein Unternehmensdatenteam 15 bis 30 verschiedene Tools. Diese Tools decken alle Aspekte wie Datenerfassung, Transformation, Orchestrierung, Qualitätskontrolle, Katalogisierung, Governance und Visualisierung ab. Jedes Tool hat seinen eigenen Anbieter, seine eigene Benutzeroberfläche und seine eigene Denkweise.

Die Integration des Datenschachtels beschleunigt sich.

Die Integrationskosten bremsen die Produktivität. Eine Studie von Fivetran zeigt, dass Dateningenieure 40 % ihrer Zeit mit Integrationsarbeiten verbringen, statt Wert zu schaffen. Diese Situation ist nicht nachhaltig.

2026 wird der Integrationsprozess beschleunigt:

Snowflake hat mehr Funktionen integriert - Notebooks, Streaming und Machine - Learning - Services. Databricks konzentriert sich auf Governance und Business Intelligence. dbt Labs hat sich von einem Tool zu einer Plattform entwickelt, mit einer semantischen Schicht und dbt Cloud. Diejenigen Lösungen, die zuvor unabhängig waren, werden entweder übernommen oder haben Schwierigkeiten, ihre Marktposition zu halten.

Wenn Sie 2026 noch eine einzelne Lösung entwickeln, entwickeln Sie eher ein Übernahmeobjekt als ein Unternehmen.

Die endgültigen Sieger werden die Plattformen sein, die es ermöglichen, den gesamten Prozess von der Datenerfassung über die Transformation bis zur Bereitstellung und zur Observabilität über ein einziges Metadaten - Diagramm abzubilden. Dies liegt nicht daran, dass gebündelte Lösungen besser sind, sondern daran, dass die Integration zu schmerzhaft ist.

Vorhersage 3: Die Datenqualität wird zu einer geschäftlichen Funktion, nicht mehr zu einer technischen Aufgabe

Ich stelle jedem Datenleiter die Frage: "Was für Auswirkungen hat es auf das Einkommen, wenn Ihre Datenpipeline ausfällt?"

Die meisten können nicht antworten. Sie können mir sagen, welche Tabelle NULL - Werte hat, welches Job fehlgeschlagen ist und wie lange die Vereinbarung über die Service - Level - Agreement (SLA) verletzt war. Aber sie können diese Informationen nicht mit einem Fehler auf dem Dashboard des Finanzdirektors oder falschen Empfehlungen eines Machine - Learning - Modells in Verbindung bringen.

Dies wird sich 2026 ändern.

Die Datenqualitätsindikatoren wandeln sich von technischen Indikatoren zu geschäftlichen Ergebnissen. Die Service - Level - Agreement (SLA) wird auch in geschäftlichen Begriffen definiert: Einnahmefehlerrisiko, betroffene Kunden, Entscheidungslatenz.

Gartner prognostiziert, dass bis 2026 80 % der Organisationen Datenqualitätslösungen einsetzen werden, die KI/ML - Funktionen nutzen. Der größere Wandel liegt jedoch in der Organisationsstruktur: Der Chief Data Officer (CDO) ist nicht nur für das Datenengineeringteam verantwortlich, sondern auch für die Zuverlässigkeit im Zusammenhang mit den geschäftlichen Ergebnissen.

Datenverträge; formale Vereinbarungen zwischen Produzenten und Verbrauchern über Datenmuster, Frische und Qualität werden zur Standardpraxis. Dies liegt nicht daran, dass sie modern sind, sondern daran, dass ohne sie keine Rechenschaftspflicht besteht.

Wenn Ihr Qualitätstool die Frage "Was sind die Auswirkungen dieses Fehlers auf das Einkommen?" nicht beantworten kann, löst es keine wirklichen Probleme.

Bei Sifflet ist dies der Kern unserer Überlegungen zur Observabilität. Das Verbinden technischer Anomalien mit dem geschäftlichen Kontext ist nicht nur eine Erweiterung, sondern der Schlüssel.

Vorhersage 4: Künstliche Intelligenz - Agenten werden die Dashboards bei der Datenverarbeitung ersetzen

Dies ist die Vorhersage, bei der ich am sichersten bin.

Seit zwanzig Jahren war die Datenobservabilität gleichbedeutend mit Dashboards. Wenn ein Fehler auftritt, erhalten Sie eine Warnung, öffnen die Benutzeroberfläche und untersuchen manuell. Es kann eine Stunde dauern, um die Ursache zu finden, oder auch eine ganze Nacht.

Dieses Modell funktioniert nicht mehr.

Der Übergang von passiven Dashboards zu autonomen Agenten.

2026 werden die KI - Agenten die operative Last übernehmen:

Erkennung, die den geschäftlichen Kontext versteht und nicht nur auf technische Indikatoren abzielt; Untersuchung, die automatisch die Ursache ermitteln und Signale aus verschiedenen Systemen in Beziehung setzen kann; Lösungsmechanismus, der Lösungen anwendet, die Ergebnisse überprüft und von jedem Ereignis lernt.

Das Operationszimmer um zwei Uhr morgens wird zu einer Slack - Benachrichtigung: "Ein Problem wurde im Einnahmekanal erkannt. Ursache: Änderung der stromaufwärts liegenden Architektur bei der CRM - Synchronisierung. Lösung angewendet. Überprüfung bestanden."

Die Erkennungsfunktion ist schon kommerzialisiert. Jedes Tool kann Ihnen sagen, wo etwas schief gelaufen ist. Die Fähigkeit, zu schließen und zu handeln, ist der neue Wettbewerbsvorteil.

Es geht nicht darum, einen Chatbot zu bestehenden Tools hinzuzufügen, sondern darum, grundlegend neu zu überlegen, was Observabilität bedeutet, wenn die KI die Untersuchungsarbeit übernehmen kann.

Vorhersage 5: Die Künstliche Intelligenz verändert das Landschaft der Dateninfrastruktur

Für einige in der Branche ist dies eine unbehagliche Tatsache: Der Datenschachtel wurde ursprünglich für Dashboards und nicht für die Künstliche Intelligenz entwickelt.

Heute ist die Künstliche Intelligenz jedoch der wichtigste Datenverbraucher vieler Organisationen. Feature - Speicher, Einbettungspipelines, RAG - Architekturen, Datensatz - Feinabstimmung haben andere Anforderungen als die Business - Intelligence - Workloads, für die wir zuvor optimiert haben.

Die Künstliche Intelligenzmodelle tolerieren fehlerhafte Daten viel weniger als Menschen, wenn sie Datenpanels interpretieren. Menschen können Ausreißer erkennen und ignorieren, aber die Modelle nutzen diese Ausreißer für das Training.

Bis 2026 erwarten wir zwei Arten von Unternehmen:

AI - native Architektur: Eine von Grund auf neu aufgebaute Infrastruktur, die speziell für AI - Workloads konzipiert ist. Die Qualitätsüberprüfung erfolgt beim Schreiben, nicht beim Lesen. Die Metadaten enthalten reichhaltige semantische Informationen. Die Datenherkunft verfolgt nicht nur Tabellen, sondern auch Features und Einbettungen.

AI - Zusatzlösung: Ein traditioneller Datenschachtel, dem AI - Funktionen nachträglich hinzugefügt werden. Chatbots auf Dashboards. Assistenzsysteme, die SQL - Anweisungen generieren können, aber den geschäftlichen Kontext nicht verstehen.

Bis 2026 werden alle Datentools eine KI - Schicht haben. Die meisten Tools werden jedoch nur Wrapper - Schichten sein, keine nativen Schichten. Der Unterschied ist entscheidend.

Die endgültigen Sieger werden die Unternehmen sein, die ihre Produkte von Grund auf neu entwickeln, um der Künstlichen Intelligenz gerecht zu werden, und nicht diejenigen, die KI - Funktionen nachträglich hinzufügen.

Vorhersage 6: Die semantische Schicht hat endlich ihren Moment

Jahrelang wurde die semantische Schicht als eine zusätzliche Funktion angesehen. Einige technisch versierte Teams haben sie implementiert, aber die meisten haben sie ignoriert.

Die Künstliche Intelligenz hat die Art der Berechnung verändert.

Das Problem ist: Wenn Sie von einem Large - Language - Modell (LLM) eine Abfrage nach "Einkommen nach Region" verlangen, muss es wissen, was "Einkommen" in Ihrer Organisation genau bedeutet. Ist es der Bruttobetrag oder der Nettobetrag? Enthält es Rückerstattungen? Welche Tabellen enthalten die normative Definition?

Ohne die semantische Schicht ist die Umwandlung von Text in SQL nur ein Vermutung.

Lösungen wie die semantische Schicht von dbt, Cube und AtScale haben das Problem gelöst, dass "verschiedene Dashboards verschiedene Daten anzeigen", das Analyseteams seit Jahrzehnten geplagt hat. Für KI - Anwendungen sind diese Lösungen jedoch keine Option mehr, sondern eine Notwendigkeit.

Die semantische Schicht ist der Ort, an dem die geschäftliche Logik in Form von Code existiert, nicht als Erfahrungswissen. KI - Agenten brauchen diesen Kontext, um zu funktionieren. Auch die Datenqualitätstools brauchen ihn, um zu überprüfen, was wirklich wichtig ist, und nicht nur, was existiert.

Die semantische Schicht wird die Brücke zwischen technischen Daten und geschäftlicher Bedeutung. Ohne sie kann die Künstliche Intelligenz diese Brücke nicht überqueren.

Gemeinsamkeiten

Wenn es einen gemeinsamen Thema in diesen sieben Vorhersagen gibt, dann ist es folgendes:

Die Dateninfrastruktur geht vom passiven zum aktiven Zustand über.

Passiv: Speichern, Transformieren, Visualisieren und auf die Entdeckung von Problemen durch Menschen warten.

Aktiv: Verstehen, Schließen, Handeln und von jeder Interaktion lernen.

Die endgültigen Sieger werden die Plattformen sein, die die Intelligenztechnologie in jede Schicht ihrer Architektur integrieren, und nicht diejenigen, die die Intelligenz erst später hinzufügen. Das bedeutet:

• Metadaten, die den geschäftlichen Kontext verstehen, nicht nur das technische Muster

• Die Datenqualität muss mit den Auswirkungen auf das Einkommen in Verbindung gebracht werden, nicht nur mit der Anzahl der Zeilen

• Die Observabilität muss in der Lage sein, Probleme zu untersuchen und zu lösen, nicht nur Warnungen auszugeben

• Die Infrastruktur muss für AI - Workloads gebaut werden, nicht umgebaut werden

Die Grundlagen bleiben wichtig. Architekturänderungen können immer noch Probleme verursachen. Aber wie Sie diese Probleme erkennen, untersuchen und lösen, ist der Schlüssel zum Erfolg.

Dieser Artikel stammt aus dem WeChat - Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。