Die Geheimnisse der Semantischen Ebene bei großen Technologieunternehmen: Metrikenverwaltung bei Uber, Netflix und Airbnb und die Anwendung in Ihrem Unternehmen

Die Geheimnisse der Semantischen Ebene großer Tech-Unternehmen: Wie Uber, Netflix und Airbnb Metriken verwalten und wie Sie diese Methoden in Ihrem eigenen Unternehmen anwenden können

In den letzten Jahren hat jeder im Datensektor über die semantische Ebene gesprochen.

Business-Intelligence-Anbieter vermarkten sie als praktisches Indikator-Modell. In modernen Datenarchitekturen wird sie als Indikator-Ebene bezeichnet. Künstliche-Intelligenz-Teams behaupten, ohne sie könnten keine Analyse-Agenten aufgebaut werden. Wer jedoch die Architekturen der großen Technologieunternehmen (Uber, Netflix, Airbnb, LinkedIn, Spotify) genauer betrachtet, wird feststellen, dass ihre Bedeutung von der üblichen Bedeutung des Begriffs „semantische Ebene“ abweicht.

Für sie ist es nicht einfach eine Ebene von Indikatoren innerhalb eines BI-Tools. Es ist eine unabhängige Infrastruktur innerhalb der Datenplattform. Eine Plattform, die die Definition, Berechnung, Datenqualität, Zugangskontrolle von Geschäftskennzahlen sowie deren Verwendung in BI-, Machine-Learning-, Produkt- und sogar KI-Systemen verwaltet.

Besonders interessant ist, dass viele Unternehmen Teile ihrer Architekturen in Blogs, Forschungsarbeiten und Architekturpräsentationen preisgegeben haben. Wenn man diese verstreuten Informationen zusammenfügt, ergibt sich ein ziemlich überraschendes Bild. In diesem Artikel wird versucht, dies zu tun.

Wir werden die öffentlich verfügbaren Beweise aus den Datenprojekten großer Technologieunternehmen sammeln und die reale Architektur der semantischen Ebene rekonstruieren. Wir werden untersuchen, wie die Indikatorplattformen von Uber und LinkedIn funktionieren, warum Netflix das Metrics Repo aufgebaut hat, wie Airbnb Minerva entworfen hat, warum Spotify eine API vor seinem Data Warehouse platziert hat und welche Rolle die semantische Ebene in KI-Systemen beginnt zu spielen.

Das Endergebnis wird einer Karte ähneln: wie die semantische Ebene in großen Technologieunternehmen tatsächlich funktioniert und welche Prinzipien auf typischere Organisationen angewendet werden können. Vielleicht wird das interessanteste Ergebnis überraschend sein: In großen Technologieunternehmen ist die semantische Ebene überhaupt keine BI-Funktion, sondern eine der Schlüsselarchitekturebenen moderner Datenplattformen.

1. Die Architektur der semantischen Ebene in großen Unternehmen

1.1 Uber

Architektur der Indikatorplattform

Uber hat eine zentrale Plattform namens uMetric aufgebaut, um den gesamten Lebenszyklus von Indikatoren zu verwalten: Definition, Entdeckung, Berechnung, Qualitätsüberprüfung und Nutzung.

Tatsächlich ist es sowohl eine semantische Ebene als auch eine Indikatorplattform.

Uber beschreibt seine interne uMetric-Plattform öffentlich als eine einheitliche Indikatorplattform, die den gesamten Lebenszyklus von Indikatoren abdeckt: Definition, Entdeckung, Planung, Berechnung, Qualität und Nutzung.

Darüber hinaus hat Uber klar gemacht, dass die Plattform die Indikatoren auf Machine-Learning-Features erweitert, was bedeutet, dass es nicht mehr nur ein Analysewörterbuch ist, sondern eine Brücke zwischen Analyse und Machine Learning darstellt.

Im Jahr 2025 stellte Uber auch seinen dialogfähigen Daten-Agenten Finch vor. Er basiert auf einem sorgfältig zusammengestellten Ein-Tabellen-Data Mart und einer auf Metadaten aufgebauten semantischen Ebene. Finch nutzt die in OpenSearch gespeicherten Metadaten, Spalten-Aliase und Werte, um dem LLM zu ermöglichen, genauere WHERE-Bedingungen zu generieren und Fehler deutlich zu reduzieren.

Einsichten

Bei Uber ist die semantische Ebene tatsächlich zur Steuerungsebene für Maschinen geworden, nicht nur zur Steuerungsebene für Analysten.

Der wertvollste Beweis hierfür ist, dass ihre KI-Agenten nicht auf die Idee vertrauen, dass das LLM das Schema selbst ableiten würde. Stattdessen verlassen sie sich auf sorgfältig verwaltete Data Marts, Metadaten-Aliase und kontrollierten Zugang.

Mit anderen Worten: Unternehmens-KI, die wirklich auf Daten aufbaut, verlässt sich nicht auf die Generierung von rohen SQL-Anweisungen, sondern auf vorgebaute semantische Kontexte.

System-Kernidee

Die Hauptidee des Systems ist es, die Unterschiede zwischen den von verschiedenen Teams berechneten Indikatoren zu eliminieren.

Vereinfachte Architektur

[Ereignisstrom] → [Datenpipeline] → [Indikator-Definition] → [Indikator-Berechnungs-Engine] → [Qualitätsüberprüfung] → [Indikator-API] → [Dashboard/Machine Learning/Anwendung]

Schlüssel-Einsichten

Uber hat klar gemacht, dass sein Indikatorsystem nicht nur für die Analyse verwendet wird, sondern auch als Machine-Learning-Feature-Plattform.

Das bedeutet tatsächlich: Semantische Ebene = Feature-Ebene für Machine Learning

1.2 Netflix

Indikator-Repository – Indikatoren als Code

Netflix hat ein System namens Metrics Repo aufgebaut, das ein Rahmenwerk für die zentrale Definition von Indikatoren ist.

Netflix erklärt bei der Beschreibung seiner Experimentplattform, dass das Metrics Repo ein internes Python-Rahmenwerk ist, in dem Benutzer programmgesteuert generierte SQL-Abfragen und Indikator-Definitionen definieren können. Das System verwaltet diese Definitionen dann zentral.

In einer kürzlich veröffentlichten Übersicht über sein Analyseprojekt betont Netflix, dass die Erstellung und Nutzung interner Indikatoren „normalerweise viel komplizierter ist, als es sein sollte“. Mit anderen Worten: Selbst in einem etablierten Unternehmen wie Netflix ist das Problem der inkonsistenten Indikator-Definitionen nicht vollständig beseitigt.

Darüber hinaus gibt es ein weiteres wichtiges Signal. In einem anderen Artikel über die Cloud-Effizienz beschreibt Netflix eine Analyse-Datenebene, die Zeitreihen-Effizienzanalysen für Finanzprojekte bereitstellt.

Einsichten

Netflix hat einige weniger bekannte Geheimnisse preisgegeben:

In großen Unternehmen ist die semantische Ebene normalerweise kein einzelnes, universelles System. Stattdessen besteht sie aus branchenspezifischen Indikator-Repositories und Analyseebenen für bestimmte Anwendungsfälle – wie Experimente, Effizienzanalysen, kreative Analysen usw.

Mit anderen Worten: Die reale Architektur kommt eher einer federalen semantischen Governance näher als der Idee, dass „eine semantische Ebene alles regiert“.

Dies ist keine direkte Zitierung – sondern eine Schlussfolgerung aus Netflix' Beschreibungen seiner verschiedenen Indikator-Rahmenwerke und branchenspezifischen Analyseebenen.

Kernidee

Indikatoren werden programmatisch definiert, nicht innerhalb eines BI-Tools.

Daher wird die Indikator-Berechnung aus den ETL-Pipelines heraus und näher an die Analysten verlagert.

Vereinfachte Architektur

[Rohdaten] → [Data Warehouse] → [Indikator-Repository (Code-Definition)] → [Experimentplattform] → [Statistik-Engine] → [Dashboard/Entscheidungssystem]

Schlüssel-Einsichten

Das Indikator-Repository wird nicht nur für Business Intelligence verwendet, sondern vor allem für:

A/B-Tests, Produkt-Experimente, kausale Inferenz

Eine Forschungsarbeit von Netflix über seine Experimentplattform bestätigt dies. Mit anderen Worten: Die semantische Ebene von Netflix ist Teil einer wissenschaftlichen Experimentplattform.

1.3 LinkedIn

Einheitliche Indikatorplattform

LinkedIn hat die Einheitliche Indikatorplattform (UMP) aufgebaut. Das Hauptproblem, das diese Plattform lösen soll, ist, dass verschiedene Teams die gleichen Indikatoren auf unterschiedliche Weise berechnen.

Um dieses Problem zu lösen, hat LinkedIn eine Zentralisierung vorgenommen: Indikator-Definition, -Berechnung und -Service.

Vereinfachte Architektur

[Rohereignisse] → [Kafka] → [Batch-Verarbeitung + Stream-Verarbeitung] → [Indikator-Berechnung] → [Indikator-Speicherung] → [Indikator-API] → [Dashboard/Service]

Schlüssel-Einsichten

LinkedIn hat die semantische Ebene in einen echten Service umgewandelt, nicht in ein SQL-Modell, sondern in eine Indikator-API.

1.4 Spotify

Semantische Ebene innerhalb der Experimentplattform

Spotify hat seine eigene Experimentplattform aufgebaut. Seine Architektur sieht grob wie folgt aus:

[Produkt-Ereignisse] → [Data Lake] → [Indikator-Definition] → [Experiment-Engine] → [Statistische Analyse] → [Entscheidungs-Dashboard]

Kernprinzip

Indikatoren müssen wiederholbar sein. Mit anderen Worten: Jeder Experiment muss auf derselben Indikator-Definition basieren.

1.5 Airbnb

Minerva – Die semantische Ebene für das gesamte Unternehmen

Airbnb hat ein System namens Minerva entwickelt.

Airbnb hat klar gemacht, dass Minerva in seiner neuen Data Warehouse-Architektur eine zentrale Rolle spielt. Es ist für die Aufnahme von Fakten- und Dimensions-Tabellen, die Denormalisierung der Daten und die Bereitstellung über eine API für downstream-Anwendungen verantwortlich.

Sie haben auch die Größe des Systems aufgedeckt: Über 12.000 Indikatoren, über 4.000 Dimensionen und über 200 Datenproduzenten aus verschiedenen Unternehmensfunktionen.

Die Indikator- und Dimensions-Definitionen werden in einem zentralen GitHub-Repository gespeichert und durchlaufen Code-Reviews, statische Validierungen und Testläufe.

Das System unterstützt:

Definition von Qualitätschecks, Backfills, Versionskontrolle

Kosten-Zuordnung, GDPR-selektives Löschen, Zugangskontrolle

Automatische Deprecation-Strategien, Nutzungsbasierte Aufbewahrung

Airbnb hat seine Ziele sehr klar zusammengefasst: „Einmal definieren, überall nutzen“.

Einsichten

Das eigentliche „Geheimnis“ liegt nicht in der Formel. Die semantische Ebene von Airbnb ist weder eine Benutzeroberflächen-Funktion noch eine Business-Intelligence-Funktion – es ist eine Ingenieursdisziplin.

Indikatoren werden als Code behandelt. Metadaten sind obligatorisch. Es gibt Review-Prozesse. Zwischenergebnisse können wiederverwendet werden. Deprecation und Lebenszyklus-Management sind formell geregelt.

Mit anderen Worten: Minerva löst nicht nur das Problem, „wie man KPIs berechnet“, sondern auch das Problem, „wie man verhindert, dass die geschäftliche Bedeutung in Hunderten von Teams verloren geht“.

Airbnb hat klar erklärt, dass es nicht ausreicht, nur die Tabellen zu standardisieren. Die Standardisierung muss auf Indikator-Ebene erfolgen, da die Benutzer Indikatoren, Dimensionen und Berichte nutzen, nicht die Tabellen.

Minerva verwaltet: Indikatoren, Dimensionen und KPI-Berechnungen.

Kernidee

Einmal definieren, überall nutzen

Vereinfachte Architektur

[Data Warehouse] → [Semantische Ebene (Minerva)] → [Indikator-Berechnung] → [Indikator-API] → [Analysetools]

Airbnb hat auch darauf hingewiesen, dass es seine Datenqualitätsbewertung auf Minerva-Indikatoren und -Dimensionen erweitert hat.

Dies ist ein sehr wichtiges Signal: Ein Indikator wird nur als vollständiges Objekt angesehen, wenn er ein Vertrauenssignal hat.

Einsichten

Eine echte Unternehmens-semantische Ebene besteht fast immer aus drei Komponenten:

Definition der Bedeutung

Berechnungsmechanismus

Vertrauens-/Qualitätssignal

Ohne die dritte Komponente ist es nur ein Formel-Wörterbuch, keine Unternehmens-semantische Ebene. Airbnb's Minerva + Datenqualitätsbewertung und die unabhängige Qualitäts-Säule in Uber's uMetric-Plattform unterstützen diese Schlussfolgerung eindeutig.

1.6 Pinterest

In einem kürzlichen Artikel über Text-zu-SQL hat Pinterest erklärt, dass sie den Kontext vor der Analyse von Abfragen auf folgende Weise erweitern:

Tabellen- und Spalten-Beschreibungen

Standardis

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。