StartseiteArtikel

Die von niemandem besprochene KI-Stack: Datenerfassung als Infrastruktur

王建峰2025-08-07 15:21
Der von niemandem diskutierte KI-Stack: Datenerhebung als Infrastruktur

Die Künstliche-Intelligenz-Community ist es leid, sich immer größeren Modellen, Milliarden-Token-Kontextfenstern und GPU-Finetuning-Runs zu widmen. Die am stärksten vernachlässigte Kraftmultiplikatorin im KI-Stack liegt stillschweigend eine Ebene darunter: Die Daten.

Machen wir es uns klar: Obwohl die Skalierung von Modellen immer noch wichtig ist, hängt die Leistungssteigerung für die meisten realen KI-Produkte zunehmend von der Qualität und Frische der Daten ab, nicht nur von der Anzahl der Parameter. Die Verdopplung der Modellgröße, um marginalen Gewinn zu erzielen, ist nicht nur kostspielig, sondern auch ökologisch nicht nachhaltig, da die erheblichen Strom- und Wasserkosten nicht skalierbar sind.

Der Engpass ist aus dem Stack verschwunden.

Gründer und Chief Technology Officers, die KI-native Produkte entwickeln, beginnen zu verstehen, dass ihre Agenten keine aufkommenden Marktzeichen verpassen und keine leeren Einsichten liefern, weil das "Modell" an sich "nicht intelligent genug" ist – es scheitert, weil es blind veraltete, irrelevante oder unvollständige Kontexte verarbeitet. Aus diesem Grund hat Salesforce im Mai 2025 Informatica für 8 Milliarden US-Dollar erworben, um seine KI-gesteuerte Agentforce-Plattform zu stärken. Jetzt können sie auf hochwertige Echtzeitdaten zugreifen und so genauere und skalierbarere Ergebnisse erzielen.

Der Erfolg oder Misserfolg der Leistung hängt davon ab, was Sie abrufen können, nicht nur davon, wie Sie den Prompt gestalten. Wenn Sie nicht über einen H100-Cluster verfügen oder ein auf dem neuesten Stand befindliches Modell mit unbegrenztem API-Budget betreiben, ist Ihre beste Chance, die Giganten zu übertreffen, es, Ihrem Modell im Rahmen Ihres Budgets intelligenteren Daten bereitzustellen: branchenspezifischen, strukturierten, duplikatfreien und frischen Daten.

Aber bevor ein Kontext erstellt werden kann, muss er erstmal existieren. Das bedeutet, dass es zuverlässigen, Echtzeit-Zugang zum offenen Netzwerk geben muss – nicht nur einmalige Datensammlungen oder Datensätze, sondern eine leistungsstarke Pipeline, die die aktuelle Situation widerspiegelt.

Meine Damen und Herren, das ist die Infrastruktur. Wenn die Rechenleistung NVIDIA unverzichtbar gemacht hat, dann denke ich, dass der nächste große Durchbruch nicht in mehr Schichten liegt, sondern in mehr Signalen und weniger Rauschen. Und das beginnt damit, die Datenerfassung als Produktionsinfrastruktur zu betrachten.

Wie sehen "gute Daten" aus?

Wenn Sie ein KI-natives Produkt entwickeln, hängt die Intelligenz des Systems nicht mehr davon ab, wie geschickt Sie Ihren Prompt gestalten oder wie viele Token Sie in das Kontextfenster packen können. Sondern davon, wie gut Sie es mit aktuell wichtigen Kontexten versorgen können.

Aber die Definition von "guten Daten" ist ziemlich vage. Lassen Sie uns das klären. Was es für die Künstliche Intelligenz bedeutet, ist folgendes:

Branchenspezifisch: Die KI-gestützte Optimierung des Einzelhandelspreises erfordert Wettbewerberdaten, Kundenbewertungen oder regionale Trends, nicht irrelevantes Rauschen. Sie müssen präzise sein.

Ständig aktualisiert: Das Netzwerk ändert sich ständig. Ein Stimmungsmodell, das den heutigen Trend auf X verpasst, oder ein Lieferkettenmodell, das die Preise der vergangenen Woche verwendet, ist schon veraltet.

Strukturiert und duplikatfrei: Wiederholungen, Inkonsistenzen und Rauschen verschwenden Rechenleistung und verdünnen das Signal. Struktur ist wichtiger als Größe. Sauberkeit ist besser als Größe.

Echtzeit-handlungsfähig: Veraltete Daten sind tote Daten. Echtzeitdaten – Preisänderungen, Nachrichten, Lagerbestandsänderungen – können die Sofortentscheidung unterstützen. Aber nur, wenn die Datenerfassung ethisch, zuverlässig und skalierbar ist.

Das ist der Grund, warum Salesforce Informatica erworben hat – nicht für ein neues Modell, sondern um Agentforce mit strukturierten Echtzeitdaten zu versorgen und so die Entscheidungen in der unteren Ebene zu verbessern.

Aus diesem Grund hat IBM im Juli 2024 StreamSets für 2,3 Milliarden US-Dollar erworben, um Watsonx zu entwickeln. StreamSets konzentriert sich auf die Extraktion von Daten aus gemischten Datenquellen, die Überwachung des Datenflusses und die Verarbeitung von Schemaänderungen – dadurch kann IBM Watsonx über Unternehmenssysteme hinweg mit den neuesten und konsistenten Signalen versorgen. Für KI, die auf der Grundlage des aktuellen Zustands (nicht nur auf der Grundlage historischer Muster) schließen muss, kann diese Infrastruktur eine 10-fache Effizienzsteigerung bringen.

Das ist auch der Grund, warum Dataweps sich auf Bright Data verlassen hat, um Echtzeit-Wettbewerberpreise und Markttrends für E-Commerce-Kunden wie Philips und Asus zu sammeln. Ihr KI-gesteuertes Preis- und Bietsystem hängt von schnellen und genauen Daten ab, und Bright Datas API-gesteuertes Ökosystem (einschließlich Proxy, Archiv/Datensatz, Browser-Automatisierungstools für KI-Agenten usw.) ermöglicht es ihnen, diese Daten zuverlässig und in großem Maßstab zu sammeln. Bright Data ist nicht nur eine Datenerfassungstool, sondern bietet auch die Elastizität, Kapazität und Compliance, die reale KI-Systeme benötigen. Eher gesagt, es ist ein KI-Infrastruktur-Anbieter.

Der Kernpunkt ist: Die Qualität der Abfrage übertrifft heute die Prompt-Engineering. Selbst der beste Prompt kann nicht das Problem beheben, dass das Modell bei der Inferenz veraltete oder irrelevante Daten extrahiert.

Genau jetzt ist die richtige Zeit. Dies ist der Schlüssel zum Überleben oder Scheitern von KI im Zeitalter nach Deepseek.

Der erste Schritt ist immer am schwierigsten

Auf den ersten Blick klingt Dateninfrastruktur wie eine Pipeline. Datenerfassungspipeline, Transformation, Speicherung? Das klingt furchtbar langweilig. Aber im Zeitalter von RAG und Agent-KI ist diese Pipeline von entscheidender Bedeutung. Warum? Weil Ihr System nicht mehr nur Inferenzen ausführt – es führt sie auf der Grundlage externer, sich ständig ändernder multimodaler Echtzeitinformationen aus. Das ändert alles.

So sehe ich es: Der moderne KI-Datenstack hat sich zu einer reifen Wertschöpfungskette entwickelt, von der Erfassung und Extraktion von Informationen über die Transformation und Bereicherung bis hin zur Organisation und Sortierung und schließlich zur Speicherung und Bereitstellung für die richtigen Komponenten – sei es ein Modell, ein Agent oder ein Mensch. Jede Ebene bringt Echtzeitherausforderungen und reale Konsequenzen mit sich. Im Gegensatz zu traditionellen ETL-Pipelines ist es nicht nur darum, Daten in einen Datensee zu laden und dort zu lassen.

Die meisten Teams machen es schon beim ersten Schritt falsch: Die Erfassung. Schlechte Datenextraktion kann den Kontext zerstören. Wenn Ihre Erfassungsebene wichtige Updates verpasst, stillschweigend bei Randbedingungen fehlschlägt oder Informationen in der falschen Struktur oder Sprache erfasst, dann erbt Ihr gesamter Stack diese Blindheit.

Mit anderen Worten: Sie können keinen Kontext gestalten, den Sie nicht aufgenommen haben. Hier ist eine interessante Studie, "Die Sirenenstimme im KI-Ozean: Eine Untersuchung von Halluzinationen in großen Sprachmodellen" von Zhang et al. Die Studie zeigt, dass in produktionsreifen Systemen ungelöste Erfassungsprobleme die häufigste Ursache für "Modellhalluzinationen" und andere anomale Agentenverhaltensweisen sind.

Deshalb ist es in der Zeit von RAG und Agent-KI unumstritten, dass die Erfassung strategisch geplant werden muss:

Sie muss KI-Agenten-freundlich sein, das heißt, strukturierte, sofort nutzbare Daten liefern können.

Sie muss dynamische Benutzeroberflächen, CAPTCHA, sich ändernde Schemata und gemischte Extraktionen (API + Scraping) verarbeiten können.

Mehrstufige KI-Agenten benötigen sowohl Echtzeitsignale als auch historische Erinnerungen – was gerade passiert, was zuvor passiert ist, in welcher Reihenfolge und warum. Daher muss die Infrastruktur zeitgesteuerte Extraktionen, inkrementelle Updates und TTL-bewusste Routing unterstützen – alles mit Elastizität, Compliance und der Bereitschaft, sich an Veränderungen anzupassen.

Sie muss zuverlässig im großen Maßstab funktionieren und kontinuierlich die neuesten Informationen aus Millionen von Quellen liefern können.

Und sie muss den Website-Bedingungen und gesetzlichen Vorschriften entsprechen.

Das ist der Grund, warum schwache Scraping-Tools, statische Datensätze und einmalige Connectors nicht mehr ausreichen, und warum Plattformen wie Bright Data, die sich auf eine für Automatisierung freundliche, Proxy-first-Dateninfrastruktur konzentrieren, so grundlegend werden wie die Modelle selbst.

Ich habe gesehen, dass Open-Source-Modelle mit offenen Gewichten wie Gemma 3 in engen Bereichen besser abschneiden als GPT-4, einfach weil frische, ausgewählte, branchenspezifische Daten ihnen ermöglichen, in besseren Abfragesystemen eingesetzt zu werden.

Rechnen wir mal nach. Nehmen wir an, wir definieren die Gesamtnutzen der abgerufenen Kontextfragmente wie folgt:

U = ∑i = 1k Ri Fi

Wo:

Ri ∈ [0,1] ist die Relevanzbewertung des i-ten abgerufenen Fragments in Bezug auf die Abfrage.

Fi ∈ [0,1] ist die Frischebewertung, die als zeitlich abnehmende Funktion modelliert wird (z. B. exponentiell oder linear).

k ist die Anzahl der abgerufenen Kontextblöcke, die durch das Kontextfenster des Modells begrenzt ist.

Selbst wenn wir annehmen, dass die semantische Suche perfekt ist (d. h. Ri ist optimiert), kann die Maximierung von U bedeuten, dass höchst relevante, aber veraltete Daten verworfen werden, um stattdessen Signale mit geringerer Relevanz (aber aktuell!) zu wählen. Wenn Ihre Extraktionsebene nicht mitkommt, führt das zu einem Verlust an Sichtbarkeit und Nutzen. Der zweite Effekt ergänzt den ersten: Nicht nur können Sie keine frischen Inhalte erhalten, sondern die Anwesenheit veralteter Inhalte verringert auch die Leistung. Dies führt zu einem komplexen Rückgang der Qualität der abgerufenen Kontexte.

Deshalb ist die Datenerfassung (einschließlich, aber nicht beschränkt auf geplante Updates, TTL-bewusstes Scraping, SERP-Extraktion, Feed-Parsing usw.) nicht mehr nur eine Pipeline.

Wie sieht die Datenextraktionsinfrastruktur genau aus?

Was bedeutet es also genau, die Datenerfassung als erstklassige Infrastruktur zu betrachten?

Es bedeutet:

Erstellen Sie zyklische Pipelines, nicht einmalige Datenmengen. Daten sollten nicht einmalig gesammelt und archiviert werden. Sie sollten geplant fließen, aktualisiert und erneuert werden – mit eingebauter Automatisierung, Versionskontrolle, Wiederholungslogik und Nachvollziehbarkeit. Ein einmaliger Datenabwurf kann keine dauerhafte Intelligenz liefern.

Nehmen Sie die Frische in die Abfrage-Logik auf. Daten altern. Ihr Ranking- und Abfragesystem sollte die Zeitverschiebung als primäres Signal betrachten – Kontexte, die den aktuellen Zustand der Welt widerspiegeln, sollten priorisiert werden.

Verwenden Sie Infrastruktur-Level-Quellen. Das Scraping von Roh-HTML aus selbstgeschriebenen Skripten ist nicht skalierbar. Sie benötigen Zugangsebenen, die Service Level Agreements, Resistenz gegen CAPTCHA, die Verarbeitung von Schemaänderungen, Wiederholungen, Proxy-Management und Compliance-Unterstützung bieten.

Multimodale Datenerfassung. Wertvolle Signale befinden sich in PDFs, Dashboards, Videos, Tabellen, Screenshots und eingebetteten Komponenten. Wenn Ihr System nur Daten aus reinem HTML oder Markdown extrahieren kann, verpassen Sie die Hälfte der Informationen.

Erstellen Sie eine ereignisbasierte Datenextraktionsarchitektur. Kafka, Redpanda, Materialize und Zeitreihendatenbanken – diese sind nicht nur für Backend-Infrastrukturteams geeignet. In KI-nativen Systemen werden sie zum Nervensystem für die Erfassung und Wiedergabe von zeitkritischen Signalen.

Kurz gesagt: Haben Sie nicht mehr die Vorstellung, dass Daten statische Ressourcen sind. Betrachten Sie sie als Rechenressourcen – die organisiert, abstrahiert, skaliert und geschützt werden müssen. Das ist die eigentliche Bedeutung von "Datenerfassung als Infrastruktur".

Die Zukunft liegt in Information > Größe

Die meisten RAG-Diskussionen bleiben auf der Modell-Ebene. Aber im aufstrebenden KI-Stack können die Modelle ausgetauscht werden, während die Dateninfrastruktur der langfristige Wettbewerbsvorteil ist.

Das Moore'sche Gesetz mag nicht mehr gelten, aber die reine Leistung steigt stetig. Aber in naher Zukunft bin ich nicht sicher, dass die Leistung von KI-Systemen von Finetuning oder magischen Tricks abhängen wird. Ich denke, der endgültige Sieg wird davon abhängen, wie viel Wissen Ihr System beherrscht und wie schnell es dieses Wissen erlangen kann. Die intelligentesten KI-Systeme sind nicht diejenigen mit dem größten Fenster, sondern diejenigen mit der besten Kontextverwaltung – dank Echtzeitdaten, dynamischem Gedächtnis und intelligenter Extraktion.

Deshalb sollten wir als Ingenieure nicht jedes neue Datenquell, Feedback oder Echtzeitdatenstrom als "Inhalt", sondern als Fähigkeit betrachten. Und jedes neue Datenstrom ist möglicherweise nicht nur Rauschen, sondern auch Signal.

Vielleicht haben Sie bereits eine solche wichtige KI-Infrastruktur aufgebaut – vielleicht haben Sie es nur noch nicht so genannt.

Vielleicht haben Sie bereits darüber nachgedacht, Daten (z. B. API) in Ihre eigene interne Intelligenzschicht zu geben und gemerkt, dass Sie nicht das größte Modell brauchen. Sie brauchen nur die richtige Pipeline.

Teams, die die Datenerfassung im Netzwerkmaßstab als Infrastruktur und nicht als Nebentätigkeit betrachten, werden schneller handeln, mehr lernen und mit weniger Kosten Erfolg haben.

Dieser Artikel stammt aus dem WeChat-Account