StartseiteArtikel

5 Methoden zur Erschließung des Werts von "unstrukturierten" Daten

王建峰2025-12-09 12:04
Die Spielregeln haben sich geändert.

Normalerweise behandeln wir den Wert von Texten und Bildern wie eine Nebensache. Bis 2026 ist Ihre Datenplattform nutzlos, wenn sie keine Verbindung zwischen SQL-Tabellen und PDF-Dateien herstellen kann!

Der moderne Datenstapel birgt ein geheimes Geheimnis. In den letzten zehn Jahren waren wir von den 10 % „sauberen“ Daten in Unternehmensdaten fasziniert – jenen, die ordentlich in Zeilen und Spalten in Snowflake, BigQuery oder Databricks organisiert sind. Wir haben komplexe Governance-, Herkunfts- und Observabilitätssysteme um Ganzzahlfelder und standardisierte Zeitstempel herum aufgebaut.

Meanwhile, the remaining 90% of the data – the enterprise's “dark matter” – is rotting in S3 or GCS storage buckets and cloud drive folders: PDFs, emails, call logs, and images.

Bis 2025 hat sich die Spielregel geändert. Ihr CEO kümmert sich nicht mehr um das von Ihnen sorgfältig aufgebaute Sternschema. Sie möchten nur wissen: „Welche Lieferantenverträge (PDF) haben Abbruchgebühren, die höher sind als der Umsatz (SQL), den wir im vergangenen Quartal aus diesen Verträgen erzielt haben?“

Wenn Ihre Antwort lautet: „Ich brauche drei Wochen, um einen benutzerdefinierten Crawler und eine separate Vektor-Pipeline zu erstellen“, sind Sie schon veraltet.

Hier ist die nicht so attraktive Wahrheit über den Zustand unstrukturierter Daten im Jahr 2025 und warum Ihre Fähigkeit, nur SQL zu beherrschen, zu einer Belastung wird.

Die fehlende „Verbindung“

Die grundlegende Diskrepanz im Jahr 2025 besteht darin, dass wir immer noch an einer nativen, leistungsstarken Verbindung zwischen dem semantischen Konzept von LEFT JOIN und relationalen Schlüsseln fehlen.

Wir haben Vektordatenbanken für Ähnlichkeitssuche und relationale Datenbanken für exakte Logik. Sie zu verbinden ist wie das Ankleben eines Jet-Triebwerks an ein Pferd mit Klebeband – ein technisches Problem.

Die Realität ist: Sie können mit Vektor-Suche „ähnliche“ Verträge finden und mit SQL nach „Umsatz“ suchen. Aber die genaue Abbildung bestimmter Abschnitte in gescannten PDF-Dateien auf bestimmte Transaktions-IDs in einer Postgres-Tabelle ist ein Albtraum aus unscharfen Übereinstimmungen, Täuschungen und unterbrochener Herkunft.

Die nicht so attraktive Lösung: Wir sehen, dass sich „Künstliche-Intelligenz-Funktionen“ in Data Warehouses etablieren. Dieser Trend besteht nicht darin, Daten in eine Vektordatenbank zu verschieben, sondern Logikmodelle (LLM) in die Daten selbst zu integrieren.

Expertenempfehlung: Hör auf, unabhängige „Plattformen für unstrukturierte Daten“ zu bauen. Strebe eine Architektur an, die es ermöglicht, direkt in der Hauptdatenbank SELECT extract_contract_value(pdf_blob) FROM documents auszuführen. Wenn Ihre Plattform keine SQL-Schlussfolgerungen ziehen kann, migriere sie.

Die „Token-Steuer“ ist der neue Cloud-Rechnungs-Schock

Im Jahr 2020 haben wir uns um Snowflake-Punkte Sorgen gemacht; im Jahr 2025 machen wir uns Sorgen um Token-Verbrauch.

Die Behandlung unstrukturierter Daten als Erstklassensubjekte bedeutet, sie zu digitalisieren. Aber das Extrahieren von Strukturen aus Millionen von Dokumenten mithilfe von multimodalen Sprachlernmodellen (z. B. GPT-4o oder Gemini 3 Pro) ist nicht nur langsam, sondern kann auch, wenn man es unüberlegt macht, enorme finanzielle Verluste verursachen.

Statistiken zeigen: Ohne Optimierung können die API-Kosten für die Verarbeitung von 1 PB unstrukturierter Texte für RAG (Retrieval-Augmented Generation) bis zu 150.000 US-Dollar betragen.

Die nicht so attraktive Lösung: Kleine Sprachmodelle (SLM). Sie brauchen kein Inferenzmodell, um das Datum aus einer Rechnung zu extrahieren.

Expertenempfehlung: Baue eine „ Modell-Routing “. Nutze billige kleine BERT-Modelle oder spezialisierte SLM-Modelle für 90 % der Extraktionsaufgaben (OCR, Klassifizierung, Entitätsextraktion). Verwende nur bei komplexen Inferenzaufgaben teure „intelligente“ Modelle. Ihr Finanzchef wird Ihnen dankbar sein.

OCR ist immer noch der schlimmste Teil Ihrer Arbeit

Wir haben Inferenzfähigkeiten auf der Ebene der allgemeinen Künstlichen Intelligenz (AGI), aber es fällt uns immer noch schwer, Tabellen in PDF-Dateien zu lesen, die über zwei Seiten verteilt sind.

Das Problem von „unstrukturierten“ Daten ist oft nur ein verstecktes „Parsen“-Problem. Die meisten RAG-Pipelines scheitern nicht wegen Fehlern im LLM selbst, sondern weil PDF-Parser den Text durcheinanderbringen, zwei Spalten zusammenführen oder wichtige Fußnoten übersehen.

Die Realität ist:  “ Schrott hinein, Halluzination heraus.  ” Wenn Ihr Parsing-Tool dem Modell eine Unmenge an durcheinander gewürfelten Kopf- und Fußzeilen eingibt, hilft auch die beste Prompt-Engineering nichts.

Die nicht so attraktive Lösung: Multimodale Parser. Bis Ende 2025 ist der Trend, von heuristischen Parsern (wie PyPDF2) zu auf Visual-LLM basierenden Parsern überzugehen, die „sehen“ die Dokumentenscreenshots, um das Layout zu verstehen, bevor sie den Text lesen.

Expertenempfehlung: Investieren Sie stark in die Datenaufnahmeebene. Der Rendite einer besseren Parser ist 10 Mal höher als die eines besseren Sprachlernmodells (LLM).

Metadaten werden erneut zum neuen Gold

Die Vektor-Suche ist probabilistisch, eine Vermutung. In streng regulierten Branchen kann die Aussage „Ich denke, das ist die richtige Datei“ Sie vor Gericht bringen lassen.

Um unstrukturierte Daten nutzbar zu machen, brauchen Sie deterministische Ankerpunkte, also Metadaten. Bis 2025 fügen die erfolgreichsten Datenteams nicht nur Texte ein; sie fügen vor dem Einfügen in den Vektor-Speicher mit Agenten strukturierte Attribute (z. B. Kunden-ID, Datum, Region) hinzu.

Die nicht so attraktive Lösung: Hybrid-Suche.

Expertenempfehlung: Vertrauen Sie nicht nur auf semantische Suche. Ihre Abrufstrategie sollte immer (Vektor-Ähnlichkeit) AND (SQL-Filter) sein: Stellen Sie sicher, dass jede unstrukturierte Daten, die Sie aufnehmen, mindestens 3 - 5 strukturierte Metadatenfelder enthält.

Der Aufstieg von Dokumenten-„Datenprodukten“

Früher behandelten wir Dateien wie „Datenblöcke“. Jetzt sind sie Produkte.

Im Jahr 2025 ist ein PDF-Vertrag nicht mehr nur eine Datei, sondern ein Container für ein Datenprodukt: mit einer Liste von Verpflichtungen, Zahlungsplänen und Risikoprofilen. Die Aufgabe der Dateningenieure besteht darin, diesen Container aufzuteilen in nutzbare, abfragbare Datenassets.

Die Zukunft: Wir gehen in Richtung eines „allgemeinen Datensees“ (dank offener Formate wie Apache Iceberg), in dem Bilder, Videos und Texte nebeneinander mit Tabellen existieren, alle von einem einzigen Katalog verwaltet.

Expertenempfehlung: Prüfen Sie Ihren Datenkatalog. Wenn die Suche nach „Finanzdaten des dritten Quartals“ Tabellen anstelle von PDF-Berichten zurückgibt, ist etwas mit Ihrem Katalog falsch.

Die Zukunft liegt nicht im Streit zwischen SQL und NoSQL, sondern im Streit zwischen strukturierten und unstrukturierten Daten und in der Geschwindigkeit, mit der die Kluft zwischen ihnen geschlossen wird.

Dieser Artikel stammt aus dem WeChat-Account “Data-driven Intelligence” (ID: Data_0101), Autor: Xiaoxiao, veröffentlicht von 36Kr mit Genehmigung.