Aufbau eines LLM: Die unerlässlichen Grundlagen des Wissensgraphen für jedes KI

Ein Anwalt hat sich auf vom KI-System gefälschte Fälle verlassen, was zeigt, dass Large Language Models (LLM) durch Wissensgraphen ihre Vertrauenswürdigkeit verbessern müssen.

„Herr Schwarz, ich habe Ihre Einspruchsbegründung geprüft“, begann der Bundesrichter Kevin Castor mit ruhiger, aber nachdrücklicher Stimme. „Sie haben sechs Fälle zitiert, um die Position Ihres Mandanten zu stützen. Ich möchte den Fall Varghese gegen China Southern Airlines besprechen.“

Der Anwalt Steven Schwarz, der jahrzehntelange Erfahrung hatte, richtete sich im Stuhl auf. „Ja, Herr Richter. Dies ist ein Urteil des 11. Kreissrichters aus dem Jahr 2019, das direkt die …“

„Ich finde es nicht“, unterbrach ihn der Richter. „Die von Ihnen angegebene Zitationsnummer – 925 F.3d 1339 – taucht in keiner der Datenbanken auf, die mein Sekretär durchsucht hat. Können Sie dem Gericht eine vollständige Kopie des Urteils zur Verfügung stellen?“

Schwarz fühlte sich ein wenig besorgt. „Natürlich, Herr Richter. Ich werde es sofort einreichen.“ Nachdem er zurück im Büro war, kontaktierte Schwarz erneut seine Informationsquelle. Er tippte in ChatGPT ein: „Ist der Fall Varghese gegen China Southern Airlines, 925 F.3d 1339 (11. Kreissrichter, 2019) ein real existierender Fall?“ Die Antwort war zuversichtlich: „Ja, der Fall Varghese gegen China Southern Airlines, 925 F.3d 1339 ist ein real existierender Fall. Sie können ihn in autoritativen Rechtssammlungen wie LexisNexis und Westlaw finden.“

Als Schwarz beruhigt war, fragte er ChatGPT nach weiteren Falldetails. Die Künstliche Intelligenz generierte hilfsbereit einige Texte, die wie Auszüge aus Urteilen aussahen, darunter überzeugende Rechtsargumentationen und korrekt formatierte Zitate.

Er reichte diese Materialien dem Gericht ein.

Drei Wochen später

Die Anordnung des Richters Castor war streng formuliert: „Das Gericht sieht sich einer bisher unbekannten Situation gegenüber. Die sechs vorgelegten Fälle scheinen gefälschte Gerichtsentscheidungen zu sein, die gefälschte Zitate und gefälschte interne Verweise enthalten.“

Diese sechs Fälle waren völlig erfunden. Kein Gericht hatte diese Fälle verhandelt. Sie existierten gar nicht.

In einer anschließenden Eideserklärung gestand Schwarz, dass er „bisher noch nie ChatGPT für juristische Recherchen verwendet hatte und daher nicht wusste, dass der Inhalt unzutreffend sein könnte“. Er sagte dem Gericht, dass er ChatGPT als „eine Art Super-Suchmaschine“ ansah – eine scheinbar vernünftige, aber völlig falsche Annahme, die heute von Millionen von Fachleuten in verschiedenen Branchen, die juristische Tools nutzen, missverstanden wird.

Wo ist der Fehler?

Der Fall Schwarz zeigt, dass es eine grundlegende Missverständnis über die Möglichkeiten von Large Language Models (LLMs) gibt. Es ist ein riesiger Unterschied zwischen der Frage an ChatGPT: „Was ist der Taj Mahal?“ und der Frage: „Welche Rechtsvorgaben unterstützen die Position meines Mandanten in einem Luftunfallfall?“

Die erste Abfrage erfordert allgemeines Wissen – also Informationen, die weit verbreitet und relativ stabil sind. Die zweite Abfrage erfordert die Recherche in einer spezifischen, autoritativen und ständig wachsenden Sammlung von Rechtsentscheidungen, die über Jahrhunderte der Rechtswissenschaft entstanden ist, wobei Präzision von entscheidender Bedeutung ist und jede Zitation verifizierbar sein muss.

Wir wissen, dass LLMs zu Halluzinationen neigen. Dies ist kein neues Phänomen, und es wurde viel Energie investiert, um dieses Problem zu bekämpfen. Techniken wie Reinforcement Learning with Human Feedback (RLHF), verbesserte Verwaltung der Trainingsdaten und Zuverlässigkeitsbewertungen haben hierbei eine gewisse Wirkung gezeigt. Aber der Kontext ist von entscheidender Bedeutung. LLMs können bei allgemeinen Themen gut abschneiden, scheitern aber bei spezifischen Abfragen, die auf autoritativen Quellen beruhen.

Die Methode des Retrieval-Augmented Generation (RAG) – also das Teilen von Dokumenten in Blöcke und die bedarfsgerechte Abfrage relevanter Abschnitte – kann dieses Problem teilweise lösen. Wenn Sie Textinhalt verarbeiten und auf der Grundlage dieses Inhalts spezifische Antworten erhalten möchten, funktioniert RAG recht gut. Aber wenn Ihr Wissensspeicher das Ergebnis jahrelanger Praxis ist – wie bei Rechtsentscheidungen, medizinischen Leitlinien, Finanzvorschriften, Ingenieurstandards – reicht eine einfache blockbasierte Abfrage nicht aus, um die erforderliche Präzision und Kontextverstehen zu gewährleisten. Sie müssen nicht nur den Inhalt eines Falls kennen, sondern auch seine Beziehung zu anderen Fällen, seine Anwendungsbereiche, seine Zuständigkeit und ob nachfolgende Urteile seine Gültigkeit geändert haben.

Allerdings stellen Halluzinationen und Abfragebeschränkungen nur eine Seite des Problems dar. Die architektonischen Herausforderungen gehen weit darüber hinaus:

• Ihr Wissen ist undurchsichtig: Informationen werden in Milliarden von Parametern gespeichert, die nicht überprüft oder erklärt werden können. Sie können nicht überprüfen, was das Modell „weiß“, und auch nicht die Herkunft seiner Informationen verifizieren.

• Sie lassen sich nicht einfach aktualisieren: Das Einbeziehen neuer Informationen – neuer Rechtsvorgaben, aktualisierter Vorschriften oder revidierter medizinischer Leitlinien – erfordert teure Neutrainings oder komplizierte Feinabstimmungen.

• Sie fehlen an Fachwissen: Allgemeine LLMs haben kein Expertenwissen, keine Betriebsregeln und keine regulatorischen Anforderungen, die entscheiden, ob ihre Ergebnisse in einem professionellen Umfeld wirklich nützlich sind.

• Sie bieten keine Nachverfolgungsmöglichkeit: Es ist nicht möglich, zu verfolgen, wie sie zu ihren Schlussfolgerungen kommen, was sie für Umgebungen, in denen Rechenschaftspflicht besteht, ungeeignet macht.

Dies sind keine unbedeutenden technischen Probleme, sondern architektonische Probleme, die den Erfolg oder Misserfolg von KI-Projekten bestimmen. Laut einer Prognose von Gartner werden bis 2027 mehr als 40 % der Agenten-KI-Projekte wegen der fehlenden Übereinstimmung zwischen Fachwissen und Return on Investment (ROI) abgebrochen. Der Grund ist einfach: Unternehmen setzen leistungsstarke LLM-Technologien ein, aber fehlt die erforderliche Wissensinfrastruktur, um sie vertrauenswürdig zu machen.

Der Fall Schwarz zeigt deutlich: Solange LLMs keine echten, konsistenten und verifizierbaren Daten zugänglich haben, können sie nicht als zuverlässige Frage-Antwort-Tools für kritische Anwendungen eingesetzt werden. Und es gibt keine Abkürzungen. Das bloße Übermitteln von mehr Dokumenten an ein LLM über ein RAG-System oder die Hoffnung auf bessere Eingaben, um die Mängel zu kompensieren, übersieht das eigentliche Problem.

Wissen muss auf eine leicht zu verwaltende, ständig up-to-date, gut gepflegte und – am wichtigsten – strukturierte Weise organisiert werden, um die Art der erforderlichen Schlussfolgerungen für Ihre Anwendung zu unterstützen. Das eigentliche Problem liegt nicht darin, ob das LLM stark genug ist, sondern wie das Wissen strukturiert sein sollte und wie wir um es herum Prozesse erstellen können, um das Wissen richtig aufzubauen, zu pflegen und zuzugreifen?

Hier kommt der Knowledge Graph ins Spiel.

Was ist ein Knowledge Graph?

Ein Knowledge Graph ist nicht einfach eine Datenbank. Ein Knowledge Graph ist eine sich ständig entwickelnde Graph-Datenstruktur, die aus einer Gruppe von typisierten Entitäten, ihren Eigenschaften und sinnvollen benannten Beziehungen besteht. Ein Knowledge Graph wird für ein bestimmtes Fachgebiet erstellt, integriert strukturierte und unstrukturierte Daten und schafft Wissen für Menschen und Maschinen.

Das Wissenssystem basiert also auf vier Säulen:

1. Entwicklung: ständig aktualisierte Informationen, die ohne strukturelle Anpassungen nahtlos neue Daten integrieren können.

2. Semantik: die Darstellung von sinnvollen Daten durch typisierte Entitäten und explizite Beziehungen, um Fachwissen zu erfassen.

3. Integration: die flexible Koordination von strukturierten und unstrukturierten Datenquellen aus mehreren Quellen.

4. Lernen: die Unterstützung von Menschen und Maschinen bei der Abfrage, Visualisierung und Schlussfolgerung.

Wichtig ist, dass der Wissensgehalt in einem Knowledge Graph überprüfbar und erklärbar ist – Benutzer können genau verfolgen, woher die Informationen stammen, und sie anhand autoritativer Quellen verifizieren.

Intelligente Beratungssysteme und autonome Systeme

Bevor wir besprechen, wie diese Technologien kombiniert werden können, müssen wir einen wichtigen Unterschied in der Art der Implementierung von intelligenten Systemen verstehen.

Nicht alle intelligenten Systeme sind gleich. Autonome Intelligenzsysteme können unabhängig funktionieren und Entscheidungen und Handlungen im Namen des Benutzers treffen, mit minimaler menschlicher Eingabe – wie beispielsweise ein autonomes Fahrzeug, das in Echtzeit ohne menschliche Eingabe funktionieren muss.

Im Gegensatz dazu sind Intelligente Beratungssysteme (IAS) darauf ausgelegt, die menschliche Urteilsfähigkeit zu unterstützen, nicht zu ersetzen. Die Aufgabe eines Intelligenten Beratungssystems ist es, Informationen und Vorschläge bereitzustellen. Ihre Hauptfunktionen umfassen die Entscheidungsunterstützung, die Situationsbewusstsein und die Benutzerinteraktion. Diese Systeme sind so konzipiert, dass sie die Benutzerinteraktion erleichtern, sodass Benutzer verschiedene Optionen erkunden, Fragen stellen und detaillierte Erklärungen erhalten können, um ihre Entscheidungen zu unterstützen.

a) Autonome Intelligenzsysteme. b) Intelligente Beratungssysteme.

Für kritische Anwendungen wie Rechtsrecherche, medizinische Diagnose, Finanzanalyse, Compliance-Überprüfung etc. sind Beratungssysteme, die das menschliche Fachwissen stärken, nicht ersetzen, nicht nur die bessere Wahl, sondern auch von entscheidender Bedeutung. Die Systemarchitektur muss die Kontrollfunktionen wahrnehmen, nicht umgehen.

Hybride Methode: LLM + KG

Wenn wir das Wissenssystem und das Lernmodell kombinieren, entsteht ein System, dessen Leistung größer ist als die Summe seiner Teile:

1. Der Knowledge Graph (KG) bildet die Grundlage:

• Strukturiertes, verifiziertes Wissen, das als Tatsachenbasis dient

• Explizite Darstellung von Fachregeln und -beschränkungen

• Nachverfolgungsmöglichkeit, die den Weg zu den Schlussfolgerungen aufzeigt.

• Dynamische Aktualisierung ohne Neutraining des Modells

2. Das LLM bietet die Schnittstelle:

• Verarbeitung von Abfragen in natürlicher Sprache

• Automatische Extraktion von Entitäten aus unstrukturierten Daten zur Erstellung des Knowledge Graphs

• Übersetzung komplexer Graph-Abfragen in verständliche Sprache

• Zusammenfassung der Ergebnisse in einem verständlichen Bericht

Stellen Sie sich vor, wie der Misserfolg von Schwarz vermieden werden könnte, wenn ein solches Hybridsystem eingesetzt würde. Ein Hybridsystem könnte:

1. Das LLM nutzen, um Abfragen in natürlicher Sprache zu verarbeiten

2. In der Wissensbasis nach verifizierten Informationen mit echten Zitationen und Quellen suchen

3. Die Ergebnisse zusammen mit Hintergrundinformationen präsentieren: „Es wurden 12 verifizierte Fälle aus autoritativen Datenbanken gefunden, mit Zitaten.“

4. Verifizierungslinks zu den tatsächlichen Quellen bereitstellen

5. Unsicherheiten markieren: „Es wurden keine Fälle gefunden, die exakt diesem Muster entsprechen. Bitte überlegen Sie die folgenden Alternativen.“

Am wichtigsten: Wenn gefragt wird: „Existiert dieser Fall wirklich?“ würde das System antworten: „Diese Fallzitation kann in keiner autoritativen Datenbank verifiziert werden. Status: Nicht verifiziert.“

Untersuchungen von branchenführenden Unternehmen zeigen übereinstimmend, dass Hybridsysteme die zentralen Herausforderungen, die zu Scheitern von KI-Projekten führen, lösen können:

• Die Halluzinationen können reduziert werden, indem die Reaktionen des LLMs auf Tatsachen basieren, die in einem verifizierten Knowledge Graph zusammengefasst sind.

• Das Wissen bleibt ständig up-to-date durch die dynamische Aktualisierung der Wissensbasis. Das LLM kann ohne Neutraining auf die neuesten Informationen in der sich entwickelnden Wissensbasis zugreifen.

• Die Nachvollziehbarkeit wird durch transparente Informationspfade erreicht.

• Da der Knowledge Graph das Expertenwissen, die Vorschriften und die Beziehungen codiert, die das allgemeine LLM fehlen, wird die Genauigkeit in spezifischen Fachbereichen verbessert.

Entwicklung von vertrauenswürdigen KI-Systemen

Der Richter im Fall Schwarz stellte fest, dass „technologische Fortschritte alltäglich sind und es an sich nichts Falsches daran gibt, zuverlässige KI-Tools zur Unterstützung zu nutzen“, betonte aber, dass „die geltenden Regeln die Anwälte verpflichten, die Genauigkeit der von ihnen vorgelegten Dokumente sicherzustellen“.

Dieses Prinzip ist allgemein anwendbar: Jeder Fachmann, der KI einsetzt, hat die Verantwortung, Kontrollen durchzuführen. Die Frage ist, ob Ihre KI-Systemarchitektur diese Verantwortung unterstützen oder schwächen kann.

Die Zukunft der