Hat die RAG-Suche richtig gesucht, aber falsch geantwortet? Die Universität des Saarlandes in Deutschland hat die Wahrheit gefunden.
RAG (Retrieval-Augmented Generation) ist bereits zur Standardtechnologie für die Implementierung von Large Language Modellen geworden. Doch wer es schon benutzt hat, weiß, dass es ein Problem gibt: Selbst wenn die richtigen Dokumente gefunden werden, kann die vom Modell gegebene Antwort immer noch absurd sein.
Was genau ist hier los?
Eine Forschergruppe, bestehend aus der Universität des Saarlandes in Deutschland × Tencent YouTu × Shanghai Jiao Tong Universität × Fudan Universität × Zhejiang Universität, hat eine präzise Diagnose gestellt: Das Problem liegt nicht in der Suche, sondern im Textverständnis. Das bestehende RAG-System gibt die gefundenen Absätze als "lose Teile" direkt an das Modell weiter. Die hierarchischen Beziehungen innerhalb der Absätze und die logischen Zusammenhänge zwischen den Absätzen werden dabei komplett ausgeglichen. Das Modell sieht nicht eine strukturierte Referenz, sondern eine "Informationensuppe".
Deshalb hat die Forschergruppe Disco-RAG vorgeschlagen – ein neues RAG-Framework, das zwischen der "Suche" und der "Antwort" eine "Verständnisphase" einfügt. Diese Arbeit wurde als Langbeitrag von der Haupkonferenz der ACL 2026 akzeptiert. Es hat auf drei autoritativen Benchmarks mehrere beste Ergebnisse erzielt und benötigt kein Training.
Schauen wir uns zunächst ein Beispiel an: Wie "beantwortet" das traditionelle RAG falsch?
Ein Nutzer fragt: "Kann die Einnahme von Vitamin D die Grippe vorbeugen?" Das System sucht zwei Literaturstellen zurück:
Absatz A: "Bei Erwachsenen mit niedrigem Vitamin-D-Spiegel im Winter ist die Inzidenz der Grippe nach zusätzlicher Einnahme von Vitamin D um 12 % gesunken."
Absatz B: "Großangelegte randomisierte kontrollierte Studien haben keinen statistisch signifikanten Zusammenhang zwischen der Einnahme von Vitamin D und dem Gripperisiko festgestellt."
Das traditionelle RAG-System gibt A und B einfach zusammen an das Modell weiter. Das Modell sieht "12 % Abfall" und gibt direkt aus: "Vitamin D ist wirksam" – es beachtet überhaupt nicht die entscheidende Einschränkung in A ("Winter + niedriger Spiegel"), und es erkennt nicht, dass A und B sich widersprechen.
Hinter diesem Problem liegen zwei fatale Blindflecken des traditionellen RAG-Systems:
Innerhalb eines Absatzes erkennt es keine hierarchischen Beziehungen – das Modell kann nicht unterscheiden, welche Aussage die Schlussfolgerung und welche die Voraussetzung ist.
Zwischen Absätzen erkennt es keine Zusammenhänge – das Modell weiß nicht, ob zwei Literaturstellen einander unterstützen oder widersprechen.
Mit anderen Worten: Die Schwäche des RAG liegt nicht darin, dass es nichts findet, sondern dass es die gefundenen Informationen nicht versteht.
Es wurden bereits Lösungsansätze versucht
Dieses Problem war der Branche bereits bekannt. In den letzten Jahren haben Forscher verschiedene Lösungsansätze vorgeschlagen: Die Suchergebnisse neu sortieren, um die relevantesten Absätze nach vorne zu bringen; die Nutzerabfrage umformulieren, um die Suche genauer zu machen; redundante Absätze komprimieren, um die Störung durch irrelevante Informationen zu reduzieren; oder sogar das Modell mehrere Male iterativ suchen lassen, um sich schrittweise der Antwort zu nähern.
Diese Methoden sind tatsächlich effektiv, aber sie optimieren immer nur die "Suche" – dahinter liegt die implizite Annahme, dass das Modell automatisch gute Antworten geben kann, wenn es bessere Inhalte erhält.
In der Realität ist es jedoch so, dass oft die Inhalte bereits "gut genug" sind, und das Problem besteht darin, dass das Modell nicht weiß, wie es diese Inhalte organisieren soll. Wenn zwischen mehreren Absätzen komplexe logische Beziehungen bestehen – beispielsweise gibt ein Absatz eine Schlussfolgerung unter bestimmten Bedingungen, und ein anderer gibt die Ergebnisse eines entgegengesetzten großen Experiments. Ein einfaches Sortieren oder Komprimieren dieser Absätze hilft dem Modell nicht, die Beziehungen zwischen diesen Absätzen zu verstehen.
Genau dieses Problem will Disco-RAG lösen: Es geht nicht darum, dass das Modell bessere Inhalte sieht, sondern dass es die vorhandenen Inhalte wirklich versteht.
Wie löst Disco-RAG das Problem? Drei Schritte, um dem Modell das "Lesen" von Dokumenten beizubringen
Der Ansatz ist einfach: Zwischen der "Suche" und der "Antwort" wird eine "Verständnisphase" eingefügt. Die klassische rhetorische Strukturtheorie (RST) aus der Linguistik wird verwendet, um die logische Struktur des Textes zu analysieren, und dann gibt das Modell die Antwort.
Insgesamt gibt es drei Schritte, ohne dass ein Parameter des Modells geändert wird:
Schritt 1: Zeichne für jeden Absatz einen "Argumentationsbaum". Mit Hilfe eines Large Language Models (LLM) wird der Absatz in die kleinsten semantischen Einheiten (EDU) zerlegt. Dann wird jede Einheit als "Kerninhalt" oder "Hilfsinformation" markiert, und gleichzeitig wird der Beziehungstyp zwischen den Einheiten erkannt (z. B. Kausalität, Kontrast, Ausführung usw.). So kann das Modell unterscheiden, was der Schwerpunkt des Absatzes ist, ob es "12 % Abfall" oder "nur für bestimmte Bevölkerungsgruppen" ist.
Schritt 2: Baue für alle Absätze ein "Beziehungsnetz". Alle zurückgesuchten Absätze werden paarweise analysiert, um vorherzusagen, ob sie sich unterstützen, widersprechen, ergänzen oder keine Beziehung zueinander haben. Am Ende entsteht ein gerichteter Graph. Im obigen Beispiel wird zwischen A und B eine "Kontrastbeziehung" markiert.
Schritt 3: Entwerfe zunächst einen Plan, und dann schreibe die Antwort. Disco-RAG erzeugt automatisch einen "Schreibplan", indem es die Nutzerfrage, die ursprünglichen Absätze, den Argumentationsbaum und das Beziehungsnetz berücksichtigt. Im Plan werden die wichtigen Beweise, die Reihenfolge der Darstellung und die Lösung von widersprüchlichen Informationen angegeben. Schließlich gibt das Modell die endgültige Antwort unter Berücksichtigung des Plans.
Zurück zum Vitamin-D-Beispiel
Was passiert, wenn Disco-RAG die Frage "Kann Vitamin D die Grippe vorbeugen?" behandelt?
Zunächst wird der Argumentationsbaum die innere Struktur von Absatz A analysieren. "Bei Erwachsenen mit niedrigem Vitamin-D-Spiegel im Winter" wird als Einschränkung (Hilfseinheit) markiert, und "die Inzidenz der Grippe ist um 12 % gesunken" wird als Kernschlussfolgerung (Kerneinheit) markiert. Dies bedeutet, dass das Modell nicht mehr eine lokale Schlussfolgerung mit Voraussetzungen als allgemeine Tatsache ansieht.
Dann wird das Beziehungsnetz eine "Kontrastbeziehung" zwischen Absatz A und Absatz B herstellen – es sagt dem Modell klar, dass die Standpunkte der beiden Literaturstellen im Widerspruch zueinander stehen und dass man nicht einfach eine der beiden als Antwort nehmen kann.
Schließlich wird der Schreibplan die Antwortstrategie planen: Zunächst werden die Ergebnisse der beiden Studien und ihre jeweiligen Anwendungsbereiche vorgestellt, dann wird auf den Widerspruch zwischen ihnen hingewiesen, und schließlich wird eine bedingte Analyse gegeben.
So wird die endgültige Antwort des Modells nicht mehr einfach "wirksam" oder "unwirksam" sein, sondern eine strukturierte, bedingte und begründete Analyse. Dies ist genau das, was die Nutzer von einer qualitativ hochwertigen Antwort erwarten.
Ergebnisse: Spitzenleistungen auf drei Benchmarks
Das Team hat umfassende Tests auf drei autoritativen Benchmarks durchgeführt, die verschiedene Szenarien abdecken. Mehrere Open-Source-Modelle wurden verwendet, und es wurde kein Training durchgeführt.
Langdokument-Inferenz (Loong)
Dieser Benchmark misst die Inferenzfähigkeit des Modells auf sehr langen Dokumenten. Die Länge der Dokumente variiert von 10.000 bis 250.000 Tokens. Die Kernaussage: Je länger das Dokument, desto größer ist der Vorteil von Disco-RAG. Bei der längsten Stufe von 250.000 Tokens funktioniert das normale RAG fast überhaupt nicht mehr, während Disco-RAG immer noch gültige Antworten geben kann. Noch bemerkenswerter ist, dass die Gesamtleistung von Disco-RAG sogar die von Methoden übertrifft, die spezielles Training erfordern.
Mehrdeutige Fragen (ASQA)
Bei mehrdeutigen Fragen hat Disco-RAG auf den Kernindikatoren neue Bestwerte erreicht. Noch bemerkenswerter ist, dass Disco-RAG auch mit einem Modell mit sehr geringer Parameterzahl die Leistung von speziell entworfenen Systemen erreichen kann.
Wissenschaftliche Zusammenfassung (SciNews)
Das Umwandeln von wissenschaftlichen Artikeln in populäre Nachrichtenzusammenfassungen – diese Aufgabe erfordert eine hohe Fähigkeit zur Komprehension und Ausdruck. Disco-RAG hat in vier Bewertungsindikatoren drei erste Plätze erreicht und in der Tatsachenkonsistenz den zweiten Platz belegt.
Kommt die Verbesserung wirklich aus dem "Verständnis der Struktur"?
Das Team hat eine Reihe von Kontrollversuchen durchgeführt, um dies zu überprüfen:
Die drei Module haben jeweils unterschiedliche Aufgaben und sind alle notwendig. Wenn man den Argumentationsbaum, das Beziehungsnetz oder den Plan-Schritt entfernt, sinkt die Leistung deutlich, was zeigt, dass jedes Modul eine unterschiedliche Rolle spielt.
Das Hinzufügen eines Plans allein reicht nicht, die Struktur muss hinzugefügt werden. Wenn man einem normalen RAG einen allgemeinen Plan-Schritt hinzufügt (ohne Textstruktur), ist die Verbesserung begrenzt. Die starke Verbesserung von Disco-RAG kommt hauptsächlich aus der strukturierten Darstellung "Argumentationsbaum + Beziehungsnetz". Dies zeigt, dass das Modell tatsächlich die logische Struktur des Textes nutzt und nicht einfach nur, weil die Eingabe länger geworden ist.
Es ist robust gegenüber Rauschen und Granularitätsänderungen. Selbst wenn man eine große Anzahl von Suchergebnissen durch irrelevante Inhalte ersetzt oder die Absatzaufteilung stark ändert, schwankt das normale RAG stark, während Disco-RAG immer stabile Leistung zeigt.
Praktische Implementierung: Kleine Modelle für die Analyse, große Modelle für die Generierung
Die drei Module von Disco-RAG (Argumentationsbaum, Beziehungsnetz, Plan) und die endgültige Antwortgenerierung sind entkoppelt und können von Modellen unterschiedlicher Größe übernommen werden. Das Team hat ein Experiment mit gemischter Implementierung durchgeführt: Ein Modell mit geringerer Parameterzahl, Llama-3.1-8B, wird für alle Strukturanalysemodule verwendet, und nur in der letzten Generierungsphase wird Llama-3.3-70B aufgerufen.
Die Ergebnisse zeigen, dass man mit einem kleinen Modell für die Strukturanalyse und einem großen Modell nur für die endgültige Gener