StartseiteArtikel

Bruch der Engpässe: Lassen Sie RAG denken lernen. Die Universität von Wissenschaft und Technologie Chinas (USTC), das Beijing Academy of Artificial Intelligence (BAAI) und andere haben das Inferenz-Such-Framework BGE-Reasoner veröffentlicht.

机器之心2025-08-27 21:00
Ein neues Inferenz- und Suchframework namens BGE-Reasoner, das synthetische Daten und Reinforcement Learning kombiniert

Die Welle der künstlichen Intelligenz treibt uns in eine neue Ära, die von RAG und AI Agenten definiert wird. Um jedoch diese Agenten wirklich „intelligent” zu machen, und nicht bloß zu Informationsträgern, muss ein zentrales Problem überwunden werden, das allen Spitzenteams in den Weg steht. Dieses Problem ist das ressourcenintensive Informationsretrieval (Reasoning-Intensive IR).

Es ist nicht nur der entscheidende Engpass für die gegenwärtige Entwicklung der RAG- und AI-Agent-Technologien, sondern hat auch eine entscheidende Bedeutung für den Erfolg von Anwendungen wie Large Language Model Agenten und Deep Research.

Während Forscher weltweit auf der Suche nach einem Durchbruch sind, sehen wir einen Beitrag aus China: BGE-Reasoner.

Der BGE-Reasoner wurde von einem Verbundteam aus der Universität für Wissenschaft und Technologie Chinas, dem Zhipu AI Institute, der Peking University of Posts and Telecommunications und der Hong Kong Polytechnic University entwickelt. Es ist eine innovative, ganzheitliche Lösung für ressourcenintensive Informationsretrieval-Aufgaben. Durch systematische Abfragesverständnis, Vektorretrieval und Neuordnung kann dieses Verfahren die Leistung von Suchmaschinen bei ressourcenintensiven Informationsretrieval-Aufgaben erheblich verbessern.

Im autoritativen Testbenchmark BRIGHT erzielte der BGE-Reasoner eine Testpunktzahl von 45,2 und verbesserte damit das bisherige Rekordresultat dieses Benchmarks um einen deutlichen Abstand.

Als weiterer wichtiger Meilenstein in der BGE-Modellreihe hat der BGE-Reasoner nicht nur einen Leistungsschub erzielt, sondern bietet auch ein neues, funktionierendes Paradigma zur Lösung des branchenweiten Problems des ressourcenintensiven Retrievals. Aus technischer Sicht zeichnet sich das Ergebnis hauptsächlich durch die folgenden drei Kerninnovationen aus:

  1. Ein replizierbares Framework: Es wird ein dreistufiges, modularisiertes Framework vorgeschlagen, das aus einem Rewriter, einem Embedder und einem Reranker besteht. Dies bietet ein klares und effizientes Engineering-Paradigma für die Verarbeitung komplexer Abfragen.
  2. Datengetriebene Innovation: Die Machbarkeit der Synthese hochwertiger, mehrdomäniger Trainingsdaten für ressourcenintensive Inferenz mit Hilfe von Large Language Modellen wurde erforscht und bewiesen. Dadurch wurde das zentrale Problem der Knappheit von Trainingsdaten in diesem Bereich geschickt gelöst.
  3. Stärkung durch Reinforcement Learning: Reinforcement Learning wurde erfolgreich für das Training des Rerankers eingesetzt, wodurch das Modell eine stärkere Inferenz- und Generalisierungsfähigkeit bei schwierigen Beispielen erhält.

Die zugehörigen Modellgewichte, Trainingscode und Trainingsdaten werden demnächst der Community zur Verfügung gestellt, um die Forschung und Anwendung in diesem Bereich weiter voranzutreiben.

Projektseite: https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner

Einleitung

Ressourcenintensives Informationsretrieval (Reasoning-Intensive IR) ist eine neue Art von Informationsretrieval-Aufgaben, die in den letzten Jahren aufgetaucht ist. Im Gegensatz zum herkömmlichen Retrieval beruht es nicht nur auf semantischer Übereinstimmung, sondern erfordert auch die umfassende Anwendung tiefer logischer Inferenz, mehrstufiger semantischer Ketten und relevantem Hintergrundwissen, um eine korrekte semantische Verbindung zwischen Abfrage und Ziel-Dokument herzustellen.

Um die Forschung in diesem Bereich voranzutreiben, haben die Universität von Hongkong, Princeton University und Stanford University gemeinsam den ersten autoritativen Testbenchmark für ressourcenintensives Retrieval, BRIGHT, vorgeschlagen. Dieser Benchmark umfasst echte Abfragen aus Bereichen wie StackExchange, LeetCode und Mathematikwettbewerben und paart sie mit relevanten Dokumenten, die nur durch mehrstufige Inferenz identifiziert werden können, um die Fähigkeit von Retrievalsystemen in komplexen Inferenzszenarien zu bewerten.

Unter dem BRIGHT-Benchmark haben herkömmliche Methoden, die auf Schlüsselwortübereinstimmung oder einfacher semantischer Ähnlichkeit beruhen, oft Schwierigkeiten, die wirklich relevanten Ziel-Dokumente zu finden. Dies zeigt die Schwächen der gegenwärtigen Retrievalsysteme in komplexen Inferenzszenarien auf. Daher ist die Verbesserung der Systemleistung bei ressourcenintensivem Retrieval das Schlüsselproblem für die Weiterentwicklung des Retrieval-Enhanced Generation (RAG) in komplexen Inferenzaufgaben.

Abbildung 1. Im Gegensatz zu Retrieval-Aufgaben, die auf Schlüsselwörtern und direkter semantischer Übereinstimmung basieren, konzentriert sich der BRIGHT-Testbenchmark auf Retrieval-Aufgaben in ressourcenintensiven Szenarien.

Vor diesem Hintergrund zeigt der BGE-Reasoner eine hervorragende Leistung bei ressourcenintensiven Retrieval-Aufgaben. In der BRIGHT-Tabelle hat er die Ergebnisse von Organisationen wie Ant Group, Baidu, ByteDance, Renmin University und der Universität von Waterloo übertroffen und das Rekordresultat um 3,6 Punkte besser als der Zweitplatzierte verbessert. Gleichzeitig hat sein integrierter Vektormodell BGE-Reasoner-Embed auch die derzeit stärksten Basismodelle wie Seed1.5-Embedding, Qwen3-Embedding und GTE deutlich übertroffen, was eine erhebliche Leistungssteigerung zeigt.

Abbildung 2. In der BRIGHT-Tabelle hat der BGE-Reasoner am 21. August die beste Leistung erzielt und sich an der Spitze platziert. Der BGE-Reasoner-Embed zeigt bereits mit ursprünglichen Abfragen eine hervorragende Leistung und hat das beste Ergebnis unter den Vektormodellen erzielt. Link zur Tabelle: https://brightbenchmark.github.io

Abbildung 3. Vergleich der Retrieval-Leistung von BGE-Reasoner und BGE-Reasoner-Embed mit Basismodellen unter dem BRIGHT-Benchmark.

Technische Analyse

Der BGE-Reasoner verwendet das klassische dreimodulare System im Informationsretrieval:

  • Abfragesverständnis – BGE-Reasoner-Rewriter: Versteht und reformuliert die ursprüngliche Abfrage, um eine optimierte Abfrage für das Retrieval zu generieren;
  • Vektormodell – BGE-Reasoner-Embed: Nutzt die reformulierte Abfrage gemeinsam mit BM25 für das Retrieval und erhält eine Menge von Kandidaten-Dokumenten;
  • Sortiermodell – BGE-Reasoner-Reranker: Ordnet die Kandidaten-Dokumente neu und erhält ein genaueres Sortierergebnis.

Im tatsächlichen Arbeitsablauf wird die ursprüngliche Abfrage des Benutzers zunächst vom BGE-Reasoner-Rewriter reformuliert. Dann werden von BGE-Reasoner-Embed und BM25 parallel Kandidaten-Dokumente abgerufen. Schließlich werden diese von BGE-Reasoner-Reranker genau sortiert. Das System integriert die Ergebnisse aus mehreren Quellen und gibt die endgültige Sortierung aus, um den ganzheitlichen Inferenz-Retrieval-Prozess abzuschließen. Das vollständige Framework ist in der folgenden Abbildung dargestellt:

Abbildung 4. Schematische Darstellung des ganzheitlichen Retrieval-Prozesses des BGE-Reasoner.

Daten-Synthese. Im Gegensatz zu herkömmlichen offenen Fragen-Antwort-Szenarien ist der Trainingsdatensatz für ressourcenintensives Informationsretrieval sehr begrenzt. Um dieses Problem zu lösen, hat das Forschungsteam des Zhipu AI Institute und seiner Partner auf eine Daten-Synthese-Strategie basierend auf Large Language Modellen zurückgegriffen. Genauer gesagt, basierend auf realen wissensintensiven Korpora wurden hochwertige, ressourcenintensive Abfragen für bestimmte Szenarien synthetisiert. Dann wurde mit der starken Verständnisfähigkeit von Large Language Modellen für jede Abfrage ein hochwertiges positives und negatives Beispiel erstellt. Schließlich wurde ein hochwertiger Trainingsdatensatz für ressourcenintensives Retrieval erstellt, der mehrere Bereiche wie Mathematik und Code abdeckt, um das Training der verschiedenen Module zu unterstützen.

Abfragesverständnis. Im Abfragesverständnis-Modul haben die Forscher auf Grundlage der synthetisierten Daten mit einem Lehrer-Modell mit starker Inferenzfähigkeit mehrere Inferenzpfade generiert und mit einer Ablehnungssampling-Strategie hochwertige Ergebnisse ausgewählt, um Trainingsbeispiele zu erstellen. Anschließend wurde das Qwen2.5-7B-Instruct-Modell mit diesen Trainingsdaten feinabgestimmt, um seine Fähigkeit bei Abfragesverständnis und -reformulierung erheblich zu verbessern. Am Ende wurde der BGE-Reasoner-Rewriter erhalten.

Vektormodell. Das integrierte Vektormodell BGE-Reasoner-Embed wurde auf Grundlage des Qwen3-8B-Basis-Modells feinabgestimmt. Mit hochwertigen synthetisierten Trainingsdaten wurde die Fähigkeit des Modells bei ressourcenintensiven Retrieval-Aufgaben erheblich verbessert. Unter dem BRIGHT-Benchmark hat der BGE-Reasoner-Embed sowohl mit ursprünglichen Abfragen als auch mit GPT-4-Inferenz-Abfragen die beste Retrieval-Leistung unter den derzeitigen Vektormodellen erzielt, was die Wirksamkeit der synthetisierten Daten bestätigt.

Sortiermodell. Das integrierte Sortiermodell BGE-Reasoner-Reranker wurde auf Grundlage des Qwen3-Reihe-Basis-Modells feinabgestimmt. In Kombination mit der Definition der Relevanz im Aufgaben-Szenario kann das Modell eine feingrained Inferenz zwischen Abfrage und Kandidaten-Dokumenten durchführen, wichtige Informationsteile identifizieren und die Relevanz genau bewerten. Beim Training wurde Reinforcement Learning eingesetzt, um die Inferenzfähigkeit des Modells bei schwierigen Beispielen zu verbessern. In der Inferenzphase erhält das Modell durch Testzeit-Augmentation eine stabilere Relevanzbewertung, um die Sortierleistung weiter zu verbessern.

Abbildung 5. Schematische Darstellung des Inferenz-Prozesses des BGE-Reasoner-Reranker.

Zusammenfassung

Die hervorragende Leistung des BGE-Reasoner bestätigt die wichtige Rolle von Reinforcement Learning und synthetisierten Daten bei ressourcenintensivem Informationsretrieval und bietet eine entscheidende Unterstützung für die zukünftige Entwicklung von Agent Search.

Das Zhipu AI Institute wird weiterhin in die Forschung von Vektormodellen und Retrieval-Enhanced-Technologien investieren und die Fähigkeiten und die Allgemeingültigkeit der BGE-Modellreihe ständig verbessern. In Zukunft hoffen wir auf die Zusammenarbeit mit mehr Forschungseinrichtungen und Industrie-Partnern, um die Entwicklung von Retrieval und künstlicher Intelligenz voranzutreiben. Wir laden Forscher und Entwickler ein, sich für die BGE-Modellreihe zu interessieren und sie zu nutzen, um zusammen eine offene und florierende Open-Source-Ökosystem aufzubauen.

Dieser Artikel stammt aus dem WeChat-Account „Machine Intelligence” und wurde von 36Kr mit Genehmigung veröffentlicht.