Strukturierte Erweiterung: Neue SOTA in der Agent - Toolsuche und präzises Finden von APIs

Das Large Language Model kann die Tools nicht finden, nur weil die Dokumentation der Tools nicht geschrieben wurde.

Im Zeitalter der großen Modelle ist der Tool-Use zum Kernbestandteil der Fähigkeiten von Agenten geworden.

Von Codegenerierung bis hin zur Datenanalyse, von Webseitenabfragen bis hin zum Aufruf komplexer APIs lernt das Large Language Model (LLM) zunehmend, "Tools zu nutzen". Doch ein reales Problem wird immer deutlicher:

Tools sind wirklich schwer zu finden.

Die Forschungsarbeit des Teams von Shen Xiaoyu aus der Ningbo Dongfang Institute of Technology / Ningbo Institute of Digital Twin (Dongfang Institute of Technology) hat eine Publikation in ICLR 2026 veröffentlicht:

《Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval》

Die Publikation bringt eine direkte, aber wichtige Einschätzung hervor:

Die Engpässe bei der aktuellen Tool-Suche liegen oft nicht in der Fähigkeit des Modells, sondern in der Tool-Dokumentation.

Derzeit wurde die Publikation von ICLR 2026 akzeptiert.

Hintergrund: Die verborgenen Hindernisse bei der Tool-Suche

Mit der Ausweitung der Anzahl von APIs auf Tausende oder sogar Zehntausende wird die Tool-Suche allmählich zu einem entscheidenden Vorabschritt in Tool-Use-Systemen: Das Modell muss zunächst das passende Tool in der riesigen Tool-Sammlung finden, bevor es den Aufruf und die Ausführung durchführen kann.

In den letzten Jahren hat eine Reihe von Benchmarks (wie ToolBench, ToolRet usw.) die Entwicklung der relevanten Modelle vorangetrieben. Dennoch besteht in der praktischen Anwendung ein grundlegendes, aber lange Zeit vernachlässigtes Problem: Die Qualität der Tool-Dokumentationen ist oft unterschiedlich. Die Beschreibungen vieler Tools weisen Probleme wie unvereinheitlichte Strukturen und unvollständige Beschreibungen auf, und die Granularität der Funktionsbeschreibungen verschiedener APIs variiert stark. Gleichzeitig werden Benutzerabfragen normalerweise in natürlicher Sprache formuliert, um konkrete Aufgabenanforderungen auszudrücken, während die Tool-Dokumentationen meist in kurzen technischen Beschreibungen oder Funktionserklärungen vorliegen. Zwischen diesen beiden gibt es oft eine deutliche semantische Kluft.

Das Problem liegt daher nicht vollständig darin, ob das Modell die Tools verstehen kann, sondern darin, dass die aktuellen Tool-Dokumentationen eine strukturierte, durchsuchbare und mit der Benutzerabfrage semantisch übereinstimmende Darstellung fehlen. In einer solchen Situation ist es selbst für leistungsstarke Suchmodelle schwierig, stabil das richtige Tool zu finden.

Der Kerngedanke: Zunächst die Dokumentation optimieren, dann das Modell trainieren

Diese Arbeit schlägt eine scheinbar einfache, aber systematische Lösung vor:

Führen Sie eine strukturelle Erweiterung (document expansion) der Tool-Dokumentation durch und trainieren und evaluieren Sie dann auf der Grundlage der erweiterten Dokumentation.

Genauer gesagt werden durch die strukturelle Erweiterung (document expansion) der Tool-Dokumentation die ursprünglich verstreuten und kurzen API-Beschreibungen zu vollständigeren, durchsuchbaren semantischen Informationen ergänzt. Anschließend wird auf der Grundlage der erweiterten Dokumentation das Trainingsdatenset neu aufgebaut und das Modell trainiert.

Im Vergleich zur direkten Verbesserung der Modellstruktur geht diese Methode von der Qualität der Daten und der Dokumentation aus und verringert systematisch die semantische Kluft zwischen der Benutzerabfrage und der Tool-Beschreibung.

Die Publikation hat drei Schlüsselkomponenten aufgebaut:

1. TOOL-REX: Eine erweiterte Tool-Suchbasis

Auf der Grundlage der ursprünglichen ToolRet-Basis führt die Publikation das strukturierte tool_profile-Feld ein, um die Tool-Dokumentation systematisch zu erweitern. Die neu hinzugefügten Informationen umfassen: function (die Kernfunktion des Tools), tags (Schlüsselwörter, die die Fähigkeiten des Tools beschreiben), when_to_use (Anwendungsfälle und Aufgabenarten), limitation (Nutzungsbeschränkungen oder Randbedingungen).

Diese Felder werden durch eine kostengünstige automatisierte Dokumentenerweiterungspipeline erstellt. Genauer gesagt wird zunächst Qwen3-32B verwendet, um die ursprüngliche Tool-Dokumentation strukturell zu erweitern. Die ursprünglich verstreuten Funktionsbeschreibungen, Nutzungsbedingungen und Einschränkungsinformationen in der Dokumentation werden in eine einheitliche tool_profile-Struktur zusammengefasst. Der Erweiterungsprozess basiert streng auf der ursprünglichen Dokumentation, und alle generierten Inhalte müssen in der Originaldokumentation semantische Unterstützung finden.

Anschließend verwendet das System LLaMA-3.1-70B, um die semantische Konsistenz der generierten Ergebnisse zu überprüfen, um zu prüfen, ob die erweiterten Felder der ursprünglichen Dokumentation treu sind, und führt eine Regelnprüfung durch, um sicherzustellen, dass die Ausgabe-Struktur gültig und nicht leer ist. Für eine kleine Anzahl von Stichproben, die die Prüfung nicht bestanden haben, wird ein stärkeres Modell (wie GPT-4o) verwendet, um die Neugenerierung und Korrektur durchzuführen. Schließlich wird die Echtheit und Konsistenz der erweiterten Dokumentation durch eine Stichprobenprüfung manuell überprüft, um sicherzustellen, dass der gesamte Erweiterungsprozess sowohl automatisiert als auch zuverlässig ist.

Durch diesen Prozess der "LLM-Erweiterung → LLM-Prüfung → Neugenerierung und Korrektur → manuelle Stichprobenprüfung" wird die ursprüngliche Tool-Dokumentation systematisch zu einer strukturierten Tool-Beschreibung ergänzt, wodurch die Semantik der Dokumentation vollständiger wird und gleichzeitig die Treue zur ursprünglichen Tool-Information gewährleistet bleibt.

2. Ein umfangreicher Trainingskorpus

Auf der Grundlage einer kostengünstigen automatisierten Datenaufbau-Pipeline hat die Publikation weiterhin umfangreiche Trainingsdaten für die Tool-Suche generiert, einschließlich:

50.000 Embedding-Trainingsstichproben

200.000 Reranker-Trainingsstichproben

Alle diese Daten werden auf der Grundlage der strukturell erweiterten Dokumentation aufgebaut und bilden einen der derzeit umfangreichsten strukturierten Trainingskorpora für die Tool-Suche, der eine reichhaltigere und semantisch übereinstimmende Datenbasis für das nachfolgende Modelltraining bietet.

3. Zwei spezielle Modelle

Auf der Grundlage der obigen Daten hat die Publikation zwei Modelle trainiert, die speziell für die Tool-Such-Szenarien entwickelt wurden, um die Lücke im Bereich der fehlenden speziellen Modelle zu schließen:

Tool-Embed: Ein Embedding-Modell für die dichte Suche (dense retrieval), das für die effiziente Rückrufung in einer umfangreichen Tool-Bibliothek verwendet wird

Tool-Rank: Ein LLM-Reranker auf der Grundlage eines Large Language Models, der für die feine Sortierung in der Kandidaten-Tool-Sammlung verwendet wird

Durch die Kombination aus "strukturierter Dokumentation + umfangreichen Daten + speziellen Modellen" hat diese Arbeit eine vollständige Lösung für die Tool-Suche aufgebaut.

Ergebnisse: Einfache Erweiterung, deutliche Verbesserung

Experimente auf den ToolRet- und der neu aufgebauten TOOL-REX-Basis zeigen, dass bereits durch die strukturelle Erweiterung der Tool-Dokumentation eine stabile und deutliche Leistungssteigerung erzielt werden kann.

Zunächst kann die Dokumentenerweiterung selbst die Suchergebnisse deutlich verbessern. Bei der gleichen Modellstruktur verbessert sich die Suchleistung bereits deutlich, wenn nur die erweiterte Tool-Dokumentation verwendet wird. Dies zeigt, dass die Qualität der Dokumentation einen direkten Einfluss auf die Tool-Suche hat.

Auf dieser Grundlage erreichen die beiden speziellen Modelle Tool-Embed und Tool-Rank, die in der Publikation trainiert wurden, auf mehreren Bewertungsaufgaben neue State-of-the-Art-Ergebnisse. Nicht nur die Gesamtindikatoren verbessern sich deutlich, sondern auch in der Analyse konkreter Fälle kann man eine noch anschaulichere Verbesserung sehen: Die richtigen Tools, die ursprünglich außerhalb der Top 10 der Kandidatenliste lagen, können neu gefunden und an eine höhere Position in der Liste gehoben werden.

Diese Verbesserungen stammen nicht aus einem komplexeren Inferenzprozess und hängen auch nicht von einem größeren Modell ab, sondern von einer vollständigeren und strukturierteren semantischen Darstellung.

Tiefere Erkenntnisse

Die Publikation analysiert weiterhin den Beitrag verschiedener strukturierter Felder zur Suchleistung und stellt fest, dass verschiedene Informationen in der Suchabfolge unterschiedliche Funktionen erfüllen.

Insbesondere haben Felder wie function und tags den größten Einfluss auf die dichte Suche (dense retrieval). Sie bieten dem Modell eine klarere funktionale Semantik und machen die Darstellung der Tools im Vektorraum deutlicher. Die Szenariobeschreibungen wie when_to_use spielen dagegen in der Reranking-Phase eine wichtigere Rolle und helfen dem Modell zu beurteilen, ob ein Tool wirklich den konkreten Aufgabenanforderungen entspricht.

Zusätzlich kann die erweiterte Dokumentation nicht nur die Effektivität in der Trainingsphase verbessern, sondern auch eine stabilere Suchleistung in der Bewertungsphase erzielen und die semantischen Übereinstimmungsfehler aufgrund unvollständiger Beschreibungen reduzieren.

Diese Analysen zeigen gemeinsam:

Die Qualität der Dokumentation ist selbst ein wichtiger Bestandteil des Suchsystems.

Zusammenfassung

Wenn "Modellverbesserung" zur Standardrichtung wird, gibt diese Studie eine einfache, aber effektive Antwort:

Bei der Tool-Suche verbessert die Verbesserung der Qualität der Dokumentation oft die Suchergebnisse direkter als die Erhöhung der Modellkomplexität.

Better documentation → Better retrieval.

Titel der Publikation: Tools are under-documented: Simple Document Expansion Boosts Tool Retrieval

Erste Autoren: Lu Xuan, Huang Haohang

Correspondierender Autor: Shen Xiaoyu (Ningbo Dongfang Institute of Technology)

arxiv: https://arxiv.org/abs/2510.22670

github: https://github.com/EIT-NLP/Tool-REX

Autoreneinführung: Die ersten Autoren Lu Xuan und Huang Haohang sind jeweils Doktoranden (gemeinsam gefördert von der Ningbo Dongfang Institute of Technology und der Shanghai Jiao Tong University) und Praktikanten des Teams von Shen Xiaoyu aus der Ningbo Dongfang Institute of Technology / Ningbo Institute of Digital Twin (Dongfang Institute of Technology). Ihre Forschungsrichtungen sind Information Retrieval und Effiziente Inferenz. Sie haben mehrere Publikationen in Top-Konferenzen wie ICLR, CVPR und EMNLP veröffentlicht. Weitere Forschungsergebnisse finden Sie auf der Homepage des Labors: https://idt.eitech.edu.cn/nlp/#/

Dieser Artikel stammt aus dem WeChat-Account „Quantum Bit“, Autor: EIT-NLP-Team. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Strukturierte Erweiterung gewinnt neue SOTA in der Agent-Toolsuche und findet APIs präzise