Die Gewinnwahrscheinlichkeit nähert sich den menschlichen Meistern: Dieses Agent-System enthüllt die "mysteriösen Wahrheiten" des chinesischen KI

Das allgemeine Large Language Model für numerologische Tests hat gescheitert. Die Genauigkeit von Tianfu Agent liegt nahe am Top 20 der Menschen.

【Einführung】Vor einem professionellen numerologischen Fragenpool ohne Informationslecks haben die gängigen Modelle wie Claude und GPT alle «abgesackt». Ein System namens Tianfu Agent hingegen hat die Genauigkeit auf 50 % gesteigert und nähert sich damit dem durchschnittlichen Wert von 53,5 % der Top-20-Human-Spieler der aktuellen Numerologie-Wettbewerbs an.

Was passiert, wenn man die aktuell fortschrittlichsten generischen Grossmodelle vor chinesische traditionelle numerologische Multiple-Choice-Fragen (Auswahl aus vier Optionen) stellt?

Es sei angemerkt, dass die Bewertung gegenüber den generischen Modellen bereits «nachgegeben» hat: In den Prompts aller Basismodelle werden vorberechnete Horoskopsdaten bereitgestellt, um Rechenillusionen zu vermeiden und stattdessen direkt die Inferenzfähigkeit zu prüfen.

Das Forschungs-Team von DestinyLinker hat anhand des Bewertungsdatensatzes Mingli-Bench, der auf dem offiziellen Fragenpool des Numerologie-Wettbewerbs (gehostet von HKJFMA, an dem 3069 Spieler teilnahmen) basiert, die gängigen Grossmodelle getestet. Der technische Bericht und die Testergebnisse haben auf X Millionen von Aufmerksamkeiten erhalten.

MingLi-Bench Open-Source-Repository: https://github.com/DestinyLinker/MingLi-

Bench Tianfu Agent Technischer Bericht: https://destinylinker.github.io/MingLi-Bench/

Das Ergebnis war etwas überraschend. Die Genauigkeit dieser Modelle bei diesen neuesten Multiple-Choice-Fragen aus dem Wettbewerb, bei denen fast keine Informationslecks vorliegen, schwankte einheitlich zwischen 23 % und 40 %.

Beachten Sie, dass die Zufallsrate bei Multiple-Choice-Fragen mit vier Optionen 25 % beträgt.

Um zu überprüfen, ob die Fähigkeiten der Modelle für professionelle numerologische Inferenzen ausreichen, hat das Team das System Tianfu Agent entwickelt, das ein ganzes Set von Harness-Engineering-Systemen für den chinesischen traditionellen Numerologie-Bereich implementiert –

Über 200 atomare Tools, 3 Regelfunktionsbibliotheken für verschiedene Schulen, die Zusammenarbeit mehrerer Sub-Agenten und ein Konfidenzquantifizierungsmechanismus, der den gesamten Prozess durchzieht, haben es ermöglicht, eine abgeschnittene Genauigkeit von 50 % zu erreichen, was sich dem durchschnittlichen Wert der Top-20-Human-Spieler der aktuellen Wettbewerbs angenähert hat.

Der Weg des Harness: Die Erfahrungen mit codierenden Agenten reichen noch weit nicht aus

Beim Testfall wurde das Geburtshoroskop von Elon Musk verwendet. Das Datum 30.12.1971 in der Testphase ist nicht sein tatsächliches Geburtsdatum, da er in der Südhalbkugel geboren wurde und seine Geburtszeit in Bezug auf die Solstitien und Äquinoktien umgerechnet werden muss.

Tools wie Claude Code und Cursor funktionieren in komplexen Engineering-Aufgaben gut, nicht weil das Modell an sich stärker geworden ist, sondern weil es in eine domänenspezifische Tool-Umgebung gebracht wurde, mit Datei-E/A, Terminal und Testrückmeldung.

Tianfu Agent hat dieselbe Logik in den chinesischen traditionellen Numerologie-Bereich übertragen. Bei der Inferenzkette wird eine progressiv erkennende Strategie mit der Zusammenarbeit mehrerer Sub-Agenten eingesetzt: Jeder Sub-Agent verwaltet unabhängig seine eigene Tool-Sammlung und Kontextinformation und führt die Inferenz schrittweise basierend auf der Umweltrückmeldung aus.

Dennoch reichen die Erfolgsaussichten von Coding Agenten allein noch weit nicht aus. Beispielsweise:

Neben den üblichen Abfragen zu Konflikten und Beziehungen zwischen Sternen und Palästen sowie der Berechnung der Flugwege von Palästen etc. beinhaltet der Numerologie-Bereich auch eine Vielzahl von Datenlogikberechnungen. Die Generierung dieser Berechnungen durch Grossmodelle ist nicht zuverlässig, und wenn man sie alle auf einmal an das Modell überträgt, wird der Kontext verunreinigt.
Die Regeln müssen auf der Grundlage von Erfahrungen ausgewählt werden. Es ist nicht immer besser, mehr Regeln zu verwenden, und nach der Anwendung jeder Regel kann es zu widersprüchlichen Schlussfolgerungen kommen.
Es fehlen Hilfsmittel wie «Unit-Tests» zur Verifizierung. Bei langen Inferenzketten kann es leicht zu einer Akkumulation von Abweichungen kommen.

Andere vertikale Anwendungsbereiche wie die Medizin und das Recht werden wahrscheinlich ähnliche Probleme haben.

Wie werden über 200 Tools verwaltet? Vierstufige Sichtbarkeitskontrolle

Für generische Agenten reichen ein Dutzend Tools aus. Das erste Engineering-Problem, das von über 200 Tools verursacht wird, ist nicht, «ob man es schreiben kann», sondern dass das Modell die falschen Tools auswählt.

Das Forschungs-Team hat die Tools anhand zweier Dimensionen, «LLM-Verständlichkeit» und «Ausschöpfbarkeit», in vier Stufen eingeteilt:

Automatisch injizierte Tools (verständlich + ausschöpfbar): Konzepte wie die zehn Gottheiten, Sternzeichen und Paläste ohne Mehrdeutigkeit werden automatisch in den Kontext geladen und müssen nicht vom Modell ausgewählt werden.
Bedarfsgesteuert aufgerufene Tools (verständlich + nicht ausschöpfbar): Beziehungen zwischen Elementen und die Berechnung der Flugwege von Palästen etc. können vom Modell semantisch verstanden werden, und das Modell kann die Parameter selbst bestimmen.
Übersetzte aufgerufene Tools (nicht verständlich + ausschöpfbar): Fachausdrücke, die vom Modell leicht missverstanden werden können oder die nicht allzu bekannt sind, werden über eine vordefinierte Übersetzungsschicht umbenannt und dann aufgerufen.
Ausgelöst injizierte Tools (nicht verständlich + nicht ausschöpfbar): Nur bestimmte Sub-Agenten können diese Tools aufrufen, und es werden spezifische Hintergrundwissen und Prüfmethoden bereitgestellt.

Der Kern dieses Mechanismus ist die dynamische Steuerung des sichtbaren Bereichs der Tools – in verschiedenen Inferenzphasen und für verschiedene Sub-Agenten sieht man verschiedene Tool-Sammlungen, um die Degradierung der Auswahl aufgrund von Überlastung der Optionen zu vermeiden.

Dieser Ansatz hat einen gewissen Referenzwert für die Entwicklung von Agenten in anderen vertikalen Bereichen: Wenn die Anzahl der Tools die zuverlässige Auswahlschwelle des Modells überschreitet, wird die Tool-Verwaltung selbst zu einem unabhängigen Engineering-Problem.

Wie werden die komplizierten Regeln verwendet? Auch als aufrufbare Funktionen verpacken

Generische Agenten schreiben die Regeln oft in den System-Prompt oder in Few-shot-Beispiele. Im Wesentlichen soll das Modell diese «merken und befolgen».

Im Numerologie-Bereich gibt es eine Vielzahl von Regeln (es gibt allein bei der Ziping-Mutter-Methode über hundert Regeln), die Anwendungsbedingungen sind miteinander verkoppelt, und es gibt Widersprüche zwischen verschiedenen Schulen. Die direkte Folge des Versuchs, diese Regeln zu merken und zu befolgen, ist die selektive Ignorierung und die Unkontrollierbarkeit des Inferenzpfads.

Tianfu Agent verpackt jede komplexe Regel als eine aufrufbare Funktion mit Metadaten.

Human-Experten markieren im Voraus die Anwendungsfälle, Zeiträume, Ereignistypen und Prioritäten. Innerhalb der Funktion kann das LLM nochmals aufgerufen werden. Eingabe ist der Zustand des Horoskops, Ausgabe sind die Schlussfolgerung und die Konfidenz. Die Regel wird nur in den Kontext injiziert, wenn die Prüfung bestanden wird.

Dieser Schritt verwandelt das LLM von einem «Prüfungskandidaten, der Regeln merken muss» in einen «Ingenieur, der Regeln aufruft» – die Regeln sind nicht mehr nur Text im Prompt, den das Modell sich bewusst befolgen muss, sondern ein Engineering-Baustein mit einer klaren Signatur und Auslösebedingungen.

Keine Unit-Tests? Dreistufige Unsicherheitsquantifizierung

Ein natürlicher Vorteil von codierenden Agenten ist die Möglichkeit, «Tests» als Verifizierungsmittel zu verwenden.

Nachdem der Code geschrieben wurde, wird er getestet. Wenn der Test bestanden wird, ist es eine positive Rückmeldung, und wenn er fehlschlägt, gibt es klare Fehlermeldungen.

Im Numerologie-Bereich, oder sagen wir in den meisten professionellen Bereichen, besteht keine Möglichkeit, sogenannte «Unit-Tests» durchzuführen.

Die Lösung von Tianfu Agent ist die Einführung von Unsicherheitsquantifizierung, die auf drei Ebenen eine Konfidenzbewertung vornimmt:

Tool-Ausgabeebene: Für nicht-deterministische Tools (z.B. Stärke- und Schwächebeurteilung, Glück und Unglück bei mehreren Symbolen) wird die Konfidenz von einem eingebauten Algorithmus bereitgestellt, und die Bestimmung der Bestimmtheit erfolgt direkt auf Algorithmusebene.
Sub-Agent-Ebene: Nachdem jeder Sub-Agent die Inferenz in einem einzigen theoretischen System abgeschlossen hat, bewertet das LLM selbst die Signifikanz jeder Ansicht in der Inferenzschlussfolgerung.
Ebene der Kombination von verschiedenen Schulen: Die Schlussfolgerungen verschiedener Schulen können widersprüchlich sein. Durch die Gewichtung der Konfidenz auf der Grundlage von menschlichen Erfahrungen wird eine weitere Beurteilung vorgenommen.

Dies ist keine Lösung, die «automatische Verifizierung» ersetzen kann – dies wird auch im Bericht eingestanden. Aber in Bereichen, in denen es fehlende Verifizierungsmittel gibt, ist es von Wert zu wissen, «wie unsicher man ist». Dies bietet zumindest eine quantitative Referenz für die oberste Entscheidungsebene, anstatt alle Schlussfolgerungen gleichgewichtig zu stapeln.

Wenn man die Design-Philosophie dieses Harnesses in einem Satz zusammenfassen möchte: In Tianfu Agent sind Tools nicht nur Rechenfunktionen, sondern auch Regeln, Teil-Inferenzprozesse und sogar die Sub-Agenten selbst.

Implikationen für die Implementierung von Agenten in vertikalen Bereichen

Abgesehen von der Domänenspezifität selbst bietet dieses Projekt einige Engineering-Erfahrungen, die für die Entwicklung von Agenten in vertikalen Bereichen von Referenzwert sind:

Das Tooling-Paradigma bringt in Bereichen mit «regelintensiven + spärlichen Korpora» die grössten Vorteile. Modelle im generischen Bereich haben die Regeln aus einer grossen Menge von Korpora internalisiert, und die Tool-Umgebung ist eine zusätzliche Verschönerung. Aber in vertikalen Bereichen mit sehr wenig Trainingsdaten kann die Tool-Umgebung direkt die Wissenslücken des Modells ausfüllen. Tianfu Agent hat eine um 10 Prozentpunkte höhere Genauigkeit als das stärkste generische Modell, was ein Beweis dafür ist.
Nach der Expansion der Anzahl der Tools wird die Tool-Verwaltung selbst zu einem unabhängigen Engineering-Problem. Der Ansatz der vierstufigen Klassifizierung und der dynamischen Injektion hat einen direkten Referenzwert für andere vertikale Agenten, die eine grosse Anzahl von professionellen Tools benötigen.
In Bereichen ohne automatische Verifizierung ist die Unsicherheitsquantifizierung eine pragmatische zweite beste Lösung. Codierende Agenten haben Tests, medizinische Agenten haben evidenzbasierte Leitlinien, aber in vielen Bereichen gibt es keine. Obwohl die Numerologie ein extremes Beispiel ist, ist die Rolle des Konfidenzmechanismus in solchen Fällen bemerkenswert.
«Wissen als Schnittstelle» ist in Szenarien mit hoher Regeldichte zuverlässiger als «Wissen als Prompt». Das Verschieben der Regeln aus dem Prompt in Funktionen ist ein direktes Mittel, um das Problem des «selektiven Vergessens» des Modells in langen Kontexten zu lösen.

Die Harness-Ära der codierenden Agenten ist bereits angebrochen. Tianfu Agent hat in gewissem Sinne bewiesen, dass dieser Weg nicht nur für die Programmierung gilt – in hinreichend strukturierten vertikalen Bereichen kann dasselbe Paradigma möglicherweise auch gelten.

Referenzmaterialien:

MingLi-Bench Open-Source-Repository: https://github.com/DestinyLinker/MingLi-Bench

Tianfu Agent Technischer Bericht: https://destinylinker.github.io/MingLi-Bench/

Dieser Artikel ist aus dem WeChat-Account «New Intelligence Yuan» übernommen. Autor: ASI Revelation. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die Gewinnwahrscheinlichkeit nähert sich den menschlichen Meistern, und dieses Agent-System enthüllt die "mysteriösen Wahrheiten" des chinesischen KI.

Der Weg des Harness: Die Erfahrungen mit codierenden Agenten reichen noch weit nicht aus

Wie werden über 200 Tools verwaltet? Vierstufige Sichtbarkeitskontrolle

Wie werden die komplizierten Regeln verwendet? Auch als aufrufbare Funktionen verpacken

Keine Unit-Tests? Dreistufige Unsicherheitsquantifizierung

Implikationen für die Implementierung von Agenten in vertikalen Bereichen