Übersteigen Sie GPT - 5 und Gemini: Deep Research von hochrangigen AI - Finanzanalysten der Renmin-Universität - Datenrecherche, Diagrammerstellung und Forschungsberichtverfassung mit ausgezeichneter Kompetenz

Überwinden der drei großen Herausforderungen in der Finanz-AI

Ein AI-Finanzanalyst ist da, der automatisch Daten recherchiert, Analysen schreibt und professionelle Finanzdiagramme erstellt!

Kürzlich hat die Gaoling School of Artificial Intelligence der Renmin University of China ein multimodales System zur Erstellung von Finanzforschungberichten für reale Finanzinvestitions- und Forschungszenarien vorgestellt – Yulan-FinSight.

Angesichts der Forschungsanforderungen der Benutzer kann FinSight Aufgaben automatisch aufteilen, heterogene Daten aus mehreren Quellen, einschließlich Aktienkursen, Finanzberichten und Nachrichten, aus dem Internet und Finanzdatenbanken sammeln und einen mehrtausendwörtigen Bericht mit Text und Bildern mit Kapiteln wie "Entwicklungsgeschichte", "Kerngeschäftsarchitektur" und "Wettbewerbssituation" erstellen.

△

Das System hat auch in der Challenge-Gruppe des AFAC 2025 Financial Intelligence Innovation Competition unter 1289 Teams gewonnen und in mehreren Tests GPT-5 w/Search, OpenAI Deep Research und Gemini-2.5-Pro Deep Research übertroffen, was seine Fähigkeit zur Finanzanalyse und -schriftstellung nahe am menschlichen Experten zeigt.

Im Folgenden geht es in die Details.

Warum schafft es allgemeines AI nicht, gute Finanzforschungberichte zu erstellen?

Nach Ansicht der Forscher liegt das Problem nicht darin, dass das Modell "nicht schreiben kann", sondern darin, dass die Erstellung von Finanzforschungberichten eine hochgradig strukturierte, logikstarke und stark visualisierte Expertarbeit ist, die mehrere Prozesse umfasst.

Im Vergleich zu allgemeinen Aufgaben wie Fragen und Antworten, Suche oder Textgenerierung stellt die Finanzinvestitionsforschung höhere Anforderungen an die Fähigkeit zur Datenintegration, die Analysentiefe und die Form der Darstellung.

Konkret stehen bestehende allgemeine AI-Systeme hauptsächlich vor drei Herausforderungen:

1. Trennung von Branchenwissen und Daten:

Allgemeine Suchsysteme haben Schwierigkeiten, strukturierte Finanzdaten wie Aktienkurse und Finanzberichte effektiv mit unstrukturierten Informationen wie Nachrichten und Ankündigungen zu integrieren. Aufgrund des Mangels an einer einheitlichen Datenrepräsentation und einem Mechanismus für die kollaborative Analyse mehrerer Agenten können die Systeme oft nur oberflächlich mit einer einzigen Informationsquelle umgehen und haben Schwierigkeiten, systematische Finanzeinblicke zu gewinnen.

2. Fehlende Fähigkeit zur professionellen Visualisierung:

Finanzforschungberichte sind stark auf Diagramme angewiesen, um hochdichte Informationen zu vermitteln. Die meisten bestehenden Modelle können jedoch nur statische Bilder oder einfache Liniendiagramme generieren und haben Schwierigkeiten, professionelle Finanzvisualisierungsanforderungen wie mehrdimensionale Vergleiche und Ereignisannotationen zu unterstützen. Zwischen Text und Bild fehlt auch eine strenge Datenkonsistenzbindung. Beispielsweise stimmen Text und Bild nicht überein oder widersprechen sich.

3. Fehlende Fähigkeit zur "iterativen Forschung":

Die meisten Systeme verwenden immer noch einen festen "Suche zuerst, dann Generierung"-Prozess. Sobald der Forschungspfad festgelegt ist, ist eine Anpassung schwierig.

Im Gegensatz dazu passen menschliche Analysten ihre Forschungsschwerpunkte oft anhand der Zwischenergebnisse an. Diese Fähigkeit zur dynamischen Anpassung der Strategie auf der Grundlage von Zwischenergebnissen fehlt jedoch in den meisten bestehenden allgemeinen AI-Systemen.

Der Kerngedanke von FinSight: Wie ein Finanzanalyst arbeiten

Um diese Einschränkungen zu überwinden, hat FinSight nicht einfach "mehr Modelle gestapelt", sondern hat mit dem kognitiven Prozess begonnen, die Arbeitsweise menschlicher Finanzexperten zu simulieren und drei Schlüsseltechnologieinnovationen vorgeschlagen.

Kernarchitektur: Code-gesteuerte Agentenarchitektur mit variabler Arbeitsspeicher

△

FinSight verwendet auf der untersten Ebene eine neue, als Code-Driven Variable-Memory (CAVM) bezeichnete Multi-Agentenarchitektur.

Wie in der Abbildung gezeigt, ist die bestehende Agentenarchitektur im Wesentlichen immer noch an das Paradigma des dialogbasierten Arbeitsspeichers gebunden, bei dem der Verlauf von Nachrichten oder Aufgaben als Zustandsträger dient. Dieses Paradigma zeigt bei zunehmender Aufgabenkomplexität und Prozesslänge strukturelle Engpässe in Bezug auf die Ausdrucksfähigkeit und die Steuerbarkeit auf.

CAVM rekonstruiert dieses Paradigma in einen codegesteuerten variablen Arbeitsspeicher. Das System verwendet nicht mehr natürliche Sprachdialoge als Kollaborationsmedium, sondern bildet Daten, Tools und Zwischenergebnisse der Inferenz einheitlich in programmierbare Variablen ab. Mehrere Code Agenten führen die kollaborative Inferenz über einen gemeinsamen Variablenraum durch.

Indem es das "Gedächtnis" von einer Nachrichtenfolge zu einer handhabbaren Variablenstruktur verbessert, ermöglicht CAVM die explizite Modellierung, kontinuierliche Anpassung und modulare Kombination komplexer Aufgaben und bietet die notwendige strukturelle Unterstützung für langfristige, mehrstufige Expertinferenzen.

△

In diesem Design werden Daten, Tools und Agenten einheitlich in einen programmierbaren Variablenraum abstrahiert:

Finanzberichte, Marktkurse und Nachrichtentexte werden als Datenvariablen behandelt.

Fähigkeiten wie Suche, Analyse und Grafikerstellung werden als Toolvariablen behandelt.

Agenten mit verschiedenen Funktionen werden über Python-Code geplant und kooperieren miteinander.

Dieses "Code als Mittelpunkt" Design ermöglicht es dem System, große Mengen heterogener Finanzdaten effizient zu verarbeiten und komplexe mehrstufige Aufgaben zu unterstützen.

Visuelle Revolution: Iterativer Mechanismus zur visuellen Verbesserung

Angesichts der allgemein vorhandenen Probleme bei der Professionalität und Zuverlässigkeit der Generierung von Finanzdiagrammen haben die Forscher einen Iterativen Mechanismus zur visuellen Verbesserung vorgeschlagen, der den Prozess der Grafikerstellung als ein iterativ optimierbares visuelles Generierungsproblem modelliert.

△

Dieser Mechanismus verwendet das Actor–Critic-Kollaborationsparadigma:

Ein großes Sprachmodell für Texte fungiert als Actor und ist für die Generierung von kompilierbarem und ausführbarem Grafikcode zuständig, um seine Stärken bei der Codegenerierung und logischen Steuerung voll auszuschöpfen. Ein visuelles Sprachmodell fungiert als Critic und prüft das Bild direkt auf visueller Ebene, um Feedback in Bezug auf die Datenganzheit und die allgemeine Ästhetik zu geben.

Der Schlüssel dieses Designs liegt in der Komplementarität der Stärken: Sprachmodelle sind gut darin, zu kodieren und zu denken, haben aber Schwierigkeiten, echte visuelle Rückmeldungen zu erhalten. Visuelle Modelle haben eine starke Wahrnehmungs- und Urteilsfähigkeit, sind aber in der Generierung komplexen Codes eingeschränkt.

Indem die beiden entkoppelt und in einer geschlossenen Schleife platziert werden, optimiert das System sich kontinuierlich durch mehrere Runden von "Generierung - Bewertung - Korrektur" während der Testzeit, so dass die Qualität der Grafiken mit der Anzahl der Iterationen natürlich verbessert wird.

△

Schließlich kann das System stabile professionelle Finanzdiagramme mit doppelter Achsenausrichtung, Ereignisannotationen und komplexen Strukturen generieren. Wie in der Abbildung gezeigt, wird das ursprünglich einmalig generierte statische Ergebnis in einen Testzeit-Skalierungsprozess umgewandelt.

Zweistufiges Schreibrahmenwerk: Zuerst analysieren, dann schreiben

Beim Schreiben versucht FinSight nicht, einen kompletten langen Forschungsbericht auf einmal zu generieren, sondern rekonstruiert das Schreiben von Forschungsberichten in einen zweistufigen Prozess von "Analyse - Integration".

△

Zuerst generiert das System eine Reihe von "Analyseketten" (Chain-of-Analysis, CoA): Jede Analysekette entspricht einer klar definierten Teilaufgabe (z. B. Unternehmensgeschichte, Finanzanalyse, Wettbewerberanalyse, Risikofaktoren usw.) und führt lokal die Sammlung von Beweisen, die Schlüsselurteile und die Extraktion von Kernfolgerungen durch.

Dieser Schritt ist notwendig, weil ein Forschungsbericht oft aus mehreren miteinander verknüpften Teilproblemen besteht. Wenn man direkt einen langen Text end-to-end generiert, ist es schwierig, sowohl die Genauigkeit als auch die Tiefe der Analyse zu gewährleisten.

Anschließend verwendet das System diese CoAs als "Gerüst", organisiert und ordnet die verstreuten Einblicke auf globaler Ebene, erstellt einen Gliederungsentwurf und schreibt schrittweise Kapitel für Kapitel: Während die Kapitelstruktur und die Argumentationskette kohärent bleiben, werden die Textbeschreibung, die Datenreferenzierung und die Grafikpräsentation ausgerichtet, um schließlich einen logisch kohärenten langen Bericht zu generieren.

Diese "Zuerst analysieren, dann schreiben" Strategie vermeidet effektiv das Problem der losen Logik, das bei langen Texten häufig auftritt, und sorgt dafür, dass der Bericht auch bei einer Länge von über 20.000 Wörtern eine klare Struktur und eine tiefe Argumentation behält.

Um die Tatsachengenauigkeit und die Übereinstimmung zwischen Text und Bild in langen Forschungsberichten weiter zu gewährleisten, haben die Autoren in der Schreibphase auch einen Generativen Suchmechanismus eingeführt.

Im Unterschied zur herkömmlichen Vorgehensweise der Nachbearbeitung "Suche zuerst, dann Generierung" integriert diese Methode den Suchprozess in das Schreiben selbst: Wenn das Modell einen bestimmten Absatz generiert, generiert es dynamisch Indizes für Daten und Bilder basierend auf der aktuellen Analysekette und dem Schreibkontext und fügt sie dann über die Nachbearbeitung einheitlich ein.

So wird die Genauigkeit der Referenzen und die Übereinstimmung zwischen Text und Bild maximal gewährleistet.

△

Auf diese Weise kann FinSight während des Schreibens eines langen Textes kontinuierlich die Textbeschreibung, die Datenquelle und das visuelle Ergebnis ausrichten, vermeidet die häufigen Probleme der Tatsachenfehleinschätzung und der Entkopplung zwischen Text und Bild und behält so auch bei zunehmender Berichtslänge die Stabilität und Konsistenz der gesamten Logik und der Beweisbasis.

Experimentelle Ergebnisse: Übertrifft bestehende Deep Research-Systeme umfassend

Die Autoren haben FinSight anhand qualitativ hochwertiger Tests, die sowohl Unternehmensforschung als auch Branchenforschung umfassen, systematisch evaluiert.