7B besiegt O3 und GPT - 5: Medizinisches KI - Agentenmodell lernt "wo und wie man schaut"

Der medizinische KI-Agent hat einen entscheidenden Wendepunkt erreicht.

Medizinische KI kann Erklärungen schreiben, aber das bedeutet nicht, dass sie tatsächlich die entscheidenden Beweise "sieht".

In der Vergangenheit haben die meisten medizinischen multimodalen Modelle eine Bildaufnahme oder ein Video in visuelle Merkmale codiert und dann ein großes Modell dazu gebracht, Antworten und Erklärungen zu generieren.

Das Problem besteht jedoch darin, dass ein winziger Herd, eine Grenzänderung oder eine wenige Sekunden dauernde chirurgische Bewegung oft darüber entscheiden, ob die Antwort zutrifft oder nicht.

Wenn das Modell die visuelle Kontextinformation "passiv empfängt", besteht die Gefahr, dass es die falsche Region ansieht oder Herde übersieht.

Um dieses Problem zu lösen, hat das Team von LeapQuest der Shanghai Chuangzhi Academy gemeinsam mit Zhejiang University, Shanghai Jiao Tong University und Fudan University zwei Aufsätze eingereicht, die von ICML 2026 akzeptiert wurden. Sie haben erstmals das Paradigma von Think with Images/Think with Videos auf das Gebiet der medizinischen KI angewendet:

Das Modell generiert nicht mehr einfach nur Erklärungen nach dem Betrachten von Bildern oder Videos, sondern ruft während des Inferenzprozesses aktiv visuelle Werkzeuge auf, um die entscheidenden Regionen oder Momente erneut zu betrachten und seine Urteile anhand neuer Beweise zu korrigieren.

Das bedeutet, dass das Sehen nicht mehr nur eine Eingabe ist, sondern dass die visuellen Beweise selbst Teil des Denkprozesses des Modells werden.

Die Kernbegriffe der beiden Arbeiten lauten wie folgt:

Die beiden Arbeiten stellen keine isolierten Modellverbesserungen dar, sondern schlagen gemeinsam ein neues Paradigma für die medizinische KI vor:

Visuelle Beweise sollen in den mittleren Denkprozess des Modells einfließen, und die "Erklärung" soll von einer nachträglichen Sprachgenerierung zu einer Beweisprüfung im Inferenzprozess werden.

△

Es geht nicht darum, bessere "Erklärungen zu schreiben", sondern darum, "mit visuellen Beweisen zu denken"

Die bisher am häufigsten verwendete Methode in der medizinischen KI bestand darin, eine Bildaufnahme oder ein Video in visuelle Merkmale zu codieren und dann ein großes Modell dazu zu bringen, Antworten und Erklärungen zu generieren.

Das Problem ist, dass eine scheinbar vollständige Erklärung nicht bedeutet, dass das Modell die entscheidenden Beweise tatsächlich gesehen hat. Insbesondere im medizinischen Bereich können ein winziger Herd, eine Grenzänderung oder eine wenige Sekunden dauernde chirurgische Bewegung oft darüber entscheiden, ob die Antwort zutrifft oder nicht.

Ophiuchus und MedScope haben dieses Problem einen Schritt weiter vorangetrieben: Das multimodale Modell "empfängt" die visuelle Kontextinformation nicht mehr nur "passiv", sondern entscheidet während des Inferenzprozesses aktiv, ob weitere Beweise benötigt werden, wohin es schauen sollte und welchen Abschnitt es zurücksehen sollte, und nimmt die Beobachtungsergebnisse der Werkzeuge in die weitere Inferenz auf.

Dies ist das erstmals in systematischer Weise im Bereich der medizinischen KI vorgeschlagene Paradigma von "think with images/think with videos": Das Sehen ist nicht mehr nur eine Eingabe, sondern die visuellen Beweise selbst werden Teil des Denkprozesses des Modells.

△

Think with Images: Lassen Sie das Modell beim Bilddiagnose "noch einmal schauen"

Der Ansatz von Ophiuchus ist sehr direkt: Obwohl die bestehenden medizinischen multimodalen Großmodelle schrittweise Inferenzen schreiben können, neigen sie dennoch dazu, die falsche Region anzusehen, Herde zu übersehen oder normale Strukturen für abnormal zu halten, wenn es um Aufgaben geht, die feingranulare visuelle Beweise erfordern.

Dies ist nicht einfach ein Mangel an Sprachfähigkeiten, sondern ein Mangel an visuellen Interaktionsmechanismen.

Daher hat Ophiuchus das Großmodell in einen visuellen Agenten umgewandelt, der mit medizinischen Bildverarbeitungswerkzeugen zusammenarbeiten kann.

Es kann entscheiden, ob es externe visuelle Werkzeuge aufrufen soll, basierend auf dem aktuellen Inferenzzustand: Es verwendet SAM2 für die feine Segmentierung, BiomedParse zur Lokalisierung medizinischer Strukturen anhand von Textangaben und Zoom-in, um die entscheidenden Regionen zu vergrößern.

Die Ausgabe der Werkzeuge ist kein isoliertes Ergebnis, sondern wird in Form von Beobachtungen in die Inferenzkette zurückgeführt, um die nächste Entscheidung zu treiben.

Das Wichtigste ist, dass Ophiuchus die Werkzeuge nicht einfach "extern" an das Modell anhängt, sondern dass die Werkzeuge Teil der Inferenzkette werden.

Das Modell muss lernen, wann es die Werkzeuge aufrufen soll, welches Werkzeug auszuwählen ist, wie es die Werkzeugausgabe interpretieren soll und wie es die Strategie korrigieren soll, wenn die Werkzeugergebnisse unzuverlässig sind.

Dadurch entwickelt sich das Modell von "Werkzeuge aufrufen können" zu "mit Werkzeugen denken können".

△

Der Wert von Ophiuchus liegt nicht nur darin, dass das medizinische Großmodell einige zusätzliche visuelle Werkzeuge erhält, sondern dass das Modell lernt, während der Diagnose aktiv zu entscheiden, wohin es schauen soll, wie es schauen soll und wie es seine Urteile nach der Beobachtung korrigieren soll.

Von geschlossenem SOTA zu medizinischem Agent: Ophiuchus beweist mit seinen Ergebnissen, dass "genauer hinschauen" der Schlüssel ist

Bei gleicher Konfiguration externer Werkzeuge hat Ophiuchus - 7B auf 8 VQA-Referenzdatenätzen einen Durchschnittswert von 68,0 erzielt, was höher ist als 62,2 von OpenAI - o3, 61,8 von Gemini 2.5 Pro und 59,9 von GPT - 5.

Bei der Bewertung der Genauigkeit der Werkzeugnutzung hat Ophiuchus eine durchschnittliche Genauigkeit des Werkzeugaufrufs von 97,9% erreicht.

Die Bedeutung hinter diesen Ergebnissen ist wichtiger als "Erster in einer bestimmten Rangliste":

Wenn die Lösung eines Problems wirklich von lokalen Strukturen, Herdgrenzen und zellulären Beweisen abhängt, ist die Größe des Modells oder die Sprachinferenz nicht der einzige Engpass.

Die medizinische KI benötigt einen Mechanismus, der es ermöglicht, dass visuelle Beweise kontinuierlich in den Inferenzprozess einfließen.

Think with Videos: Vom "Denken mit Bildern" zum "Zurückschauen auf die entscheidenden Momente"

Wenn Ophiuchus das Problem der lokalen Beweise in medizinischen Bildern löst, erweitert MedScope dieses Paradigma auf die schwierigere Aufgabe von langen Videos.

Die Herausforderung bei langen klinischen Videos besteht darin, dass die entscheidenden Beweise nicht nur fein sind, sondern auch spärlich verteilt; es ist nicht nur wichtig, den richtigen Inhalt zu sehen, sondern auch den richtigen Zeitpunkt.

Eine chirurgische Bewegung, eine Änderung des Endoskopaussichtsfelds oder der Moment, in dem ein Instrument eintritt oder austritt, kann nur wenige Sekunden dauern, aber entscheidet darüber, ob das Modell den klinischen Prozess wirklich versteht.

Das von MedScope vorgeschlagene "think with videos" Paradigma besteht nicht darin, dass das Modell das gesamte Video auf einmal in einen Kontext komprimiert, sondern es simuliert die Beobachtungsmethode eines klinischen Arztes:

Zunächst wird ein globaler Überblick erstellt, dann wird zu den verdächtigen Zeitfenstern zurückgekehrt, crop_video wird verwendet, um Segmente auszuschneiden, get_frame wird verwendet, um die entscheidenden Einzelbilder zu erhalten, und schließlich werden diese lokalen Beobachtungsergebnisse in die Antwort integriert.

△

Das macht den Inferenzprozess von MedScope von Natur aus überprüfbar: Um zu verstehen, warum das Modell diese Antwort gibt, kann man nicht nur auf das, was es "sagt", sondern auch auf das, welchen Videosegment es zurückgesehen hat, welche Einzelbilder es gefunden hat und ob diese Beweise die Schlussfolgerung stützen.

△

ClinVideoSuite und GA - GRPO: Lassen Sie das Videomodell "Beweise suchen", anstatt einfach "die Antwort zu erraten"

Um das Modell dazu zu bringen, dieses Verhalten wirklich zu lernen, hat MedScope ClinVideoSuite erstellt: Es enthält 635.000 zeitstempelintensive Beschriftungen, 254.000 beweisbezogene Fragen und Antworten, 34.000 visuelle CoT - Trajektorien sowie eine interaktive Trainingsumgebung für die verstärkte Lernweise.

Die Daten sind keine einfachen Fragen und Antworten, sondern es wird betont, dass die Fragen auf visuellen Beweisen in lokalen Zeitfenstern basieren müssen.

Beim Training verwendet MedScope einen Drei - Phasen - Ansatz:

In der ersten Phase wird eine klinische Inferenz - Einwärmung durchgeführt, um medizinische Semantik und das Verständnis von langen Videos zu lernen;

In der zweiten Phase wird das Modell mit visual - CoT cold - start SFT gelehrt, wann weitere Beweise benötigt werden und wie es die Werkzeuge aufrufen soll;

In der dritten Phase wird die zeitliche Ausrichtung der Werkzeugnutzung durch GA - GRPO verstärkt. Durch grounding - aware reward und evidence - modulated advantage wird das Modell dazu gebracht, eher nach visuellen Segmenten zu suchen, die die Schlussfolgerung tatsächlich stützen.

△

Bei den Bewertungen wie SVU - 31K und ClinVideo - Eval hat MedScope in der mehrgranularen Videoverständnis, feingranularen zeitlichen Inferenz und grounded VQA den SOTA - Stand unter den Open - Source - Modellen erreicht.

Die Publikation zeigt auch, dass das Entfernen des evidence reward die Lokalisierungsqualität erheblich verringert, z. B. fällt R@0.5 von 40,1 auf 33,2 und mIoU von 4,3 auf 38,8. Dies zeigt, dass die Antwort - Ebene - Überwachung nicht ausreicht, um das Modell zu lehren, zuverlässig Beweise auszuwählen.

Eine echte Paradigmenänderung: Das Sehen wird von "Eingabe" zu "Denkprozess"

Betrachtet man die beiden Arbeiten zusammen, so ist das Wichtigste nicht, dass Ophiuchus mit