Googles konversationelles medizinisches System AMIE erreicht mit Gemini 1.5 in 100 Szenarien mit mehreren Arztbesuchen das Schlussfolgerungsniveau eines Allgemeinmediziners

In der virtuellen OSCE werden klinische Denkfähigkeiten auf dem Niveau eines Allgemeinmediziners demonstriert

Eine kürzlich durchgeführte Studie von Google Deepmind und Google Research basiert auf ihrem dialogorientierten medizinischen System AMIE und hat ein neues intelligentes Agentensystem auf Basis von Large Language Models (LLM) entwickelt, das für die klinische Verwaltung und die Optimierung von Arzt-Patienten-Dialogen in Szenarien mit mehreren Nachuntersuchungen geeignet ist. AMIE nutzt die Fähigkeit des Gemini-Modells, lange Kontexte zu verarbeiten. Durch die Kombination von Kontextsuche und strukturierter Inferenz stimmt seine Ausgabe mit den neuesten klinischen Praxisrichtlinien und Arzneimittelverordnungslisten überein.

Large Language Models dringen immer schneller in den Bereich der Gesundheitsversorgung ein. Ihre Anwendungen reichen von der Literaturrecherche und der Erstellung von Krankenakten bis hin zur Unterstützung bei klinischen Entscheidungen. Die unterstützende Diagnose ist derzeit einer der ausgereifteren Anwendungsbereiche: Medizintechnisch feingestellte Modelle können auf der Grundlage von Krankheitsanamnese, Symptomen und Untersuchungsergebnissen qualitativ hochwertige Differenzialdiagnosen geben. Systeme mit der Fähigkeit zu mehrfachen Dialogen können auch durch fragebasierte Interaktionen die Krankheitsanamnese ergänzen.

Aber die Diagnose ist nur der Anfang klinischer Entscheidungen. Was wirklich die Behandlungsqualität beeinflusst, sind oft die Managemententscheidungen nach der Diagnose – ob Untersuchungen erforderlich sind, wie das Therapiekonzept gewählt wird, wann die Medikation angepasst wird, wie die Nachuntersuchungen geplant werden und wie der Plan kontinuierlich an die Veränderungen des Krankheitsverlaufs angepasst wird. Diese Art von "Managementinferenz" kommt der Kernarbeit in der echten Klinik näher und stellt auch die Fähigkeit des Modells zur umfassenden Understanding von evidenzbasierten Leitlinien, klinischen Pfaden, Arzneimittelwissen und individuellen Patientenunterschieden stärker auf die Probe.

Im Vergleich zur diagnostischen Inferenz ist die Bewertung der Managementinferenz schwieriger. Diagnosefragen haben in der Regel relativ eindeutige Standardantworten, während Managemententscheidungen oft keine eindeutige Lösung haben und von medizinischen Ressourcen, Leitliniensystemen, der Zugänglichkeit von Medikamenten und der Erfahrung der Ärzte abhängen. In der medizinischen Ausbildung ist derzeit die objektive strukturierte klinische Prüfung (OSCE) die Hauptmethode zur Bewertung dieser umfassenden Fähigkeit. Sie ist jedoch auf die Interaktion mit echten Personen und die Bewertung durch Experten angewiesen und kann daher nicht direkt für die automatisierte Bewertung von Large Language Models verwendet werden.

Um diese Lücke zu schließen, hat eine kürzlich durchgeführte Studie von Google Deepmind und Google Research auf Basis ihres dialogorientierten medizinischen Systems AMIE ein neues intelligentes Agentensystem auf Basis von LLM entwickelt, das für die klinische Verwaltung und die Optimierung von Arzt-Patienten-Dialogen in Szenarien mit mehreren Nachuntersuchungen geeignet ist. AMIE nutzt die Fähigkeit des Gemini-Modells, lange Kontexte zu verarbeiten. Durch die Kombination von Kontextsuche (in-context retrieval) und strukturierter Inferenz (structured reasoning) stimmt seine Ausgabe mit den neuesten klinischen Praxisrichtlinien und Arzneimittelverordnungslisten überein.

In einer randomisierten, doppelblinden Studie mit virtuellen objektiven strukturierten klinischen Prüfungen (OSCE) verglichen die Forscher AMIE mit 21 Allgemeinmedizinärzten (PCP). Der Test umfasste 100 Szenarien mit mehreren Arztbesuchen. Die Fälle wurden unter Bezugnahme auf die britischen NICE-Leitlinien und die BMJ Best Practice-Klinikrichtlinien gestaltet. Die Ergebnisse zeigten, dass AMIE in Bezug auf die Krankheitsmanagementinferenz, die von Fachärzten bewertet wurde, nicht schlechter als die menschlichen Ärzte war; gleichzeitig erzielte AMIE in Bezug auf die Genauigkeit der Therapiekonzepte und Untersuchungsempfehlungen sowie die Einhaltung der klinischen Leitlinien und die Zuverlässigkeit der Wissensgrundlage höhere Punktzahlen als die Ärzte.

Die Ergebnisse der Studie wurden unter dem Titel "Towards Conversational AI for Disease Managemen" in der Zeitschrift Nature veröffentlicht.

Highlights der Studie:

* Die Studie erweitert die Fähigkeiten des dialogorientierten medizinischen Systems AMIE von der Einzeldiagnose auf die gesamte klinische Managementinferenz, die den longitudinalen Verlauf der Krankheit, Entscheidungen bei mehreren Arztbesuchen, Rückmeldungen zur Therapieantwort und die Arzneimittelverordnung umfasst.

* Das System nutzt die Fähigkeit von Gemini, lange Kontexte zu verarbeiten, und kombiniert die Kontextsuche mit strukturierter Inferenz, um sicherzustellen, dass die Ausgabe der Managementpläne mit autoritativen klinischen Wissensquellen wie den NICE-Leitlinien und der BMJ Best Practice übereinstimmt.

* Das System erreichte oder übertraf in mehreren Indikatoren wie der Gesamtangemessenheit des Plans, der Qualität der Therapieempfehlungen und der Genauigkeit der Untersuchungsempfehlungen das Niveau von Allgemeinmedizinärzten.

Den Artikel ansehen: https://www.nature.com/articles/s41586-026-10764-5

Datensatz: Vom Einzeldialog zum longitudinalen klinischen Szenario

Um die echten Fähigkeiten des dialogorientierten medizinischen Künstlichen Intelligenzsystems in der langfristigen Managementinferenz zu bewerten, hat das Forschungsteam ein mehrschichtiges Datensystem aufgebaut, das sowohl klinische Szenarien mit mehreren Arztbesuchen als auch evidenzbasierte Leitlinien und Arzneimittelwissen abdeckt und für das Training des Modells, die Generierung von Plänen und die standardisierte Bewertung verwendet wird.

Das Kerninstrument für die Bewertung ist ein "Datensatz mit virtuellen OSCE-Szenarien für mehrere Arztbesuche". Insgesamt wurden 100 unabhängige Fälle erstellt und gleichmäßig auf fünf Fachgebiete verteilt: Kardiologie, Pneumologie, Gynäkologie/Urologie, Gastroenterologie, Neurologie/Muskuloskelett. In jedem Fachgebiet wurden 20 Fälle erstellt. Alle Fälle wurden von kanadischen und indischen Klinikärzten gemeinsam gestaltet und basieren auf den Behandlungswegen in den NICE-Klinikleitlinien und den BMJ Best Practice-Leitlinien.

Im Gegensatz zu den üblichen Einzeldialogen in der Medizin wurden diese Fälle für drei aufeinanderfolgende Arztbesuche konzipiert. Jedes Szenario enthält nicht nur die initialen Beschwerden des Patienten, sondern auch longitudinale Informationen wie die Entwicklung der Symptome, die Reaktion auf die Therapie und die Ergebnisse von Hilfsuntersuchungen, um so den realen Entscheidungsrhythmus bei der Langzeitbehandlung von chronischen Krankheiten und der Nachuntersuchung von komplexen Fällen so realistisch wie möglich wiederzugeben. Um die klinische Schwierigkeit zu erhöhen, wurden in einigen Fällen auch Elemente wie widersprüchliche Informationen und Multimorbidität hinzugefügt, um die Urteilsfähigkeit des Systems unter nicht-standardisierten Bedingungen zu testen. Außer den 100 offiziellen Bewertungsfällen wurden auch 20 Validierungsszenarien eingerichtet, um Vorversuche und die Kalibrierung der Bewertung durchzuführen.

Die evidenzbasierten Informationen stammen aus einer Knowledge Base von klinischen Leitlinien. Diese Knowledge Base enthält insgesamt 627 Dokumente, darunter 527 NICE-Leitlinien und 100 BMJ Best Practice-Dokumente, mit einer Gesamtgröße von etwa 10,5 Millionen Tokens. Der Inhalt umfasst Diagnosekriterien, Untersuchungswege, Therapiekonzepte und Nachsorgeempfehlungen. Während der Bewertung war diese Knowledge Base sowohl für das Künstliche Intelligenzsystem als auch für die teilnehmenden Allgemeinmedizinärzte zugänglich, um die Situation in der realen Klinik zu simulieren, in der die Leitlinien konsultiert werden, und um die Fairness des Vergleichs zwischen Mensch und Maschine sicherzustellen.

Die Arzneimittelentscheidung ist ein unverzichtbarer Bestandteil der Managementinferenz. Deshalb hat das Forschungsteam auch einen spezifischen Benchmark namens RxQA erstellt, um die Fähigkeit des Modells zu bewerten, Arzneimittelbroschüren, Indikationen, Kontraindikationen, Dosierungen und Arzneimittelrisiken zu verstehen. Dieser Benchmark besteht aus 600 Multiple-Choice-Fragen, die aus den Arzneimittelbroschüren der amerikanischen OpenFDA und der britischen Nationalen Arzneimittelverordnung stammen und in einfache kurze Fragen und komplexe Fragen in längeren Szenarien unterteilt sind. Die ersten Entwürfe der Fragen wurden von einem Gemini-Modell auf der Grundlage der Broschüren generiert und dann von 8 praktizierenden Apothekern aus beiden Ländern einzeln überprüft, korrigiert und mit Schwierigkeitsgraden versehen. Aufgrund von Lizenzeinschränkungen sind derzeit nur 300 der Fragen aus der OpenFDA öffentlich zugänglich, was einen standardisierten Referenzpunkt für den Vergleich der Arzneiminferenzfähigkeiten bietet.

AMIE-Modell: Das System mit "Dialogfähigkeit" und "Tiefenmanagementfähigkeit" ausstatten

Diese Studie basiert auf dem zuvor von Google vorgeschlagenen dialogorientierten medizinischen System AMIE und hat es speziell für die Anforderungen der Managementinferenz verbessert. Das neue System verwendet eine Architektur mit zwei kooperierenden intelligenten Agenten. Der Entwurfskonzept stammt aus der "Dual-Process-Theorie" der Kognitionswissenschaft: Ein Agent ist für schnelle, kontinuierliche Arzt-Patienten-Dialoge zuständig, während der andere Agent für langsamere, aber tiefere Managementinferenzen verantwortlich ist. Als Basis-Modell wird einheitlich Gemini 1.5 Flash verwendet, um sowohl die Echtzeit-Reaktionsgeschwindigkeit als auch die Fähigkeit zur Inferenz in langen Kontexten zu gewährleisten.

Genauer gesagt besteht das System aus einem Dialog-Agenten (Dialogue Agent) und einem Mx-Managementinferenz-Agenten (Mx Agent). Der Dialog-Agent ist eher wie das "System 1": Er ist für die Echtzeit-Kommunikation mit dem Patienten, die Nachfrage nach der Krankheitsanamnese, die Erklärung des Therapiekonzepts und die Aufrechterhaltung des Patientenstatus während des Dialogs verantwortlich. Der Mx-Agent ist eher wie das "System 2": Er ist hauptsächlich für die Generierung eines strukturierten und nachvollziehbaren Managementplans auf der Grundlage der vollständigen Krankheitsverlaufsinformation und der klinischen Leitlinien verantwortlich. Beide Agenten synchronisieren die Informationen über ein gemeinsames Statusmodul. Der Dialog-Agent kann jederzeit die Inferenz-Ergebnisse des Mx-Agents abrufen, um so sicherzustellen, dass die medizinischen Empfehlungen stark auf den Leitlinien basieren, während die natürliche Kommunikation aufrechterhalten wird.

Die Systemarchitektur des AMIE-Modells

Als Interaktionshub hat der Dialog-Agent im Vergleich zum ursprünglichen Diagnosemodell drei Verbesserungen erfahren. Erstens wurde das Basis-Modell durch Gemini 1.5 Flash ersetzt, das die Fähigkeit hat, lange Krankheitsverlaufsdokumente und mehrfache Dialoge zu verarbeiten. Zweitens wurden in den Trainingsdaten simulierte Dialoge mit mehreren Arztbesuchen hinzugefügt, um die Fähigkeit des Systems zu verbessern, die Krankheitsentwicklung und die langfristige Verwaltung zu verstehen. Drittens wurde nach der supervised fine-tuning-Phase eine verstärkte Lernphase auf der Grundlage von menschlicher und künstlicher Rückmeldung hinzugefügt, um die Qualität der Dialoge und die Entscheidungsfindung zu optimieren.

Während der Echtzeit-Inferenz verwendet der Dialog-Agent einen dreistufigen Prozess: "Planung - Generierung - Verbesserung". Zuerst plant er auf der Grundlage des aktuellen Status die nächste Frage oder die Schwerpunkte der Antwort. Dann generiert er eine natürliche Sprache-Antwort für den Patienten. Schließlich führt er eine Selbstüberprüfung und Korrektur durch. Um die kontinuierliche Verwaltung über mehrere Arztbesuche hinweg zu unterstützen, verwaltet er auch eine modulare Statusstruktur, die Informationen wie die Patienten-Zusammenfassung, die Differenzialdiagnose und den aktuellen Managementplan enthält und im Hintergrund kontinuierlich aktualisiert wird, um zu vermeiden, dass jeder Dialog von Grund auf neu begonnen wird.

Der Mx-Agent ist der Kernmodul des gesamten Systems, der die tiefe Managementinferenz übernimmt. Er nutzt die Fähigkeit von Gemini 1.5 Flash, lange Kontexte zu verarbeiten, und wendet eine Strategie von "Grobsuche + Ganz-Kontext-Inferenz" an, um die Informationsunterbrechung zu minimieren, die durch die traditionelle Blocksuche entstehen kann. Zuerst erstellt das System mit Hilfe des Gecko 1B-Embedding-Modells einen Index für alle Leitliniendokumente. Dann generiert es auf der Grundlage des aktuellen Patientenfalls eine natürliche Sprache-Abfrage und filtert aus der Leitlinienbibliothek etwa 6 vollständige, hochrelevante Dokumente aus, mit einer Gesamtgröße von etwa 256.000 Tokens. Anschließend gibt das System diese Leitlinien und die vollständigen Krankheitsverlaufsinformationen des Patienten in das Modell ein, um die gesamte Inferenz über mehrere Dokumente und Phasen hinweg in einem einzigen Aufruf zu ermöglichen.

Um die Nutzbarkeit und Nachvollziehbarkeit der Ausgabe zu verbessern, verwendet der Mx-Agent ein JSON-Schema, um die Generierungsergebnisse zu beschränken, und gibt sie in einem Rahmen von "Analyse der klinischen Situation - Definition der Managementziele - Erstellung der Management-Schritte und Angabe der Leitlinienquelle" aus. Jede Empfehlung muss eine entsprechende Leitlinienreferenz enthalten. Gleichzeitig generiert das System zuerst 4 Managemententwürfe unabhängig voneinander und integriert und verbessert sie dann auf der Grundlage der Leitlinien, um die Vollständigkeit und Anpassbarkeit des endgültigen Plans zu verbessern.

Nicht schlechter als Allgemeinmedizinärzte in 15 Indikatoren

Um die klinische Managementinferenzfähigkeit des verbesserten Systems zu validieren, verwendete diese Studie ein randomisiertes, blinden virtuelles OSCE-Framework und kombinierte es mit dem RxQA-Arzneimittel-Benchmark-Test. Das AMIE-System wurde mit 21 Allgemeinmedizinärzten verglichen. Die Gesamtbewertung wurde in drei Dimensionen durchgeführt: die Gesamtqualität des Therapiekonzepts (the overall quality of the management plan), die Qualität der Untersuchungsempfehlungen (the quality of investigation recommendations) und die Qualität der Therapieempfehlungen (the quality of treatment recommendations).

Bei der klinischen Bewertung mussten sowohl das System als auch die Allgemeinmedizinärzte 100 Fälle mit mehreren Arztbesuchen bearbeiten. 30 Fachärzte und standardisierte Patienten bewerteten die Fälle blind, einmal von der fachlichen Qualität und einmal vom Patienten-Erlebnis aus. Das bedeutet, dass die Bewertenden nicht wussten, ob das Konzept von einem Künstlichen Intelligenzsystem oder von einem menschlichen Arzt stammte, um so die Auswirkungen von Identitätsvoreingenommenheit auf das Ergebnis zu minimieren. Der Arzneimittel-Test wurde in einer geschlossenen und einer offenen Umgebung durchgeführt, um

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Auf Grundlage der Langkontextfähigkeiten von Gemini 1.5 erreicht Googles konversationelles medizinisches System AMIE in 100 Szenarien mit mehreren Arztbesuchen das Schlussfolgerungsniveau eines Allgemeinmediziners

Datensatz: Vom Einzeldialog zum longitudinalen klinischen Szenario

AMIE-Modell: Das System mit "Dialogfähigkeit" und "Tiefenmanagementfähigkeit" ausstatten

Nicht schlechter als Allgemeinmedizinärzte in 15 Indikatoren