Baichuan Intelligence löst "bombenartige Nachricht" aus, als die Welt auf medizinisches KI

Am 11. August hat Baichuan Intelligence offiziell das quelloffene, medizinisch verstärkte großes Inferenzmodell Baichuan-M2 vorgestellt.

Es ist erneut eine wichtige Nachricht aus dem Bereich der großen Modelle in China gekommen.

Nur fünf Tage nach der Veröffentlichung des Open-Source-Modells gpt-oss-120b von OpenAI hat Baichuan Intelligence am 11. August offiziell das Open-Source-Großmodell für medizinische verstärkte Inferenz Baichuan-M2 vorgestellt. Dieses Modell mit 32 Milliarden Parametern ist das zweite von Baichuan Intelligence veröffentlichte Open-Source-Modell für medizinische Verstärkung und speziell für medizinische Inferenztasks in der realen Welt entwickelt.

Es ist bemerkenswert, dass Baichuan-M2 in der von OpenAI offiziell veröffentlichten autoritativen medizinischen Testmenge HealthBench nicht nur das eigene Open-Source-Modell gpt-oss-120b mit 120 Milliarden Parametern von OpenAI übertrifft, sondern auch an der Spitze steht. Bis dato (10. August 2025) ist es das Benchmark-Modell im Open-Source-Bereich, das der medizinischen Fähigkeit von GPT-5 am nächsten kommt.

Dies markiert zweifellos, dass das chinesische medizinische KI-Feld in die erste globale Technologieleitung aufgestiegen ist.

Ein neues Benchmark für medizinische Großmodelle

Die Veröffentlichung von Baichuan-M2 zeigt, dass Baichuan Intelligence einen weiteren wichtigen Schritt auf dem Weg des "Schaffens von Ärzten mit Großmodellen" gemacht hat. Der Kernbruch durch liegt darin, dass durch technologische Innovation die Denk- und Kommunikationsfähigkeiten des KI-Ärzten in komplexen medizinischen Behandlungsszenarien erheblich verbessert wurden, so dass sie sich der professionellen Entscheidungsfindung und Interaktion eines echten Arztes annähern. Dies legt eine solide Grundlage für die Verwirklichung des Visionen von "KI-Ärzten".

Werfen wir zunächst einen Blick auf die konkreten Leistungen des Modells.

Bei HealthBench (einem Testset, das 5.000 mehrmalige Dialoge zwischen Patienten und Ärzten in breiten Szenarien enthält und die Modellfähigkeiten durch 48.562 medizinische Bewertungsregeln, die von 262 menschlichen Ärzten geschrieben wurden, bewertet) übertrifft Baichuan-M2 derzeit Open-Source-Modelle wie gpt-oss-120b, Qwen3-235B-A22B-Thinking-2507, DeepSeek-R1-0528, GLM-4.5 und Kimi-K2.

Insbesondere bei den HealthBench Hard-Tasks hat Baichuan-M2 deutliche Vorteile und zeigt seine hervorragende Fähigkeit bei der Lösung von komplexen medizinischen Szenariotasks.

Darüber hinaus ist Baichuan-M2 auch nicht schlechter als die aktuellen führenden Closed-Source-Modelle in der Branche: Bis dato hat es auf HealthBench und HealthBench Hard viele Spitzenmodelle wie o3, Grok3, Gemini 2.5 Pro und GPT-4.1 übertroffen. Es ist zusammen mit GPT-5 das einzige Modell auf healthbench, das über 32 Punkte erreicht hat.

Die Daten der Bewertungsresultate sind wichtige Indikatoren für die technologische Führerschaft. Gleichzeitig interessiert die Branche besonders die tatsächliche Umsetzungskapazität von KI in realen medizinischen Szenarien.

Erstens betrifft die medizinische Gesundheitsbranche persönliche Privatsphäreinformationen und hat einen starken Bedarf an privater Implementierung. In Bezug auf diesen Punkt hat Baichuan-M2 mit sehr geringen Implementierungskosten hervorragende Ergebnisse auf HealthBench erzielt. Im Vergleich zum neuesten Open-Source-Modell gpt-oss-120b von OpenAI hat Baichuan-M2 erneut die Pareto-Front verschoben und die Umsetzungsmöglichkeit und Skalierbarkeit des Modells verbessert.

Zweitens zeigt Baichuan-M2 in chinesischen lokalen medizinischen Szenarien eine genauere klinische Anpassungsfähigkeit als internationale Modelle. In der Problembewertung chinesischer klinischer Behandlungsszenarien zeigt Baichuan-M2 im Vergleich zu den gpt-oss-Serienmodellen deutliche Vorteile in der Anwendbarkeit. Ein Teil dieser Vorteile stammt aus seiner tiefen Anpassung an chinesische medizinische Szenarien.

Nehmen wir beispielsweise ein komplexes Fallbeispiel eines 55-jährigen Patienten mit Leberkrebs. Baichuan-M2 empfiehlt basierend auf der "Diagnose- und Behandlungsrichtlinie für primären Leberkrebs" der chinesischen Nationalen Gesundheitskommission das "anatomische Resektionsverfahren des rechten Leberlappens" - was vollständig mit der chinesischen klinischen Praxis übereinstimmt. Bei demselben Fallbeispiel empfiehlt gpt-oss-120b hingegen die "transarterielle chemoembolische Therapie (TACE)" mit der Begründung, dass es der Behandlungsrichtlinie für das Stadium BCLC B entspricht, was eine Fehlinterpretation der chinesischen Behandlungsrichtlinien zeigt.

Von der hervorragenden Bewertungsleistung bis zur stärkeren Szenariumsetzungskapazität hat Baichuan Intelligence mit Baichuan-M2 ein neues Benchmark für medizinische Großmodelle gesetzt.

Das Kerngeheimnis des erneuten Breakthroughs

Die Ausbildung und Bereitstellung qualifizierter Ärzte ist ein großer Engpass in der medizinischen Branche.

Baichuan Intelligence hat hierfür die Lösung, dass es mit Hilfe von Großmodell-Intelligentagenten eine nahezu unbegrenzte Bereitstellung von KI-Ärzten bietet und durch die Zusammenarbeit mit echten Ärzten das "Doppel-Ärzte-Modell" realisiert - so dass jeder Arzt einen KI-Medizinassistenten hat und jeder Patient einen eigenen KI-Arzt bekommt, der die individuellen Gesundheitsdaten des Patienten langfristig aufzeichnet.

Die Verwirklichung dieser Vision kann jedoch nicht auf einen Schlag erreicht werden und erfordert die schrittweise Überwindung vieler Kernherausforderungen.

Auf Branchenebene stehen KI in der Medizin vor Problemen wie breiter Datenquelle, unvereinheitlichten Formaten und Standards, fehlenden oder falschen Werten sowie der "Black-Box"-Eigenschaft des KI-Modells selbst, die es schwierig macht, die Kausalbeziehungen klar darzustellen.

Deshalb hat Baichuan Intelligence Anfang dieses Jahres Baichuan-M1-14B veröffentlicht, das das erste medizinisch verstärkte Open-Source-Modell in der Branche ist. Nur sechs Monate später hat die Veröffentlichung von Baichuan-M2 einen weiteren Breakthrough erzielt.

Man muss bedenken, dass in realen klinischen Dialogszenarien zwischen Patienten und Ärzten die Äußerungen der Patienten oft verschiedene Störungen aufweisen. Beispielsweise kann die Beschreibung der Symptome aufgrund individueller kognitiver Unterschiede voreingenommen oder unvollständig sein, was eine schwere Herausforderung für die Konstruktion traditioneller auf Regelmatching basierter Verstärkungssysteme darstellt.

Der Durchbruchspunkt von Baichuan-M2 ist die Einführung eines "Patientensimulators" bei der Konstruktion eines starken verifizierbaren Systems für die Medizin.

Der "Patientensimulator" ist ein von Baichuan Intelligence im Januar dieses Jahres auf arXiv veröffentlichte KI-System, das auf realen Fallbeispielen basiert. Dieses System ähnelt einer Simulationsprüfplattform für autonomes Fahren. Durch die Konstruktion von Tausenden von KI-Patienten mit verschiedenen Altersgruppen, Geschlechtern und Symptomen auf der Grundlage realer Daten und die Simulation von Millionen von Behandlungsvorgängen erzeugt es virtuelle Patienten mit verschiedenen Bildungs- und Ausdrucksfähigkeiten, die in den Dialog zwischen Patienten und Ärzten reale Symptomausdrücke und Interaktionsreaktionen liefern.

Das Verifizierungssystem optimiert in Echtzeit die Entscheidungsqualität des KI-Ärzten in der End-to-End-Verstärkungslearning durch die dynamische Generierung von Bewertungsstandards.

Der Wert einer Reihe von Innovationen liegt darin, dass das System die statischen, vordefinierten Belohnungsregeln in ein dynamisches intelligentes Bewertungssystem auf der Grundlage von realen Szenariointeraktionen umgewandelt hat. Dies ermöglicht es dem Modell, bei der Begegnung mit realen Patienten mit unvollständigen Informationen und unklaren Ausdrücken die Robustheit der diagnostischen Hypothesen aktiv zu bewerten und die Befragungsstrategie dynamisch anzupassen - beispielsweise durch zusätzliche Fragen zur Erhebung wichtiger Informationen oder die Entscheidung, eine Schlussfolgerung zu treffen, wenn die Informationen ausreichen.

Das auf dem "Patientensimulator" basierende Open-Source-Modell Baichuan-M1-14B ist das erste medizinisch verstärkte Modell in der Branche. Diesmal hat Baichuan Intelligence den Patientensimulator verbessert und ihn in das "Verifizierungssystem" integriert, so dass das trainierte Baichuan-M2 noch größere Breakthroughs in Bewertungen wie HealthBench erzielt hat.

Diese Innovationen haben ein verifizierbares System für die Verstärkungslearning in der Medizin aufgebaut und die Anpassungsfähigkeit und Entscheidungsqualität des Modells in komplexen klinischen Umgebungen erheblich verbessert. Dies ist der Schlüssel dafür, dass Baichuan-M2 "sowohl Medizin versteht als auch die Klinik kennt" und ein wichtiger Grundstein für die kontinuierliche Umsetzung von "KI-Ärzten".

Der globale Wettlauf in der medizinischen KI

Derzeit erlebt die globale KI-Wettbewerbssituation tiefgreifende Veränderungen.

Einerseits innovieren US-amerikanische Giganten wie OpenAI und Anthropic kontinuierlich in der Architektur von generischen Großmodellen (z. B. MoE), Routing-Mechanismen und Bewertungssystemen. Dies führt dazu, dass die Lücke zwischen China und den USA in der generischen Fähigkeit nicht so wie zu Beginn des Jahres von der Branche erwartet geschrumpft ist, sondern sogar erweitert wird.

Andererseits ist im Gegensatz zum generischen Bereich die Medizin als wichtiger vertikaler Bereich zum Kernkurs geworden, auf dem sich die neuen globalen KI-Mächte bewegen. Beispielsweise hat OpenAI auf der Veranstaltung zur Veröffentlichung von GPT-5 seine Fortschritte im medizinischen Gesundheitsbereich besonders gezeigt und betont, dass es für gewöhnliche Menschen von Wert ist. Man kann sehen, dass das Gewicht der medizinischen Fähigkeit in seinem Modellbewertungssystem ständig zunimmt.

Das Kapital hat auch auf diese Entwicklung reagiert. Laut Informationen machen medizinische KI-Unternehmen in den neuen US-amerikanischen KI-Unicorns im Jahr 2025 mehr als 50 % aus. Darunter haben Top-Unternehmen wie Abridge (Schätzungswert 5,3 Milliarden US-Dollar), OpenEvidence (Schätzungswert 3,5 Milliarden US-Dollar) und Hippocratic AI (Schätzungswert 1,64 Milliarden US-Dollar) enorme Finanzierungen erhalten.

"Derzeit ist das menschliche Fachwissen immer noch rar. Beispielsweise sind qualifizierte Ärzte und hervorragende Lehrer immer noch die Abhängigkeit der Gesellschaft. Aber in den nächsten zehn Jahren werden diese mit Hilfe von KI kostenlos und weit verbreitet sein. Hohe Qualität medizinischer Beratungen und hochwertige individuelle Unterrichtsmethoden werden überall verfügbar sein." Bill Gates hat diesen Vorhersage im März dieses Jahres gemacht.

Der Turing-Preisträger Hinton hat im Juni dieses Jahres sogar betont: "KI wird in vielen Bereichen eine entscheidende Rolle spielen, insbesondere in der wissenschaftlichen Forschung. Sie hat das Potenzial, ein echtes intelligentes System zu entwickeln, was ein aufregender Meilenstein in der menschlichen Geschichte ist. In Bereichen wie Medizin und Bildung, die die Volkswirtschaft betreffen, wird der Einfluss von KI revolutionär sein. Nehmen wir die Medizin als Beispiel. KI wird der "private Arzt" von jedem Menschen sein. Sie kann Hunderttausende von Patienten behandeln, sogar solche, die dieselbe Krankheit wie Sie haben."

Von dieser Perspektive betrachtet ist die Open-Source-Veröffentlichung von Baichuan-M2 durch Baichuan Intelligence nicht nur eine Präsentation von technologischen Ergebnissen, sondern auch ein starker Beweis dafür, dass die chinesische KI-Industrie in der wichtigen medizinischen Domäne auf globaler Ebene mithalten kann: Nachdem OpenAI sein Open-Source-Medizinmodell gpt-oss-120b veröffentlichte, hat Baichuan Intelligence in nur fünf Tagen mit Baichuan-M2 eine "technologische Antwort" gegeben und in der autoritativen Bewertung übertroffen, was die technologische Schärfe und Durchsetzungsvermögen des chinesischen Teams im Bereich von Großmodellen zeigt.

Laut Informationen hat Baichuan Intelligence derzeit tiefe Kooperationen mit Beijing Kinderkrankenhaus, Peking Union Medical College Hospital und der Gesundheitskommission von Haidian District aufgebaut, um die Iteration von medizinischen Großmodellen und die Praxis in realen medizinischen Szenarien zu beschleunigen und eine stärkere Grundlage für die Entwicklung der Branche zu legen.

Wir erinnern uns noch gut, dass Ende des Jahres der Ruhm von DeepSeek-R1 die chinesischen Open-Source-Kräfte auf die Weltbühne gebracht hat. Die Veröffentlichung von Baichuan-M2 beweist, dass chinesische KI-Unternehmen auch in der wichtigen medizinischen Domäne, die die menschliche Wohlergehen betrifft, die Fähigkeit haben, mit internationalen Giganten mithalten zu können.

In Zukunft wird sich mit der ständigen Iteration und Verifizierung des Modells in realen Krankenhausszenarien ein von KI stark unterstütztes, effizienteres und zugänglichereres zukünftiges medizinisches Bild beschleunigt nähern.

本文由「晓曦」原创出品，转载或内容合作请点击转载说明；违规转载必究。

Zu einem entscheidenden Moment, in dem die Welt auf medizinisches KI-System setzt, hat Baichuan Intelligence eine "bombenartige Nachricht" ausgelöst.

Ein neues Benchmark für medizinische Großmodelle

Das Kerngeheimnis des erneuten Breakthroughs

Der globale Wettlauf in der medizinischen KI