StartseiteArtikel

Jensen Huang eröffnet die GTC mit: "Der 'AI-XR Scientist' ist da."

机器之心2025-11-20 10:20
Kann die KI Experimente durchführen, obwohl sie so viele Papers gelesen hat?

Hat die KI nach dem Lesen so vieler Fachartikel auch das Vermögen, Experimente durchzuführen? LabOS: Wenn die KI nicht nur denken kann, sondern auch „sehen“, „leiten“ und „manipulieren“ kann, um reale Experimente durchzuführen, beginnt still und leise eine neue Ära der wissenschaftlichen Entdeckung, in der menschliche und maschinelle Intelligenz gemeinsam evolvieren.

In einem scheinbar gewöhnlichen biologischen Labor bereitet ein Wissenschaftler unter der Anleitung von XR-Smartbrillen eine Lösung zu. Auf den Brillengläsern erscheinen in Echtzeit die Hinweise: „Die Stammzellkultur ist abgeschlossen. Bitte entnehmen Sie eine Probe.“ Dann übernimmt ein Roboter automatisch die Teströhre aus seiner Hand und startet den Vortex-Mischer, um die Lösung zu mischen. Wenn der Wissenschaftler die Zellen wieder erhält, wird ihm im Sichtfeld der nächste Schritt des CRISPR-Genediting-Prozesses angezeigt.

Der dahinterstehende Leiter all dieser Vorgänge ist der KI-Ko-Wissenschaftler LabOS, der über ein „Weltmodell“ für das Laborumfeld verfügt. Er ist wie ein Dirigent, der alle Aspekte des Experiments im Blick hat. Mit multimodalen Daten als Notenblatt dirigiert er präzise die verschiedenen Agenten, die menschlichen Wissenschaftler und die experimentellen Roboter. In diesem tief integrierten experimentellen Ökosystem arbeiten die drei Parteien nicht mehr isoliert voneinander, sondern spielen gemeinsam eine Symphonie der effizienten, reproduzierbaren und kontinuierlich evolvierenden wissenschaftlichen Entdeckung.

Dieses bahnbrechende Szenario der Mensch-Maschine-Kooperation im Labor stammt aus einer bahnbrechenden Studie, die der CEO von NVIDIA, Jensen Huang, am 29. Oktober auf der GTC-Konferenz in Washington persönlich vorgestellt hat. Ein Team unter der Leitung von Prof. Le Cong von der Stanford University und Prof. Mengdi Wang von der Princeton University hat gemeinsam mit NVIDIA ein intelligentes Plattformsystem namens LabOS offiziell vorgestellt, das weltweit erste Co-Scientist (Ko-Wissenschaftler), das KI und XR (erweiterte Realität) integriert.

LabOS-Website: https://ai4labos.com

Link zur Studie: https://arxiv.org/abs/2510.14861

Das Revolutionary an LabOS besteht darin, dass es erstmals multimodale Wahrnehmung, sich selbst entwickelnde Agenten und erweiterte Realität (XR) in einem System vereint. Es verbindet nahtlos die KI-Berechnungen und -Schlussfolgerungen in Trockenexperimenten mit der Echtzeit-Kooperation zwischen Menschen und Maschinen in Nassexperimenten und schafft so einen end-to-end-geschlossenen Kreis von der Hypothesenbildung bis zur experimentellen Validierung. Dies schafft nicht nur ein dynamisch sich entwickelndes „Weltmodell“ für die wissenschaftliche Forschung, sondern eröffnet auch offiziell eine neue Ära der kooperativen Evolution von Menschen und Maschinenintelligenz in der wissenschaftlichen Entdeckung.

Prof. Le Cong von der Stanford University sagte: „Durch diesen mit NVIDIA erzielten Durchbruch können wir die Zeit, die für Arbeiten, die früher Jahre dauerten, auf Wochen verkürzen, die Kosten für Forschungsprojekte, die früher Millionen von Dollar kosteten, auf einige tausend Dollar senken und die Zeit für die Ausbildung von Spitzenforschungskräften von Monaten auf Tage verkürzen. Wir sind sehr begeistert, mit NVIDIA eng zusammenarbeiten zu können, um dieses Ergebnis zu präsentieren. Noch aufregender ist, dass dies erst der Anfang ist. Mit dem Aufstieg der automatisierten Forschungslabore wird diese Innovation nicht nur das Leben verändern, sondern auch Leben schneller und kostengünstiger retten!“

Abbildung 1: Die Systemarchitektur von LabOS, die den sich selbst entwickelnden KI-Agenten in Trockenexperimenten mit der Mensch-Roboter-Interaktion von XR + Robotern in Nassexperimenten integriert, um end-to-end-wissenschaftliche Entdeckungen zu ermöglichen

1. Vom Rechenschluss zum physischen Zusammenwirken: Die verkörperte Evolution des KI-Labors

Bisher liefen die meisten wissenschaftlichen KIs, sei es AlphaFold oder Deep Research, hauptsächlich in der reinen digitalen Welt. Sie sind geborene „Theoretiker“, aber sie können keine realen physischen Experimente durchführen. Der „letzte Schritt“ im Labor hängt immer noch stark von der manuellen Arbeit und dem impliziten Erfahrungswissen der Wissenschaftler ab, was ein Engpass für die Effizienz und Reproduzierbarkeit der Forschung darstellt.

Der Durchbruch von LabOS besteht darin, dass es für die KI ein verkörpertes System schafft, das in das reale Labor eintreten kann. Es vereint abstrakte Intelligenz mit physischen Handlungen und schafft so einen KI-Ko-Wissenschaftler mit der Fähigkeit zur Koordination von „Gehirn - Auge - Hand“:

Das denkende „Gehirn“: Ein sich selbst entwickelnder KI-Agent. Basierend auf dem früheren STELLA-Framework enthält LabOS vier intelligente Agenten für Planung, Entwicklung, Prüfung und Werkzeugerstellung. Sie können nicht nur wissenschaftliche Aufgaben zerlegen und Analysescodes schreiben, sondern auch über das Modul „Werkzeugmeer“ neue Werkzeuge aus einer riesigen Menge an Literatur und Daten selbst erstellen, um ihre Schlussfolgerungsfähigkeit kontinuierlich zu verbessern. Diese innere Fähigkeit zur Selbstentwicklung ermöglicht es ihnen, neue wissenschaftliche Aufgaben durch „Erweiterung während des Schlussfolgerns“ zu lösen.

Das verstehende „Auge“: Ein visuell-sprachliches Modell, speziell für das Labor entwickelt. Das Team hat mehr als 200 Experimentvideos aus erster Person gesammelt und daraus den LabSuperVision (LSV)-Benchmark erstellt. Sie haben festgestellt, dass selbst die stärksten allgemeinen Großen Modelle bei der Verständnis feiner experimenteller Handlungen nicht gut abschneiden. Daher haben sie das spezielle LabOS-VLM trainiert, das bei Aufgaben wie der Fehlererkennung eine viel höhere Genauigkeit als die allgemeinen Modelle aufweist.

Die kooperierende „Hand“: Ein Echtzeit-System für die Durchführung von Experimenten, das Mensch und Roboter integriert. Die Forscher tragen leichte AR-Brillen, um Experimente durchzuführen. LabOS analysiert den Videostream alle 5 - 10 Sekunden und gibt Echtzeit-Anweisungen, Fehlerwarnungen und Handlungsempfehlungen. Es koordiniert auch den LabOS-Roboter, um ihn an den experimentellen Vorgängen teilnehmen zu lassen. Alle Interaktionen werden über die XR-Oberfläche per Gesten und Sprache durchgeführt, um eine reibungslose Mensch-Maschine-Kooperation in der sterilen Umgebung zu gewährleisten.

Abbildung 2: Die 4D-Rekonstruktion des physischen Laborumfelds. LabOS ermöglicht die Echtzeit-Kooperation zwischen Mensch und Roboter über XR-Brillen.

2. Wie versteht das Weltmodell das Labor?

Die Komplexität des Laborumfelds stellt hohe Anforderungen an das visuelle Verständnis der KI. Um die Fähigkeit der KI-Modelle zur Wahrnehmung und Schlussfolgerung im Labor zu bewerten, hat das Team den LabSuperVision (LSV)-Benchmark erstellt - bestehend aus mehr als 200 Experimentvideos, die von Forschern in erster Person mit einer Kamera aufgenommen wurden, und die von Experten mit Handlungsschritten, Fehlertypen und Schlüsselparametern annotiert wurden. Überraschenderweise haben die derzeit führenden KI-Modelle auf diesem Benchmark nicht gut abgeschnitten: Modelle wie Gemini und GPT-4o haben nur 2 - 3 Punkte (von 5) bei Aufgaben wie der Übereinstimmung mit dem Protokoll und der Fehlererkennung erzielt, was weit unter dem für die Laboranwendung erforderlichen Standard liegt.

Um diesen Engpass zu überwinden, hat das Team ein visuell-sprachliches Modell (VLM), das auf das Laborumfeld spezialisiert ist, durch die Kombination von öffentlichen Experimentvideos, internen Aufnahmen und Expertenannotationen nachtrainiert. Das resultierende LabOS-VLM kann die visuelle Eingabe der XR-Brillen dekodieren und die visuelle Einbettung mit dem Sprachmodell abgleichen, um das Laborumfeld zu interpretieren und Schlussfolgerungen zu ziehen. Nach der Überwachten Feinabstimmung und der Optimierung durch verstärktes Lernen hat dieses Modell in der wissenschaftlichen Umgebung eine deutlich verbesserte visuelle Schlussfolgerungsfähigkeit gezeigt - beispielsweise kann es in einem Zelltransfektionsexperiment in Echtzeit Fehler erkennen, die auftreten, wenn der Experimentator nicht gemäß der Standardbetriebsprozedur (SOP) arbeitet, und Anweisungen für die nächsten Schritte generieren. Die 235-Milliarden-Parameter-Version hat eine Fehlererkennungsgenauigkeit von über 90 % erreicht, weit über den anderen allgemeinen Modellen.

Um die Fähigkeit des Systems, den physischen Raum im Labor zu verstehen, weiter zu verbessern, hat LabOS für die KI eine dreidimensionale Laborumgebung geschaffen, die Zeitwahrnehmung und semantisches Verständnis aufweist. In dieser Umgebung kann die KI nicht nur jedes Gefäß, Gerät und Probe im Labor erkennen, sondern auch deren semantische Beziehungen und zeitliche Entwicklung im Laborumfeld verstehen. Sie weiß, in welchem Schritt das Experiment sich befindet, welche Handlungen abgeschlossen sind, welche Reaktionen noch laufen und wo in welchem Schritt ein Problem aufgetreten ist. Dieses hochpräzise Weltmodell bildet auch die Grundlage für die räumliche Wahrnehmung des LabOS-Roboters, der verschiedene experimentelle Aufgaben im Labor autonom durchführen kann.

Dieser vollständige technische Pfad von der Datenaufbereitung, der Modelltraining bis zur Echtzeit-Interaktion gibt dem LabOS-System die Fähigkeit zur wissenschaftlichen visuellen Schlussfolgerung und schafft erfolgreich einen geschlossenen Kreis für die effiziente Kooperation zwischen KI, Menschen und Robotern in realen Experimenten.

Abbildung 3: Vom Aufbau der Daten, Training des LabOS-VLM-Modells bis zur Echtzeit-Interaktion im Laborumfeld

3. Drei empirische Beispiele für die Mensch-Maschine-Kooperation: Von der Zielentdeckung bis zur Weitergabe von Fähigkeiten

Die Studie von LabOS zeigt durch drei biomedizinische Forschungsprojekte die starken Funktionen von LabOS als Ko-Wissenschaftler:

Autonome Entdeckung neuer Zielgene für die Krebstherapie durch Immuntherapie

Die Schlüsselherausforderung in der Krebsimmunologie besteht darin, die Schlüsselgene zu identifizieren, die die Immuneskapes der Tumorzellen vermitteln. Die herkömmlichen Screeningmethoden sind in ihrer Kapazität begrenzt und hängen stark von der Expertenanalyse ab. LabOS zeigt hier seine Fähigkeit zur ganzheitlichen Forschung von „Trockenexperiment - klinische Analyse - Nassexperiment“: Das System identifiziert zunächst mithilfe der CRISPR-Aktivierungsscreening-Technik autonom und iterativ optimierte Kandidatengene wie CEACAM6, die die Resistenz von NK-Zellen gegen die Abtötung von Melanomzellen vermitteln. Anschließend führt es eine Überlebensanalyse anhand der Daten des Cancer Genome Atlas (TCGA) durch, um die klinische Korrelation zwischen der Genexpression von CEACAM6 und der Prognose der Patienten herzustellen. Schließlich wird durch ein Nassexperiment bestätigt, dass die Aktivierung von CEACAM6 die Resistenz der Tumorzellen gegen NK-Zellen deutlich verstärkt. Dieser end-to-end-geschlossene Kreis von der Rechenschluss bis zur experimentellen Validierung zeigt die systematische Forschungsfähigkeit von LabOS bei der Zielentdeckung.

Abbildung 4: Die Anwendung von LabOS in der Untersuchung des Mechanismus der Zielentdeckung, von der Hypothesenbildung bis zur Validierung

In der Untersuchung des Mechanismus des Zellfusionsprozesses, einem grundlegenden biologischen Vorgang, hat LabOS eine starke Fähigkeit zur Generierung und Validierung von wissenschaftlichen Hypothesen gezeigt. LabOS hat durch die Integration von Pfadenanreicherungsanalysen, Interaktionsvorwissen und funktionellen Beweisen automatisch ITSN1 als das zentrale regulatorische Gen vorgeschlagen. Anschließend hat das Forschungsteam die funktionelle Validierung der Zellfusion in einem U2OS-Zellmodell mithilfe der CRISPR-Interferenz-Technik durchgeführt. Die Ergebnisse der quantitativen Bildgebung und der Zellversuche zeigen, dass die Herunterregulierung von ITSN1 tatsächlich den Zellfusionsprozess deutlich hemmt. Dieser vollständige geschlossene Kreis von der von der KI generierten wissenschaftlichen Hypothese bis zur Validierung durch ein Nassexperiment zeigt den einzigartigen Wert von LabOS als Ko-Wissenschaftler bei der Förderung der Entdeckung von Mechanismen.

Abbildung 5: Die Anwendung von LabOS in der Untersuchung des Mechanismus der Stammzell-Engineering, Weitergabe von Fähigkeiten

Die Reproduzierbarkeit komplexer Nassexperimente ist seit langem von implizitem Wissen und Handlungsabweichungen, die schwer zu beschreiben sind, betroffen. LabOS ermöglicht es durch XR-Smartbrillen und visuelle Schlussfolgerungen, in komplexen Experimenten wie dem CRISPR-Genediting von Stammzellen Echtzeit-Anweisungen zu geben und die Handlungen zu erfassen. Es kann automatisch die Experimente von Experten aufzeichnen und daraus standardisierte digitale Prozesse erstellen, um schließlich als KI-Lehrer Neulingen zu helfen, die Schlüsseltechniken schnell zu erlernen und die Reproduzierbarkeit der Experimente und die Effizienz der Weitergabe von Fähigkeiten deutlich zu verbessern.