Wenn KI beginnt, "Raum" zu "verstehen": Kann das Weltmodell die Zukunft der KI neu definieren?
In der Welt Labs - Forschungsstätte in der Nähe der Stanford University hat das Team um Fei - Fei Li diese erstaunliche Demonstration vorgestellt. „Die heutigen KI - Systeme können Bilder erkennen und Texte generieren, aber sie verstehen nicht, wie die Welt funktioniert“, erklärt diese Pionierin auf dem Gebiet der Künstlichen Intelligenz. „Wenn ein Roboter nicht vorhersagen kann, was passiert, wenn eine Tasse von einem Tisch fällt, kann er nicht effektiv in der realen Welt arbeiten.“
Am 12. November hat die von Fei - Fei Li gegründete Firma World Labs ihr erstes kommerzielles Produkt, das Weltmodell Marble, offiziell vorgestellt, was in der KI - Community eine Welle geschlagen hat. Dies ist ein bedeutender Schritt vorwärts im Wettlauf um das Weltmodell und möglicherweise ein entscheidender Schritt auf dem Weg zu einer allgemeineren Künstlichen Intelligenz.
Von der Erkennung zum Verständnis: Warum wird das Weltmodell zur heiligen Gral der KI?
In wissenschaftlichen Publikationen über Weltmodelle gibt es ein klassisches Beispiel: Wenn ein menschliches Kind sieht, wie ein Bauklötzerturm umgestoßen wird, kann es nicht nur das Geschehen beschreiben, sondern auch das Ergebnis ähnlicher Situationen bei anderen Objekten vorhersagen – etwa wenn ein Sandburg getreten oder Dominosteine umgestoßen werden.
Diese Fähigkeit, physikalische Regeln zu abstrahieren und zu verallgemeinern, fehlt derzeitigen KI - Systemen.
„Der Deep Learning hat in den letzten zehn Jahren erstaunliche Fortschritte gemacht, aber die meisten Systeme bleiben auf der Ebene der ‚Mustererkennung‘ stehen“, sagt der Leiter eines inländischen KI - Labors. „Sie können Katzen erkennen und Bilder generieren, aber sie verstehen nicht wirklich, dass eine Katze ein Volumen und ein Gewicht hat und von der Schwerkraft beeinflusst wird.“
Das Konzept des Weltmodells ist nicht neu. Bereits 2018 hat DeepMind ein ähnliches Konzept vorgeschlagen und es als „ein Modell, das die Dynamik der Umwelt verstehen und die Zukunft vorhersagen kann“ beschrieben. Erst in jüngster Zeit, dank des Wachstums der Rechenleistung und theoretischer Durchbrüche, hat sich dieses Konzept von der wissenschaftlichen Publikation in die kommerzielle Anwendung gewandelt.
Fei - Fei Li hat in einem Interview ihre Vision erklärt: „Menschen verstehen die Welt durch innere Simulation. Wenn du dunkle Wolken siehst, prognostizierst du, dass es regnen könnte; wenn du jemanden winken siehst, prognostizierst du, dass er grüßt. Diese Vorhersagefähigkeit ist der Kern der menschlichen Intelligenz.“
Die Gründung von World Labs zielte darauf ab, diese Vision in die Realität umzusetzen. Laut TechCrunch hat dieses von Fei - Fei Li mitbegründete Startup eine beträchtliche Summe an Kapital beschafft, wobei die Investoren Top - Risikokapitalgeber aus dem Silicon Valley und strategische Technologieunternehmen umfassen.
Die Premiere von Marble: In welchem Aspekt unterscheidet sich das erste kommerzielle Weltmodellprodukt?
Marble, als das erste kommerzielle Produkt von World Labs, zeigt die Reife der Weltmodelltechnologie. Im Vergleich zu herkömmlichen KI - Systemen liegt der Kernbruch durch von Marble darin, dass es in der Lage ist, aus begrenzten visuellen Eingaben den zukünftigen Zustand einer Szene vorherzusagen.
Bei der technischen Demonstration hat Marble einige beeindruckende Fähigkeiten gezeigt:
Physikalische Vorhersage: Bei einer einfachen Szene, wie etwa Bauklötze auf einem Tisch, kann Marble genau vorhersagen, wie sich die gesamte Struktur verhalten wird, wenn man einen der Klötze schiebt. Noch erstaunlicher ist, dass es auch mit neuen Objektformen umgehen kann, die nicht in den Trainingsdaten enthalten waren.
Quantifizierung der Unsicherheit: Im Gegensatz zu herkömmlichen Modellen, die nur eine einzige Vorhersage liefern, kann Marble die Unsicherheit in seiner Vorhersage klar darstellen. Wenn die Szene unklar oder das Ergebnis mehrdeutig ist, gibt das Modell eine Wahrscheinlichkeitsverteilung anstelle einer einseitigen Entscheidung.
Multiskalige Inferenz: Marble kann Vorhersagen auf verschiedenen Zeitskalen von Millisekunden bis hin zu Minuten treffen, um den Anforderungen unterschiedlicher Anwendungen gerecht zu werden.
„Marble ist kein neues Tool zur Erzeugung schöner Videos“, betont der CTO von World Labs. „Es ist ein Versuch, die kausale Struktur der Welt zu verstehen. Wenn wir zeigen, wie ein Ball von einem Tisch fällt, sagt Marble nicht nur voraus, dass der Ball herunterfallen wird, sondern versteht auch, dass dies auf die Schwerkraft zurückzuführen ist und kann dieses Verständnis auf andere ähnliche Szenarien übertragen.“
Nach den veröffentlichten technischen Details basiert Marble wahrscheinlich auf einer verbundenen visuell - sprachlichen Repräsentation. Das bedeutet, dass es nicht nur Pixel - Daten verarbeitet, sondern auch interne Repräsentationen von Objekteigenschaften, physikalischen Regeln und kausalen Beziehungen aufbaut.
Weltmodelle werden von globalen Labors entwickelt
World Labs ist nicht der einzige Akteur, der das Weltmodell als heilige Gral ansieht. Weltweit hat sich bereits ein stiller Wettlauf entwickelt.
OpenAI hat bereits in der Zeit von GPT - 4 begonnen, die Integration von Weltmodellen zu untersuchen. Laut geleakten Informationen entwickelt es ein Weltmodellprojekt namens „Project Stella“, um die physikalische Inferenzfähigkeit für die nächste Generation von KI - Systemen bereitzustellen.
DeepMind, als einer der frühen Pioniere auf dem Gebiet der Weltmodelle, kann sein neues Produkt „Genie“ aus einem einzelnen Bild eine interaktive Umgebung generieren. Obwohl es derzeit hauptsächlich im Spielbereich angewendet wird, hat sein technischer Rahmen das Potenzial, auf ein allgemeines Weltmodell erweitert zu werden.
Meta hat einen anderen Ansatz gewählt – die Konstruktion eines impliziten Weltmodells durch das Training mit ultra - großen Videodatensätzen. Das Team um Yann LeCun befürwortet den Ansatz des selbstüberwachten Lernens und meint, dass KI durch die Beobachtung einer riesigen Menge an Videodaten die grundlegenden Prinzipien des Weltablaufs selbstständig lernen kann.
In China haben auch Technologieriesen wie ByteDance, Alibaba und Baidu sich in die entsprechende Forschung engagiert. Das AI Lab von ByteDance soll ein Weltmodell für die Videovorhersage entwickeln, während Baidu sich mehr auf die Anwendung von Weltmodellen im Bereich des autonomen Fahrens konzentriert. Mogu Auto hat sein großes MogoMind - Modell in ein System namens „KI - Netzwerk“ integriert. Dieses Netzwerk existiert nicht in der Cloud, sondern ist wie ein „Neuron“ verteilt auf jedem intelligenten Basisstation auf städtischen Straßen und jedem vernetzten Fahrzeug. MogoMind ist kein statisches „Kartenmodell“, sondern ein lebendiges, atmendes ‚Weltmodell‘. Es nimmt in Echtzeit die Fahrspuren jedes Fahrzeugs, die Stausituation jeder Straße, den Zustand der Ampeln an jeder Kreuzung und sogar die Auswirkungen von Regen und Wind auf die Straßenbedingungen auf. Es macht jedes Gerät und jedes Fahrzeug auf der Straße zu einem Intelligent Agenten, der den Raum „verstehen“ und an der Zusammenarbeit teilnehmen kann.
Das Weltmodell ist bereits der Wendepunkt im Wettlauf um die nächste Generation von KI. KI - Systeme mit einem starken Weltmodell könnten in Bereichen wie Robotik, autonomem Fahren und Virtual Reality, die eine Interaktion mit der realen Welt erfordern, einen entscheidenden Vorteil erlangen.
Von der Forschungsstätte zum Markt: Welche praktischen Probleme kann das Weltmodell lösen?
Das Weltmodell mag abstrakt erscheinen, aber seine kommerzielle Anwendungsaussichten sind sehr weitreichend. Marble, als das erste kommerzielle Produkt, zielt auf einige Schlüsselbereiche ab:
Autonomes Fahren: Die gegenwärtigen Systeme für autonomes Fahren basieren hauptsächlich auf der Mustererkennung – der Erkennung von Fahrzeugen, Fußgängern und Verkehrszeichen. Bei Situationen, die nicht in den Trainingsdaten enthalten waren, funktionieren diese Systeme jedoch oft nicht. Weltmodelle können es autonomen Fahrzeugen ermöglichen, physikalische Regeln zu verstehen und das Verhalten anderer Straßenbenutzer vorherzusagen, um so die Sicherheit in Randbedingungen zu verbessern.
Robotik: Industrieroboter funktionieren gut in strukturierten Umgebungen, haben aber Schwierigkeiten, sich an dynamisch veränderliche Umgebungen anzupassen. Durch die Integration von Weltmodellen können Roboter die Auswirkungen ihrer eigenen Aktionen vorhersagen und komplexere Planungen und Arbeiten durchführen.
„Stellen Sie sich vor, ein Haushaltsroboter sieht, wie ein Glas Wasser zum Tischrand rutscht. Er sollte in der Lage sein, vorherzusagen, dass das Glas fallen könnte, und es dann selbst in eine sichere Position schieben“, beschreibt der CEO eines Robotikunternehmens. „Diese Voraussichtsfähigkeit fehlt derzeitigen Robotern völlig.“
Medizinische Diagnose: Weltmodelle haben auch Potenzial in der medizinischen Bildanalyse. Durch das Verständnis der zeitlichen Veränderungen menschlicher Organe kann KI die Progression von Krankheiten genauer vorhersagen und so eine Grundlage für individuelle Therapien bieten.
Unterhaltung und Inhaltserstellung: In der Spiel - und Filmbranche können Weltmodelle realistischere physikalische Simulationen erstellen und animierte Effekte gemäß physikalischen Regeln generieren, wodurch die Kosten für die Inhaltserstellung erheblich gesenkt werden können.
Industrielles Digitales Zwilling: Weltmodelle können genauere Simulationen von industriellen Prozessen erstellen, um Unternehmen bei der Optimierung ihrer Produktionsprozesse zu helfen und Ausfälle von Geräten vorherzusagen.
Es ist bemerkenswert, dass World Labs sich für den Unternehmensmarkt als ersten Einstiegspunkt für Marble entschieden hat, anstatt sich auf die Verbraucheranwendung zu konzentrieren. Diese Strategie spiegelt sowohl die derzeitige Einschränkung der Technologie als auch eine klare Überlegung über den kommerziellen Weg wider.
Drei Herausforderungen für das Weltmodell
Trotz der verlockenden Aussichten steht die Entwicklung von Weltmodellen vor großen technischen Herausforderungen.
Komplexitätsherausforderung: Die physikalischen Regeln der realen Welt sind extrem komplex. Von der Dynamik starrer Körper bis zur Physik weicher Materie, von der Strömungsmechanik bis zur Aerodynamik erfordert die Konstruktion eines einheitlichen Weltmodells die Integration einer großen Menge an physikalischem Wissen. Ganz zu schweigen von der Simulation sozialer Regeln und psychologischer Motive menschlichen Verhaltens.
Rechenkosten: Das Training und die Inferenz von Weltmodellen erfordern enorme Rechenressourcen. Die Echtzeitvorhersage des zukünftigen Zustands von hochauflösenden visuellen Szenen ist auch für die derzeit fortschrittlichsten Hardware - Systeme eine große Herausforderung.
Evaluierungsproblem: Wie misst man die Leistung eines Weltmodells? Im Gegensatz zur Bildklassifikation oder Objekterkennung ist die Qualität der Vorhersage eines Weltmodells schwer mit einfachen Indikatoren zu messen. Eine Vorhersage kann auf Pixel - Ebene genau sein, aber auf semantischer Ebene falsch, und umgekehrt.
Fei - Fei Li hat in einem Interview die Existenz dieser Herausforderungen zugegeben: „Wir erklimmen einen Berg und befinden uns möglicherweise noch am Fuß. Aber jeder Schritt vorwärts eröffnet neue Möglichkeiten.“
World Labs hat eine pragmatische Strategie gewählt – anstatt alle Probleme auf einmal zu lösen, konzentriert es sich auf praktikable Anwendungen in bestimmten Bereichen und verbessert die Technologie schrittweise durch die Lösung von praktischen Problemen.
Wohin wird das Weltmodell die KI führen?
Die Entwicklung von Weltmodellen könnte die Beziehung zwischen KI und Menschen neu definieren.
Kurzfristig wird das Weltmodell die Leistung bestehender KI - Systeme in komplexen Umgebungen verbessern. Von zuverlässigerem autonomem Fahren bis hin zu flexibleren Haushaltsrobotern könnten diese Fortschritte innerhalb von 3 - 5 Jahren mehrere Branchen verändern.
Mittelfristig könnte das Weltmodell ein schlüsselbares Bauteil für die Erreichung einer allgemeinen Künstlichen Intelligenz (AGI) werden. KI - Systeme, die die Funktionsweise der Welt verstehen und kausale Inferenzen ziehen können, nähern sich den Kernmerkmalen der menschlichen Intelligenz näher.
Langfristig könnte das Weltmodell die Art und Weise, wie Menschen die Welt verstehen, verändern. So wie das Fernrohr unser Verständnis des Universums erweitert und das Mikroskop die Mikrowelt enthüllt hat, könnte das Weltmodell ein neues Werkzeug für das Verständnis komplexer Systeme werden – von den Klimawandel bis zur wirtschaftlichen Entwicklung, von der Krankheitsausbreitung bis zur sozialen Dynamik.
Vielleicht ist dies die aufregendste Aussicht des Weltmodells: KI kann nicht nur in bekannten Aufgaben gut abschneiden, sondern auch das Verständnis auf unbekannte Bereiche übertragen und sich wie Menschen flexibel an neue Umgebungen anpassen.
Der Startschuss für den Wettlauf um das Weltmodell ist gefallen, und Fei - Fei Li und ihr Team sind zweifellos eine der ersten Mannschaften, die aus dem Start gegangen sind. Unabhängig davon, wer am Ende das Ziel zuerst erreicht, wird das Ergebnis dieses Wettlaufs die Zukunft der KI – und sogar der menschlichen Gesellschaft – tiefgreifend prägen.