StartseiteArtikel

Yann LeCun und andere haben gemeinsam einen Artikel verfasst: Warum kann KI noch nicht selbst lernen? Wie kann dies erreicht werden?

账号已注销2026-03-23 10:54
System A + System B + System M

Derzeit weist die künstliche Intelligenz (KI) in Bezug auf das autonome Lernen einen grundlegenden Mangel auf: Das Fehlen der Fähigkeit, wie ein Mensch zu lernen.

Kinder lernen und handeln seit ihrer Geburt. Sie können flexibel entscheiden, worauf sie achten, was sie lernen, wann sie handeln und wann sie beobachten, und können frei zwischen verschiedenen Lernmodi wechseln.

Im Gegensatz dazu ist das Lernmodell eines KI-Modells nach der Implementierung festgelegt. Für jede Anpassung muss ein Team menschlicher Ingenieure erneut eingreifen, um Daten vorzubereiten, Trainingspläne zu erstellen und anhand von Leistungsindikatoren anzupassen. Mit anderen Worten, die Fähigkeit zur autonomen Lernfähigkeit der KI wird auf Menschen "ausgelagert".

Kürzlich haben drei Forscher, Emmanuel Dupoux, Yann LeCun und Jitendra Malik aus Meta, der New Yorker Universität und der Universität von Kalifornien, Berkeley, eine systematische Kritik an der aktuellen KI-Paradigma vorgebracht und ein Lernschema vorgeschlagen, das von der menschlichen und tierischen Kognition inspiriert ist.

Dieser Rahmen integriert Beobachtungsbasiertes Lernen (System A) und Aktionsbasiertes Lernen (System B) und kann flexibel zwischen diesen Lernmodi basierend auf intern generierten Metakontrollsignalen wechseln.

Darüber hinaus haben sie sich auch die Art und Weise angesehen, wie Organismen in der Evolutions- und Entwicklungszeit auf die dynamische Umwelt der realen Welt reagieren, und diskutiert, wie dieser Rahmen aufgebaut werden kann.

Link zur Studie: https://arxiv.org/pdf/2603.15381

Warum kann die KI noch nicht autonom lernen?

Wo genau liegt das Problem, dass die aktuelle KI es schwierig hat, sich selbst zu lernen? Das Forscherteam hat in der Studie 4 strukturelle Schwierigkeiten benannt:

  • Die Bereitstellung von hochwertigen Textdaten nähert sich der Obergrenze.
  • Wegen des Mangels an realer Interaktion mit der Umwelt kann das Modell keine neuen Inhalte lernen, die über das bestehende menschliche Wissen hinausgehen.
  • Es wird übermäßig auf Sprache gesetzt, während die räumliche Wahrnehmung, die körperliche Kognition und die begründete Schlussfolgerung in der physischen Welt vernachlässigt werden.
  • Das Modell hört nach der Implementierung auf, sich selbst zu verbessern und kann kein lebenslanges Lernen erreichen.

In der Studie hat das Forscherteam ausführlich drei technische Hindernisse untersucht, die die Entwicklung des autonomen Lernens einschränken, und mögliche Lösungen vorgeschlagen.

1. Fragmentierung des Lernparadigmas

Die bestehenden Lernmethoden sind in verschiedenen Teilbereichen verteilt und fehlt die Interaktion zwischen ihnen. Es ist schwierig, sie in einen einheitlichen Rahmen zu integrieren. Das Forscherteam ist der Meinung, dass der Ausgangspunkt der Integration die Erkenntnis der zwei grundlegenden Lernmodi ist: Lernen durch Beobachtung (System A) und Lernen durch Handeln (System B), und dass die möglichen Interaktionsweisen zwischen ihnen systematisch analysiert werden müssen.

2. Externalisierung der Lernfähigkeit

Das Lernen der aktuellen KI wird tatsächlich von Menschen durchgeführt. Die Datenauswahl, das Trainingsdesign und die Leistungsüberwachung sind alle von der menschlichen MLOps-Pipeline abhängig. Daher haben sie ein Metakontrollschema (System M) vorgeschlagen, das ein zentraler Scheduler ist, der den Informationsfluss zwischen den Lernkomponenten koordiniert und die Lern- und Datenfilterungsprozesse, die normalerweise von Menschen durchgeführt werden, automatisch wiederholen kann.

3. Fehlen einer skalierbaren Konstruktionsmethode

Das Forscherteam hat angegeben, dass es derzeit keine effektive Methode gibt, um die gemeinsame Schulung der oben genannten Komponenten in einer großen Architektur zu realisieren. Sie haben eine von der Evolutionsmechanik inspirierte zweistufige Optimierungsmethode vorgeschlagen, um das Metakontrollmodell und den Anfangszustand von System A und System B gemeinsam zu lernen, um eine robuste Leistung in der realen Welt zu erreichen.

Abbildung | Standardmaschinelles Lernen (links): Die Maschine kann selbst nicht lernen. Sie benötigt eine Pipeline aus Forschungsingenieuren und Datenwissenschaftlern, die verschiedene Arten von Daten sammeln, organisieren und verarbeiten. Jeder Datentyp wird verwendet, um verschiedene Komponenten des Modells nacheinander zu trainieren. Jede Komponente verwendet speziell gestaltete Verlust- und Belohnungsfunktionen. Auf diese Weise kann die Maschine nicht aus ihrer eigenen Erfahrung lernen. Autonomes maschinelles Lernen (rechts): Der Agent lernt direkt durch die Interaktion mit der Welt. Die Datenquelle wird vom Agenten selbst durch verschiedene Lernmodi (Lernen durch Beobachtung, Handeln und Erweiterung auf höherwertige Modi, wie z. B. Lernen durch sprachliche Interaktion oder Selbstspiel) generiert. Das von dem Team vorgeschlagene Schema enthält einen Metakontroller, der es dem Agenten ermöglicht, zu lernen, während er in der realen Welt operiert. (Bild von ChatGPT).

Lasst die Maschine wie ein Mensch lernen

Konkret ist der Kerngedanke des Forscherteams, das Lernen in zwei grundlegende Modi aufzuteilen und dann die Zusammenarbeit zwischen ihnen durch das Metakontrollsystem dynamisch zu planen. Die ersten beiden sind Lernmodi, und der letztere ist der Metakontroller, der die beiden steuert.

System A: Beobachtungslernen

System A entspricht dem selbstüberwachenden Lernen (SSL) in der maschinellen Lernweise. Ein sechsmonatiges Baby kann gleichzeitig menschliche und affen Gesichter unterscheiden, und bis neun Monaten wird es spezialisiert auf menschliche Gesichter. Neugeborene können die Phoneme verschiedener Sprachen unterscheiden, und bis sechs bis zwölf Monaten werden sie allmählich spezialisiert auf die Muttersprache. Dies ist ein typisches Beispiel für diesen Mechanismus.

Das System A hat den Vorteil, dass es gut skalierbar ist, effektiv große Datensätze verarbeiten kann, hierarchische abstrakte Merkmale extrahieren kann und eine starke Transferfähigkeit in verschiedenen nachgelagerten Aufgaben zeigt. Die Einschränkung besteht darin, dass es von der künstlich gestalteten Datenverteilung und dem Aufgaben-Generator abhängt, keine integrierte Mechanismus hat, um zu entscheiden, welche Daten abgerufen werden sollen, die Repräsentation von der Handlungsfähigkeit des Agenten getrennt ist, was dazu führt, dass die Lernergebnisse schwierig in realen Handlungsszenarien anwendbar sind, und es erhebliche Schwierigkeiten gibt, zwischen Korrelation und Kausalität zu unterscheiden.

System B: Aktionslernen

System B entspricht dem Verstärkungslernen (RL) und der Steuerungstheorie. Die System B-Algorithmen enthalten Lernmechanismen, die durch Interaktion funktionieren. Handeln bedeutet, die Umwelt durch eine Reihe von Aktionen zu beeinflussen, um ein bestimmtes Ziel zu erreichen, d. h., die Belohnung r innerhalb des Zeitraums T zu optimieren. Beispielsweise lernt ein Kind nicht, indem es die Gangart anderer nachahmt, sondern entwickelt seine Reifegangart schrittweise durch wiederholtes Ausprobieren und Fehlschlagen in den nicht-beinigen Phasen wie Rollen und Kriechen.

Das System B hat den Vorteil, dass es natürlich für Echtzeit-adaptive Verhaltensweisen geeignet ist und direkt aus spärlichen oder verzögerten Ergebnissen lernen kann. Der Nachteil ist jedoch, dass die Stichprobeneffizienz sehr niedrig ist, selbst für einfache Aufgaben oft viele Interaktionen benötigt werden, es in hochdimensionalen oder offenen Handlungsräumen schlecht abschneidet und stark von einer klar definierten Belohnungsfunktion und interpretierbaren Aktionen abhängt, die in der natürlichen Umwelt oft schwer zu realisieren sind.

Zweiseitige Unterstützung zwischen den beiden Systemen

Anschaulich gesehen ist es relativ einfach, durch Handeln zu lernen, wenn die Anzahl der möglichen Aktionen begrenzt ist und der Zustand der Welt leicht nachverfolgbar ist. In der Realität erweitert sich der Handlungsraum jedoch exponentiell mit der Zunahme der Freiheitsgrade, und der Zustand der Welt ist fast unendlich. Hier kommt System A ins Spiel. Indem es komprimierte Repräsentationen für Zustände und Aktionen bietet, ein Vorhersagemodell der Welt aufbaut und interne Belohnungssignale generiert, wird das Lernen und die Planung von System B leichter handhabbar.

System A bietet System B drei Arten von Schlüsselstützen: Erstens, durch die Methode des selbstüberwachenden Lernens werden die ursprünglichen Wahrnehmungsdaten (Pixel oder Schallwellen) in abstraktere und kompaktere Repräsentationen von Zuständen und Aktionen komprimiert, was die Suchraumdimension des Verstärkungslernens verringert. Zweitens, es wird ein Vorhersagemodell der Welt aufgebaut, um die Umwelt dynamik zu erfassen. Wenn das Modell auf seine eigenen Aktionen konditioniert ist, kann System B von modellfreiem Verstärkungslernen zu modellbasiertem Planen umgewandelt werden, um Planung anstelle von blinder Ausprobieren zu verwenden. Drittens, es werden interne Belohnungssignale der Vorhersagefehler bereitgestellt, um den Agenten zu einer effizienten Exploration zu führen und nach ausreichender Zuversicht zur Nutzung zu wechseln.

System B unterstützt ebenfalls System A. Die Einschränkung von System A besteht darin, dass es von passiven oder statischen Daten abhängt. Ohne Führung oder Datenauswahl kann es keine nützlichen Repräsentationen aus informatiosen, verrauschten oder irrelevanten Datenströmen lernen. System B kann durch aktives Handeln System A auf zwei Arten unterstützen: Durch aktives selbstüberwachendes Lernen wird die Repräsentationsfähigkeit von System A explizit optimiert. Beispielsweise werden Datenabschnitte mit hoher Unsicherheit oder großen Vorhersagefehlern ausgewählt, oder durch interventionelle Aktionen werden Kausalbeziehungen aufgedeckt, die durch passive Beobachtung nicht erfasst werden können. Durch zielgerichtetes selbstüberwachendes Lernen wird die eigene Aufgabenbelohnung optimiert, und die Daten werden als Nebenprodukt an System A geliefert, um der Repräsentation einen Ankerpunkt in der realen Welt zu geben.

Abbildung | Überblick über das Interaktionsmuster zwischen System A und System B: System A gibt System B eine Vorhersage über den zukünftigen Zustand basierend auf vergangenen Zuständen und Aktionen und bietet hierarchische Abstraktionen möglicher Aktionen sowie eine SSL-Verlustfunktion, die für Exploration/Neugier verwendet werden kann. System B liefert durch seine Aktionen System A reiche und aufgabenbezogene Eingaben, um zu lernen.

Allerdings geschieht die Zusammenarbeit zwischen den beiden Systemen nicht von selbst. Das Forscherteam hat anhand des Beispiels des "Nachahmungslernens" von Kindern gezeigt, dass diese Fähigkeit von der engen Integration und dem kooperativen Betrieb von System A und System B abhängt, was die Komplexität der Zusammenarbeit zwischen den beiden Systemen anschaulich darstellt.

Abbildung | Interaktion der Lernmodi beim Nachahmungslernen. (a) Selbstspiel (Self Play)

System M: Metakontrolle

System M fungiert als zentraler Scheduler und verarbeitet nicht direkt die ursprünglichen Wahrnehmungseingaben oder Bewegungsbefehle, sondern überwacht drei Arten von niedrigdimensionalen internen Metazuständen: Kognitionsignale wie Vorhersagefehler, Unsicherheit und Neuheit. Basierend darauf verbindet oder trennt es dynamisch die Datenpfade zwischen System A, System B und der episodischen Erinnerung und montiert und zerlegt sofort die Lern- und Inferenzpipeline.

Das Vorhandensein von System M ermöglicht auch zwei höhere Lernmodi. Durch Kommunikationslernen werden soziale Trigger-Signale erkannt und die Lerngewichte dynamisch basierend auf der Zuverlässigkeit der Informationsquelle angepasst. Durch Imaginationlernen werden die Sinneseingaben durch Erinnerungen ersetzt und die realen Aktionen durch interne Simulationen, was den Mechanismen der Gedächtniswiederholung und des Schlafkonsolidierung in der Biologie entspricht.

Abbildung | Blueprint der kognitiven Architektur, in der System M als autonomer Koordinator fungiert. System M dient als zentrale Steuerplattform und kann Datenrouting und Trainingspläne automatisch ausführen.

Wie kann man es von Grund auf aufbauen?

Das Blueprint der drei Systeme A, B und M ist bereits fertiggestellt, aber es folgt ein Problem des Kaltstarts: System A ist von den von System B erzeugten Daten abhängig, System B ist von der von System A bereitgestellten Wahrnehmungsstruktur abhängig, und System M ist wiederum von den von beiden erzeugten Fehlersignalen abhängig. Da die drei Systeme voneinander abhängen, wie kann das Lernen beginnen?

Das Forscherteam hat sich an der Unterscheidung zwischen Evolutions- und Entwicklungsmaßstab in der Biologie orientiert und einen zweistufigen Optimierungsrahmen vorgeschlagen, um dieses Dilemma zu lösen. Die innere Stufe entspricht dem Entwicklungsmaßstab: Der Agent interagiert in der Umwelt, und System A