Neues Interview mit Demis Hassabis: Weg zu AGI erfordert mehr als Kontextfenstererweiterung - Aufbau von kontinuierlichem Lernen und Gedächtnis

Reinforcement Learning wird die Introspektions- und Inferenzfähigkeiten von Large Language Models neu gestalten.

Am 29. April wurde Demis Hassabis, der Leiter von Googles KI-Abteilung und CEO von DeepMind, in einem Interview von YC befragt. Dabei enthüllte er seine neuesten Überlegungen zu AGI, dem Entwicklungspfad großer Modelle, KI-gestützter wissenschaftlicher Entdeckung und Technologie-Startups.

Demis Hassabiss Karriereweg ist in der Technologiebranche äußerst ungewöhnlich. Er wurde in Großbritannien geboren und war in seiner Jugend als Schachwunderkind aufgetaucht. Mit 17 Jahren leitete er die Entwicklung des erfolgreichen Computerspiels "Theme Park". Danach kehrte er in die akademische Welt zurück und absolvierte einen Doktor in kognitiver Neurowissenschaft. Seine Forschungsergebnisse über die Arbeitsweise des Gehirns bei der Gedächtnisbildung und Vorstellungskraft sind zu grundlegenden Erkenntnissen in diesem Bereich geworden. Im Jahr 2010 gründete er gemeinsam DeepMind und fixierte das Team auf eine zentrale Mission: das Lösen des Intelligenzproblems. Das Unternehmen wurde später von Google übernommen, und Hassabis hat seitdem als CEO von Google DeepMind gedient.

In den letzten zehn Jahren hat das DeepMind-Labor zahlreiche technologische Durchbrüche erzielt: AlphaGo besiegte den menschlichen Weltmeister im Go, AlphaFold löste das seit 50 Jahren bestehende Problem der Vorhersage von Proteinstrukturen und machte die Kernresultate kostenlos für Wissenschaftler weltweit zugänglich. Dies führte direkt dazu, dass er im vergangenen Jahr den Nobelpreis für Chemie erhielt. Derzeit führt Hassabis das Google DeepMind-Team bei der Entwicklung des Gemini-Modells an und setzt seinen seit seiner Jugend verfolgten Ziel der allgemeinen Künstlichen Intelligenz (AGI) fort.

Wir haben die Kerninformationen dieses Interviews zusammengefasst. Hier sind die wichtigsten Punkte:

1. Um AGI zu erreichen, muss man über die bloße Erweiterung des Kontextfensters hinausgehen und ein System für kontinuierliches Lernen und Gedächtnis aufbauen

Derzeit ist es üblich in der Branche, das Kontextfenster ständig zu erweitern. Aber das Einfügen aller nützlichen, nutzlosen und sogar fehlerhaften Informationen in das Arbeitsgedächtnis ist eine sehr rechenintensive und gewaltsame Methode. Selbst wenn man ein Kontextfenster mit Millionen von Tokens hat, ist die Suche nach bestimmten Informationen noch immer unrealistisch teuer. Ein echtes AGI-System muss die Fähigkeit zum kontinuierlichen Lernen haben, um neue Informationen elegant in das bestehende Wissensverzeichnis zu integrieren und diese in passenden Situationen präzise abzurufen, anstatt jedes Mal von vorne die lange historische Aufzeichnung zu lesen.

2. Reinforcement Learning wird die Selbstreflexion und das Schlussfolgern von großen Modellen neu gestalten

Reinforcement Learning wird auf dem Weg zu einer höherdimensionalen Intelligenz stark unterschätzt. Die Denkprozesse, die von den aktuellen führenden großen Modellen gezeigt werden, sind im Wesentlichen die Wiederholung der Konzepte von AlphaGo und AlphaZero auf der Ebene von großen Basis-Modellen. Derzeit fehlt den großen Modellen oft die Fähigkeit zur Selbstreflexion. Sie wiederholen blind ihre Fehlentscheidungen. DeepMind führt klassische Algorithmen wie die Monte-Carlo-Baumsuche wieder ein und integriert Reinforcement Learning tief in die großen Modelle, um die Schranken der Schlussfolgerungsfähigkeit der aktuellen Modelle zu überwinden.

3. Kleine Modelle am Endgerät und die Open-Source-Strategie sind die unvermeidliche Wahl für die Endgeräte-Deployment

Dank der Modell-Distillationstechnologie können Modelle mit sehr wenigen Parametern bereits 90 % bis 95 % der Leistung der führenden großen Modelle erreichen und haben dabei enorme Vorteile in Bezug auf Geschwindigkeit und Kosten. In Zukunft wird die Hauptform der Berechnung sein, dass die großen Cloud-Modelle die komplexe Koordination übernehmen, während die am Smartphone, an intelligenten Brillen oder an Haushaltsrobotern laufenden Endgeräte-Modelle lokale sensible Daten verarbeiten. Da die Technologie von Endgeräte-Modellen, sobald sie auf physischen Oberflächen installiert sind, leicht extrahiert werden kann, ist die vollständige Offenlegung ein strategischer Zwang.

4. Das Ziel der KI in der wissenschaftlichen Erforschung ist es, über die Mustererkennung hinauszugehen und neue Hypothesen zu entwickeln

Wissenschaftliche Entdeckungen können nicht nur auf der Interpolation vorhandener Daten basieren. Die KI muss nicht nur bestehende Probleme perfekt lösen, sondern auch die Fähigkeit haben, neue Regeln zu erfinden. DeepMind arbeitet daran, von der "Zellkern"-Ebene auszugehen und in den nächsten zehn Jahren ein komplettes "virtuelles Zellsystem" aufzubauen. Das Maß für die wissenschaftliche Entdeckungsfähigkeit der KI ist, ob sie den "Einstein-Test" bestehen kann: Das heißt, ob sie nur mit den vor 1901 vorhandenen physikalischen Kenntnissen die spezielle Relativitätstheorie unabhängig ableiten kann, ohne auf bekannte Muster zurückzugreifen.

5. Technologie-Entrepreneure sollten hoch spezialisierte vertikale Systeme aufbauen, um mit AGI zu kooperieren

Das Wachstum von Technologieunternehmen dauert normalerweise etwa zehn Jahre. Das bedeutet, dass AGI wahrscheinlich mitten in diesem Zeitraum (um 2030 herum) realisiert werden wird. Angesichts dieser bestimmten Variable sollten Unternehmer nicht versuchen, die komplexen Parameter vertikaler Bereiche in ein allgemeines großes Modell zu zwängen, denn das würde die Effizienz und andere Fähigkeiten des allgemeinen Modells zerstören. Ein sinnvoller Weg ist es, hoch spezialisierte unabhängige Toolsysteme oder Infrastrukturen aufzubauen, die in Zukunft von der allgemeinen AGI als "Gehirn" autonom aufgerufen werden können.

Hier ist der vollständige Transkript des Interviews mit Demis Hassabis:

1. Was fehlt noch, bevor wir AGI erreichen?

Garry Tan: Demis Hassabis hat eine der ungewöhnlichsten Karrieren in der Technologiebranche. Er war als Kind ein Schachwunderkind und entwarf mit 17 Jahren das erste erfolgreiche Computerspiel "Theme Park". Danach kehrte er in die Universität zurück, absolvierte einen Doktor in kognitiver Neurowissenschaft und veröffentlichte grundlegende Forschungsergebnisse über die Arbeitsweise des Gehirns bei der Gedächtnisbildung und Vorstellungskraft. Im Jahr 2010 gründete er gemeinsam DeepMind mit der einzigen Mission: das Intelligenzproblem zu lösen. Ich denke, dass sie das geschafft haben.

Seitdem hat sein Labor ständig Errungenschaften erzielt, die die meisten Menschen für noch Jahrzehnte als unerreichbar hielten. AlphaGo besiegte den Weltmeister im Go, AlphaFold löste das seit 50 Jahren bestehende Problem der Vorhersage von Proteinstrukturen und machte die Ergebnisse kostenlos für Wissenschaftler weltweit zugänglich. Diese Arbeit brachte ihm den Nobelpreis für Chemie im vergangenen Jahr ein. Heute leitet Demis das Google DeepMind-Team bei der Entwicklung von Gemini und strebt das Ziel der allgemeinen Künstlichen Intelligenz (AGI) an, das er schon in seiner Jugend festgelegt hat. Lassen Sie uns Demis begrüßen.

Sie denken über AGI länger nach als fast jeder andere. Betrachten Sie die aktuellen Paradigmen wie die Massiv-Vorausbildung, RLHF und Denkprozessketten (CoT). Wie viel glauben Sie, dass wir bereits über die endgültige Architektur von AGI verstehen? Was fehlt uns im Wesentlichen noch?

Demis Hassabis: Zunächst möchte ich Garry für die wunderbare Einleitung danken. Ich bin sehr froh, hier zu sein und danke für die herzliche Begrüßung. Dieser Ort ist großartig. Ich werde definitely öfter hierher kommen. Es ist wirklich ermutigend, in diesem Bereich zu arbeiten. Zurück zu Ihrer Frage: Ich bin mir sehr sicher, dass die von Ihnen genannten technologischen Komponenten Teil der endgültigen Architektur von AGI werden werden. Sie haben bereits enorme Fortschritte gemacht, und wir haben ihre vielen Funktionen bewiesen. Ich glaube nicht, dass wir in ein paar Jahren feststellen werden, dass diese Technologien in einer Sackgasse enden. Das würde keinen Sinn machen.

Aber auf der Grundlage der bereits bewährten Technologien fehlen vielleicht noch ein oder zwei Schlüsseltechnologien. Zum Beispiel kontinuierliches Lernen, langfristiges Schlussfolgern und Gedächtnissysteme sind immer noch ungelöste Probleme, einschließlich der Frage, wie man das System in allen Aspekten konsistenter machen kann. Ich denke, dass man diese Probleme lösen muss, um AGI zu erreichen.

Es ist möglich, dass die vorhandenen Technologien durch einige fortschrittliche Innovationen direkt auf die Größe von AGI erweitert werden können. Aber es ist auch möglich, dass es noch ein oder zwei große theoretische Probleme zu lösen gibt. Selbst wenn es noch ungelöste Rätsel gibt, denke ich, dass es nicht mehr als ein oder zwei sein werden. Ich denke, dass die Wahrscheinlichkeit für beide Fälle etwa gleich ist. Deshalb arbeiten wir bei Google DeepMind derzeit an beiden Fronten gleichzeitig.

Garry Tan: Beim Umgang mit einer Reihe von Agentensystemen fällt mir am erstaunlichsten auf, dass sie in hohem Maße die gleichen Gewichte wiederverwenden. Deshalb ist das Konzept des kontinuierlichen Lernens (Continual Learning) sehr interessant, denn derzeit versuchen wir es so, als würden wir die Systeme mit Klebeband zusammenhalten, wie z. B. durch die Traumzyklen, die in der Nacht auftreten.

Demis Hassabis: Die Traumzyklen sind wirklich cool. In der Vergangenheit haben wir uns oft mit der Integration von episodischem Gedächtnis durch Konsolidierungsmechanismen beschäftigt. Tatsächlich habe ich während meines Promotionsstudiums untersucht, wie das Hippocampus arbeitet und die Gedächtnisintegration vornimmt, das heißt, wie es neue Informationen elegant in das bestehende Wissensverzeichnis integriert. Das Gehirn ist in dieser Hinsicht sehr gut. Es macht dies hauptsächlich während des Schlafs, insbesondere in der Phase des schnellen Augenmoviments (REM-Schlaf), wenn das Gehirn wichtige Szenen wiederholt, um daraus zu lernen.

Tatsächlich war eines der Methoden, wie unser erstes Atari-Spiel-AI-Programm DQN in der Lage war, die Spiele zu meistern, die "Experience Replay". Wir haben uns an der Neurowissenschaft orientiert und das Modell durch mehrfaches Wiederholen erfolgreicher Trajektorien trainiert. Das war noch 2013. Wenn ich jetzt darüber nachdenke, war das quasi die Dunkelheit der KI. Aber es war ein sehr wichtiger Schritt.

Ich stimme Ihnen zu. Derzeit versuchen wir es so, als würden wir überall reparieren, indem wir einfach alles in das Kontextfenster stopfen. Aber das scheint nicht ganz zufriedenstellend zu sein. Obwohl wir es mit Maschinen und nicht mit biologischen Gehirnen zu tun haben, können Sie Millionen oder sogar Zehn Millionen Tokens im perfekten Kontextfenster oder im Speicher haben. Aber die Suche und das Extrahieren der richtigen Inhalte hat immer noch Kosten, die tatsächlich mit der spezifischen Entscheidung zusammenhängen, die Sie gerade treffen müssen. Dieses Problem sollte nicht unterschätzt werden. Selbst wenn Sie alle Daten speichern können, ist der Aufruf sehr teuer. Ich denke, dass es in Bereichen wie dem Gedächtnis noch enorme Innovationsmöglichkeiten gibt.

Garry Tan: Das stimmt. Es ist verrückt, dass ein Kontextfenster mit Millionen von Tokens derzeit schon groß genug scheint, um viele Operationen zu unterstützen.

Demis Hassabis: Für die meisten Anwendungsfälle ist es tatsächlich groß genug. Wenn man darüber nachdenkt, entspricht das Kontextfenster in gewisser Weise dem Arbeitsgedächtnis. Menschen haben nur eine begrenzte Gedächtnisleistung, im Durchschnitt nur sieben Ziffern. Die aktuelle KI hat ein Kontextfenster mit Millionen oder sogar Zehn Millionen Tokens. Aber das Problem ist, dass wir versuchen, alles hineinzustopfen, einschließlich unwichtiger oder fehlerhafter Informationen.

Die derzeitige "Brute-Force"-Methode scheint nicht sinnvoll zu sein. Die nächste Herausforderung ist, dass wenn Sie versuchen, Echtzeitvideos zu verarbeiten und einfach alle Tokens aufzeichnen, sind eine Million Tokens eigentlich nicht viel. Das entspricht etwa 20 Minuten Video. Wenn Sie also ein System brauchen, das den langfristigen Kontext verstehen kann und weiß, was in den letzten ein oder zwei Monaten in Ihrem Leben passiert ist, brauchen Sie eine viel größere Kapazität.

Garry Tan: DeepMind hat sich in der Vergangenheit immer für Reinforcement Learning und Suchtechniken wie AlphaGo, AlphaZero und MuZero entschieden. Wie viel von diesem Konzept fließt in die aktuelle Entwicklung von Gemini ein? Wird Reinforcement Learning (RL) immer noch unterschätzt?

Demis Hassabis: Ja, ich denke, dass Reinforcement Learning wahrscheinlich unterschätzt wird. Die Entwicklung von Technologien verläuft immer in Wellen. Seit der Gründung von DeepMind haben wir uns mit Agentensystemen beschäftigt, und das war auch unser offiziellem Ziel. Alle Atari-Spiel-Forschungen und AlphaGo sind im Wesentlichen Agentensysteme.

Unter Agentensystemen verstehen wir Systeme, die autonom Ziele verfolgen, aktive Entscheidungen treffen und Pläne entwickeln können. Wir haben diese Arbeit zunächst im Spielbereich begonnen, um es praktikabel zu machen, und haben dann immer komplexere Aufgaben angegangen. Zum Beispiel haben wir nach AlphaGo AlphaStar für das Spiel "StarCraft" entwickelt. Im Wesentlichen haben wir alle damals verfügbaren Spiele gemeistert.

Die nächste Frage war natürlich, ob man diese Modelle zu Weltmodellen oder Sprachmodellen verallgemeinern kann, und nicht nur auf einfache oder komplexe Spielmodelle beschränken. Das ist der Weg, den wir in den letzten Jahren beschritten haben. Tatsächlich können Sie feststellen, dass vieles, was wir heute tun, einschließlich aller führenden Modelle mit Denkprozessen und Denkprozessketten, in gewisser Weise eine Rückkehr zu den bahnbrechenden Eigenschaften von AlphaGo ist.

Ich denke, dass vieles, was wir damals getan haben, auch heute noch sehr relevant ist. Wir überprüfen einige alte Ideen erneut und setzen sie auf der Ebene der heutigen großen Modelle auf eine allgemeinere Weise um, einschließlich Methoden wie der Monte-Carlo-Baumsuche, und stärken das Reinforcement Learning auf der Grundlage der bestehenden Modelle. Sowohl die Ideen von AlphaGo als auch von AlphaZero sind für die aktuelle Entwicklungsphase der Basis-Modelle von großer Bedeutung. Ich denke, dass diese Ideen die Richtung sind, in der wir in den nächsten Jahren große Durchbrüche erwarten können.

2. Warum werden kleine Modelle so leistungsstark?

Garry Tan: Ich habe noch eine Frage. Zurzeit brauchen wir immer größere Modelle, um die Intelligenz zu verbessern. Aber gleichzeitig sehen wir die Anwendung der Modell-Distillationstechnologie, die es ermöglicht, kleinere Modelle viel schneller laufen zu lassen. Sie haben das unglaubliche Flash-Modell, und Sie haben festgestellt, dass es 95 % der Leistung der führenden Modelle erreichen kann,

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Neues Interview mit Demis Hassabis: Um auf den Weg zu AGI zu gelangen, muss man über die bloße Erweiterung des Kontextfensters hinausgehen und ein Mechanismus für kontinuierliches Lernen und Gedächtnis aufbauen.

1. Was fehlt noch, bevor wir AGI erreichen?

2. Warum werden kleine Modelle so leistungsstark?