Chips aus menschlichen Gehirnzellen spielen Doom: 200.000 lebende Neuronen finden Weg, bekämpfen Feinde und übertreffen Deep Reinforcement Learning

Der Code wurde open source gemacht.

Ein "Gehirn-PU" bestehend aus 200.000 menschlichen Gehirnzellen hat gelernt, das klassische Spiel „Doom“ zu spielen.

Diese lebenden Neuronen haben durch verstärkendes Lernen gelernt, Feinde zu finden, zu schießen, sich zu drehen und sich zu bewegen und sogar Munitionsmanagement zu betreiben.

Es ist dieselbe Technologie, die vor 5 Jahren es Gehirnzellen in einer Petrischale ermöglichte, das Tischtennisspiel Pong zu spielen.

Die Logik von Pong ist sehr einfach. Wenn der Ball nach oben geht, geht der Schläger nach oben. Es ist eine direkte Eingabe-Ausgabe-Beziehung.

Doom ist völlig anders. Es ist 3D, es gibt Feinde, man muss die Umgebung erkunden und es ist sehr anspruchsvoll.

Es hat das Cortical Labs-Team damals 18 Monate gedauert, den Neuronen das Spielen von Tischtennis beizubringen.

Diesmal war es der unabhängige Entwickler Sean Cole, der über die offene Cloud-API von Cortical Labs in weniger als einer Woche die Anpassung von Doom absolvierte. Der Code ist open source.

Obwohl es noch weit von einem eSports-Niveau entfernt ist, gibt der Leiter von Cortical Labs zu, dass das aktuelle Demonstrationsniveau noch sehr primitiv ist.

Zurzeit spielen diese Zellen wie ein Neuling, der noch nie einen Computer gesehen hat. Aber um fair zu sein, haben sie das auch tatsächlich noch nicht.

Der eigentliche Sinn liegt darin, dass es sich um ein Material handelt, das Informationen auf eine sehr besondere Weise verarbeiten kann, und diese Weise ist auf Siliziumchips nicht nachstellbar.

Lernleistung übertrifft drei Hauptverstärkungslernalgorithmen

Um es dem Gehirnchip zu ermöglichen, Spiele zu spielen, liegt der Schlüssel darin, die digitale Spielwelt in eine Sprache zu übersetzen, die Neuronen verstehen können: elektrische Signale.

Das Spielbild wird in ein Muster elektrischer Stimulation umgewandelt. Wenn ein Monster links auf dem Bildschirm erscheint, werden die linken Elektroden im neuronalen Kulturbereich auf dem Chip aktiviert.

Die Neuronen reagieren auf die Stimulation. Die Forscher überwachen die "Spikesignale" dieser Reaktionen und interpretieren sie dann als Spielbefehle. Ein bestimmtes Entladungsmuster lässt die Spielfigur schießen, ein anderes Muster lässt die Figur nach rechts bewegen, und so weiter.

Cortical Labs hat diesmal nicht nur ein Demonstrationsvideo gezeigt, sondern es gibt auch eine Reihe von wissenschaftlichen Studien dahinter.

Einer der Studien erklärt, wie das DishBrain-System verwendet wird, um ein in vitro kultiviertes neuronales Netzwerk mit einer hochdichten Multi-Elektroden-Array zu verbinden und lebende Neuronen direkt mit den drei führenden Deep-Reinforcement-Learning-Algorithmen DQN, A2C und PPO in einer vereinfachten Pong-Umgebung zu vergleichen.

Sie haben die neuronale Spikes-Aktivität an 1024 Kanälen auf der HD-MEA aufgezeichnet, die 285 Spielsitzungen und 147 Ruhephasen umfasste, mit einer Abtastfrequenz von 20 kHz. Mit den beiden Dimensionsreduktionsalgorithmen t-SNE und Isomap hat das Team die hochdimensionalen neuronalen Aktivitäten in einen niedrigdimensionalen Raum eingebettet, um sie zu analysieren.

Der Kernaspekt des Experimentdesigns ist die "Stichprobeneffizienz".

Die Aufnahmezeit eines jeden biologischen Kultursamples für das Spiel betrug 20 Minuten. In dieser Zeit wurden im Durchschnitt etwa 69 bis 70 Partien gespielt. Um einen vergleichbaren Vergleich zu ermöglichen, wurden auch die drei Deep-Reinforcement-Learning-Algorithmen auf die gleiche Trainingsmenge von 70 Partien beschränkt. Jeder Algorithmus wurde mit 150 verschiedenen Zufallssaatwerten trainiert, was 150 unabhängigen neuronalen Netzen entspricht, die 150 verschiedenen biologischen Kultursamples entsprechen.

Die Studie verwendete zwei Quellen von kortikalen Zellen:

Menschliche kortikale Zellen (HCC), die aus induzierten pluripotenten Stammzellen (hiPSC) differenziert wurden, und kortikale Zellen aus Mäuseembryonen (MCC). Etwa 1 Million Zellen wurden auf einem HD-MEA-Chip aufgebracht.

Um den Einfluss der Eingangsinformationendichte auf die Ergebnisse zu berücksichtigen, haben die Forscher für die Verstärkungslernalgorithmen drei verschiedene Eingangsmethoden entworfen: Eine Graustufenbild-Eingabe mit 40x40 Pixeln, eine vierdimensionale Vektor-Eingabe, die die Koordinaten des Schlägers und des Balls enthält, und eine Eingabe der Ballposition, die möglichst die Informationsstruktur von DishBrain simuliert.

Die Ergebnisse sind sehr klar:

Unter allen drei Eingabedesigns übertreffen die biologischen Kulturen alle Verstärkungslernalgorithmen in den drei Kernindikatoren: Durchschnittliche Anzahl der Schläge pro Partie, Direktfehlerquote beim Servieren (aces) und Anteil langer Runden.

Noch wichtiger ist der Unterschied in der Lernentwicklung:

Wenn man die 20-minütigen Experimente in die ersten 5 Minuten und die letzten 15 Minuten aufteilt und vergleicht, zeigt nur die HCC- und die MCC-Gruppe eine statistisch signifikante Verbesserung in der durchschnittlichen Rundendauer. Dagegen zeigt keine signifikante Verbesserung innerhalb der Gruppe bei keinem der Eingabedesigns DQN, A2C und PPO.

Die HCC-Gruppe ist in Bezug auf die relative Verbesserung signifikant besser als alle Verstärkungslernmethoden. Die MCC-Gruppe übertrifft auch in mehreren Vergleichen PPO und DQN.

Die biologischen Kulturen erhalten äußerst spärliche Eingangsinformationen, nur 8 Stimulationselektrodenpunkte, die mit einer Frequenz von 4 bis 40 Hz in einer Rate-Codierung betrieben werden. Im Gegensatz dazu erhalten die Verstärkungslernalgorithmen bei der Bild-Eingabe-Design 1600 Pixel (40x40).

Die Forscher haben speziell eine Kontrollgruppe mit niedrigdimensionaler Eingabe entworfen, um den Einfluss des "Fluch der Dimensionalität" auszuschließen. Sie fanden heraus, dass die Leistung der Verstärkungslernalgorithmen sogar schlechter wird, wenn die Eingabeinformationen noch spärlicher sind, anstatt besser.

Wenn die Trainingsmenge auf Tausende von Partien erweitert wird, können alle drei Algorithmen schließlich das Niveau der biologischen Kulturen übertreffen. Dies bestätigt:

Im realen Zeitmaßstab ist die Stichprobeneffizienz biologischer Systeme bei Weitem höher als die der aktuellen Verstärkungslernalgorithmen.

Was passiert mit den Neuronen im Spiel?

Das Forschungs-Team hat diese Frage eingehend untersucht.

Im Spielzustand können beide Dimensionsreduktionsalgorithmen die Aktivitätsmuster in diesen beiden Phasen klar unterscheiden, was auf deutliche Netzwerkdynamikänderungen hinweist.

Im Ruhezustand sind die Aktivitätsmuster in den beiden Abschnitten im niedrigdimensionalen Raum fast nicht zu unterscheiden.

Das Team hat weiter eine Methode entwickelt, um aus den 1024 Kanälen 30 der repräsentativsten Kanäle auszuwählen, um ein funktionelles Verbindungsnetzwerk aufzubauen.

Wenn man die ersten 2 Minuten und die letzten 2 Minuten jeder Aufzeichnung vergleicht, zeigt das Netzwerk im Spielzustand statistisch signifikante Änderungen in mehreren Indikatoren wie Kantenanzahl, Dichte, durchschnittliches Gewicht und Modularitätsindex. Im Ruhezustand gibt es keine signifikanten Unterschiede in diesen Indikatoren.

Das Netzwerk im Spielzustand zeigt mehr positive, verstärkende funktionelle Verbindungen, und der Modularitätsindex sinkt signifikant. Dies bedeutet, dass ursprünglich voneinander unabhängige neuronale Gemeinschaften mehr Verbindungen zwischen den Gemeinschaften aufbauen und das Netzwerk sich neu organisiert, um die Aufgabe zu erfüllen.

Das Forschungs-Team hat in der Studie dieses System "Synthetische Biologische Intelligenz" (Synthetic Biological Intelligence, SBI) benannt und darauf hingewiesen, dass dies das erste Mal ist, dass ein formeller Leistungsvergleich zwischen SBI und einem Verstärkungslernsystem durchgeführt wird.

In der Diskussionsteil der Studie wird erwähnt, dass der Vorwärts-Lernprozess im Vergleich zur Rückwärtsverpropagation biologisch eher plausibel ist.

Biologische Systeme können auf effizientere Vorwärts-Lernprozesse wie Vorhersagecodierung, aktive Inferenz und Hopfield-Netze zurückgreifen.

Das Team hat auch einen bioinspirierten Algorithmus basierend auf aktiver Inferenz und kontra-faktischem Lernen getestet. Tatsächlich wurde eine schnellere Lernrate als bei Standard-Verstärkungslernen beobachtet. Allerdings hängt der Algorithmus stark von der Wahl der Hyperparameter ab und hat einen viel höheren Energieverbrauch als biologische Systeme.

CL1: Der erste programmierbare biologische Computer

Diese Demonstration wurde auf dem CL1 von Cortical Labs ausgeführt, das letztes Jahr veröffentlicht wurde. Die Firma bezeichnet es als "den ersten weltweit einsetzbaren biologischen Computer, auf dem Code ausgeführt werden kann". Der Kern dieses Geräts ist ein Multi-Elektroden-Array-Chip, auf dem etwa 200.000 lebende menschliche Neuronen wachsen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Chips aus menschlichen Gehirnzellen spielen Doom. 200.000 lebende Neuronen finden selbst den Weg und bekämpfen Feinde. Ihre Lernleistung übertrifft die des Deep Reinforcement Learnings.

Lernleistung übertrifft drei Hauptverstärkungslernalgorithmen

Was passiert mit den Neuronen im Spiel?

CL1: Der erste programmierbare biologische Computer