Der "Vater der KI", Hinton, hielt erstmals einen Nobelpreis-Vortrag, der auf der Titelseite eines Top-Magazins erschien. Er verzichtete auf Formeln und ließ das gesamte Publikum sofort das "Boltzmann-Maschinen"-Konzept verstehen.
Am 8. Dezember 2024 trat der Nobelpreisträger für Physik, Hinton, auf die Bühne und hielt eine Rede mit dem Titel „Boltzmannmaschinen“.
Damals war der Aula Magna der Universität Stockholm so voll, dass es keinen freien Platz gab, und die Aufmerksamkeit der ganzen Welt richtete sich auf diesen Ort.
Er teilte auf verständliche Weise seine Erfahrungen mit John Hopfield bei der Förderung grundlegender Entdeckungen in der maschinellen Lerntechnik mithilfe von neuronalen Netzen.
Heute wurden die Kerninhalte von Hintons Rede am 25. August offiziell in der Zeitschrift der American Physical Society (APS) veröffentlicht.
Link zur Publikation: https://journals.aps.org/rmp/pdf/10.1103/RevModPhys.97.030502
In den 1980er Jahren gab es zwei vielversprechende Techniken zur Gradientenberechnung –
Eine davon war der Backpropagation-Algorithmus, der heute zum Kernmotor des Deep Learnings geworden ist und fast überall eingesetzt wird.
Die andere war der Boltzmann-Maschinen-Lernalgorithmus, der heute nicht mehr verwendet wird und allmählich aus dem Bewusstsein der Menschen verschwindet.
Diesmal lag der Schwerpunkt von Hintons Rede auf den „Boltzmannmaschinen“.
Zu Beginn seiner Rede sagte er humorvoll, dass er vorhatte, etwas „Dummes“ zu tun, nämlich komplexe technische Konzepte ohne Verwendung von Formeln für alle zu erklären.
Hopfield-Netzwerke
Den Energie-Minimum-Punkt finden
Was sind „Hopfield-Netzwerke“? (Hopfield Network)
Hinton begann mit einem einfachen binären neuronalen Netzwerk und erläuterte das Kernkonzept der Hopfield-Netzwerke.
Jedes Neuron hat nur zwei Zustände, 1 oder 0. Am wichtigsten ist, dass die Neuronen über symmetrische Gewichtungen miteinander verbunden sind.
Der globale Zustand des gesamten neuronalen Netzwerks wird als eine „Konfiguration“ (configuration) bezeichnet und hat eine „Güte“ (goodness).
Die „Güte“ wird durch die Summe der Gewichtungen zwischen allen aktiven Neuronen bestimmt. Wie in der obigen Abbildung alle roten Quadrate, die Gewichtungen addieren sich zu 4.
Dies ist die Güte dieser Netzwerk-Konfiguration, und die Energie (energy) ist der negative Wert der Güte.
Der Sinn der Hopfield-Netzwerke besteht darin, dass jedes Neuron durch lokale Berechnungen entscheidet, wie die Energie gesenkt werden kann.
Hier repräsentiert die Energie die „Schlechtigkeit“ (badness). Daher hängt es von der „Vorzeichen“ der Gesamtgewichtungs-Eingabe ab, ob ein Neuron aktiviert oder deaktiviert wird.
Durch ständige Aktualisierung des Zustands der Neuronen wird das Netzwerk schließlich in einem Zustand stabilisiert, in dem die Energie am niedrigsten ist.
Aber es ist nicht der einzige Energie-Minimum-Punkt, denn Hopfield-Netzwerke können viele Energie-Minimum-Punkte haben. Welcher Punkt am Ende erreicht wird, hängt vom Anfangszustand und von der zufälligen Entscheidungssequenz ab, welches Neuron aktualisiert wird.
Im Folgenden ist ein besserer Energie-Minimum-Punkt dargestellt. Wenn das rechte neuronale Netzwerk aktiviert wird, beträgt seine Güte 3 + 3 - 1, und die Energie beträgt -5.
Das Besondere an den Hopfield-Netzwerken ist, dass sie den Energie-Minimum-Punkt mit dem Gedächtnis verknüpfen können.
Hinton beschrieb es anschaulich: „Wenn Sie ein unvollständiges Gedächtnisfragment eingeben und dann ständig die binären Entscheidungsregeln anwenden, kann das Netzwerk das vollständige Gedächtnis ergänzen.“
Wenn also der Energie-Minimum-Punkt das Gedächtnis repräsentiert, ist der Prozess, in dem das Netzwerk in den Energie-Minimum-Zustand kommt, die sogenannte „Inhaltsadressierbare Speicherung“.
Das bedeutet, dass Sie nur einen Teil eines Elements aktivieren müssen, um auf ein Element im Speicher zuzugreifen. Nachdem Sie diese Regel angewendet haben, wird das Netzwerk es ergänzen.
Nicht nur Gedächtnisspeicherung
Sondern auch die Interpretation von „sensorischen Eingaben“
Als Nächstes teilte Hinton weitere Informationen über die innovative Anwendung der Hopfield-Netzwerke mit Terrence Sejnowski (Hopfields Schüler) –
Es wird verwendet, um Interpretationen von sensorischen Eingaben zu erstellen, nicht nur um Gedächtnis zu speichern.
Sie teilten das Netzwerk in „sichtbare Neuronen“ und „versteckte Neuronen“ auf.
Die ersteren nehmen sensorische Eingaben auf, wie beispielsweise ein binäres Bild. Die letzteren werden verwendet, um Interpretationen dieser sensorischen Eingaben zu erstellen. Die Energie einer bestimmten Konfiguration des Netzwerks repräsentiert die Schlechtigkeit dieser Interpretation. Sie suchen nach einer Interpretation mit niedriger Energie.
Hinton nahm ein klassisches, mehrdeutiges Linienbild – den Necker-Würfel (Necker cube) – als Beispiel, um zu zeigen, wie das Netzwerk die Komplexität visueller Informationen verarbeitet.
Einige Menschen sehen in diesem Bild einen „konvexen Körper“, andere einen „konkaven Körper“.
Wie können wir also ein neuronales Netzwerk dazu bringen, aus diesem Linienbild zwei verschiedene Interpretationen abzuleiten? Bevor wir das tun, müssen wir uns fragen: Was kann uns eine Linie in einem Bild über eine dreidimensionale Kante sagen?
Visuelle Interpretation: Von 2D zu 3D
Stellen Sie sich vor, Sie schauen durch ein Fenster auf die Welt draußen und zeichnen dann die Umrisse der Dinge, die Sie sehen, auf das Glas.
Die schwarze Linie auf dem Fenster ist dann eine Kante, die Sie gezeichnet haben.
Und die beiden roten Linien sind die Sichtlinien, die von Ihren Augen ausgehen und die Enden dieser schwarzen Linie durchqueren.
Die Frage ist nun: Was für eine Kante in der realen Welt hat diese schwarze Linie erzeugt?
Es gibt tatsächlich viele Möglichkeiten. Alle verschiedenen dreidimensionalen Kanten werden schließlich im Bild dieselbe Linie erzeugen.
Das größte Problem für das visuelle System ist, wie man aus dieser zweidimensionalen Linie rückschließen kann, welche Kante in der Realität tatsächlich existiert?
Dafür entwarfen Hinton und Sejnowski ein Netzwerk, das die Linien in einem Bild in den Aktivierungszustand von „Linienneuronen“ umwandeln kann.
Dann werden diese über exzitatorische Verbindungen mit den „Dreidimensional-Kanten-Neuronen“ (grün) verbunden und gegenseitig gehemmt, um sicherzustellen, dass nur eine Interpretation aktiviert wird.
So werden viele Prinzipien der Wahrnehmungsoptik berücksichtigt.
Als Nächstes wendete Hinton diese Methode auf alle Neuronen an. Die Frage ist, welche Kanten-Neuronen sollten aktiviert werden?
Um diese Frage zu beantworten, benötigen wir mehr Informationen.
Wenn Menschen Bilder interpretieren, folgen sie bestimmten Prinzipien. Beispielsweise nehmen wir an, dass wenn zwei Linien sich schneiden, sie auch im dreidimensionalen Raum an demselben Punkt schneiden und die gleiche Tiefe haben.
Darüber hinaus neigt das Gehirn dazu, Objekte als rechtwinklig zueinander anzusehen.
Durch geeignete Einstellung der Verbindungsstärken kann das Netzwerk zwei stabile Zustände bilden, die den beiden dreidimensionalen Interpretationen des Necker-Würfels entsprechen – konkav und konvex.
Diese Methode der visuellen Interpretation bringt zwei Kernprobleme mit sich:
Suchproblem: Das Netzwerk kann in einem lokalen Optimum stecken bleiben und sich auf eine schlechte Interpretation festlegen, ohne zu einer besseren zu gelangen.
Lernproblem: Wie kann das Netzwerk die Verbindungsgewichte automatisch lernen, anstatt sie manuell einzustellen?
Suchproblem: Neuronen mit Rauschen
Die grundlegende Lösung für das „Suchproblem“ ist die Einführung von Neuronen mit Rauschen, also „zufälligen binären Neuronen“.
Der Zustand dieser Neuronen ist „binär“ (entweder 1 oder 0), aber ihre Entscheidungen sind stark probabilistisch.
Starke positive Eingaben führen zur Aktivierung, stark negative Eingaben zur Deaktivierung. Bei Eingaben nahe Null wird die Entscheidung zufällig getroffen.
Das Rauschen ermöglicht es dem neuronalen Netzwerk, „Berge zu erklimmen“ und von einer schlechteren Interpretation zu einer besseren zu gelangen, ähnlich wie bei der Suche nach dem tiefsten Punkt in einem Tal.