StartseiteArtikel

Der "Gottvater der KI", Hinton, enthüllt erstmals die Auktion vor zehn Jahren: Ich hatte schon damals festgelegt, dass Google unbedingt gewinnen würde.

新智元2025-12-22 07:24
Gewinne durch die Kontrolle des gesamten Spiels

Das "Treffen der beiden Götten" in der KI-Branche ist da! Bei einem fireside talk auf der NeurIPS 2025 standen der "Vater der KI", Hinton, und Jeff Dean auf der Bühne und berichteten persönlich von den "alten Zeiten" der KI-Revolution sowie von vielen anderen bisher unbekannten Anekdoten.

Das damals aufsehenerregende Interview auf der NeurIPS 2025 ist endlich veröffentlicht!

Der "Vater der KI", Hinton, und der Chefwissenschaftler von DeepMind, Jeff Dean, zwei Schlüsselfiguren in der KI-Szene und langjährige Freunde, trafen sich zusammen.

Vor Ort stellte Hinton direkt eine spitze Frage:

Regt sich Google über die Veröffentlichung des Transformer-Papiers bereut?

Jeff Dean gab eine klare Antwort: "Nein, denn es hat eine enorme Wirkung auf die Welt gehabt."

Darüber hinaus gab Hinton öffentlich zu bedenken, dass seine Eureka-Moment in Bezug auf das Scaling von einer Rede von Ilya stammte.

In der fast einstündigen Unterhaltung erinnerten sich die beiden Experten an die frühen Durchbrüche in der Maschinellen Lernens (ML), an die Herausforderungen und Chancen, die das Feld heute prägen, und vieles mehr.

Sie teilten auch einige sehr spannende Anekdoten:

Von den zwei GPUs, mit denen AlexNet aus einem Schlafzimmer heraus betrieben wurde, bis zu den frühen Tagen des Google Brain.

Der Eureka-Moment des "Vaters der KI" in Bezug auf Scaling stammt von Ilya

Der Anfang des Gesprächs begann mit einem interessanten Gemeinsamkeit:

Sowohl Geoff als auch Jeff waren von der "Backpropagation" fasziniert.

Obwohl die Dissertation zu diesem Konzept 1986 in der Zeitschrift Nature offiziell veröffentlicht wurde, wurde es bereits 1982 vorgeschlagen.

Link zur Dissertation: https://www.nature.com/articles/323533a0

Jeff Dean erinnerte sich an seine Bachelorarbeit:

Im Jahr 1990 absolvierte er zunächst einen Kurs über parallele Algorithmen. Innerhalb von nur einer Woche, in der er sich mit neuronalen Netzen beschäftigte, war er sofort fasziniert.

Also beantragte er bei Professor Vipin Kumar der Universität Minnesota eine Ehre-Arbeit mit dem Thema "Parallele Algorithmen zur Training von neuronalen Netzen".

Damals nutzte Jeff Dean einen Hyperwürfelcomputer mit 32 Prozessoren. Er dachte, dass die Rechenleistung um das 32-fache erhöht würde und er so ein erstaunliches neuronales Netzwerk erstellen könnte.

Link zur Dissertation: https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1

Aber die Realität hat ihn eines Besseren belehrt.

Während der Skalierung der Prozessoren (Rechenleistung) wurde die Modellgröße nicht synchron erhöht.

Er hat einfach eine Schicht mit 10 Neuronen auf 32 Prozessoren verteilt, und das Ergebnis war eine katastrophale Leistung.

Jeff Dean hat auch zwei frühe Konzepte entwickelt: "Datenparallele Verarbeitung" und "Modellparallele Verarbeitung" (damals als "Musteraufteilung" bezeichnet).

Andererseits teilte Hinton seine "späte" Erkenntnis über die Bedeutung der Rechenleistung. Er sagte: "Ich hätte in den späten 80er Jahren schon die Wichtigkeit der Rechenleistung erkennen sollen."

Damals gab es zwei Weltklasse-Teams: das ICSI-Team von Berkeley und das Team aus Cambridge.

Sie haben mit paralleler Berechnung bessere akustische Sprachmodelle erstellt, die den damaligen Stand der Technik (SOTA) in der Branche übertroffen und die Leistung von neuronalen Netzen, die auf herkömmliche Weise trainiert wurden, übertrafen.

Aber aufgrund der zunehmenden Modellgröße stieg auch die Komplexität der Programmierung und der Hardware dramatisch an, und sie haben es nicht weiterverfolgt.

Es war erst 2014, nachdem Hinton einen Vortrag von Ilya Sutskever gehört hatte, dass er endgültig erwachte:

Scaling ist von entscheidender Bedeutung, und dieser Trend wird sich fortsetzen.

Die Entstehung von AlexNet

ML erobert "Bilderkennung" über Nacht

Als nächstes richtete sich das Gespräch auf das Jahr 2012 und den Moment des großen KI-Explosions, als AlexNet auf den Markt kam.

Hinton erinnerte sich, dass Vlad Nair zuerst mit NVIDIA-GPUs bei der Straßenerkennung und bei Luftbildern große Erfolge hatte und bewies, dass "mehrschichtige Netzwerke weitaus besser als einschichtige sind".

AlexNet ist ein 8-schichtiges neuronales Netzwerk

Damals beantragte er die Verlängerung der Finanzierung für dieses Projekt, aber es wurde von den Gutachtern abgelehnt:

Dieses Projekt ist nicht finanziell wertvoll, da es keine industrielle Auswirkungen haben kann.

Vor Ort sagte Hinton lachend: "Ich hätte ihm gern gesagt, dass diese Technologie im vergangenen Jahr 80 % des Wachstums an der amerikanischen Börse beigetragen hat."

Anschließend arbeitete der Student Alex Krizhevsky an der Erkennung von "Miniaturbildern" und trainierte damals mit dem MNIST-Datensatz.

Aber Alex scheiterte an seiner Versuch. Hinton stellte fest, dass der Parameter für die Gewichtsregulierung falsch gesetzt war und korrigierte dieses Problem.

Damals sagte Ilya: "Warum nutzen wir nicht einfach ImageNet? Mit einem so großen Datensatz muss es funktionieren. Wir müssen das vor Yann LeCun tun."

Zur gleichen Zeit versuchte LeCun auch ständig, seine Postdocs und Studenten im Labor, konvolutionelle neuronale Netze auf ImageNet anzuwenden, aber alle waren der Meinung, dass es wichtigere Dinge zu tun gab.

Also übernahm Ilya die Datenvorverarbeitung und brachte die Bilder auf eine feste Größe. Das Ergebnis war sehr gut.

Hinton meinte scherzend: "Dann habe ich die erfolgreichste Managemententscheidung meines Lebens getroffen."

Solange Alex die Leistung auf ImageNet um 1 % pro Woche verbessert, darf er die Schreibarbeit seiner Dissertation verschieben.

Das Ergebnis war eine erfolgreiche Iteration Woche für Woche.

Was die Trainingshardware betrifft, waren es die bekannten "zwei NVIDIA GTX 580 GPUs".

Damals absolvierte Alex das Training von AlexNet in seinem eigenen Schlafzimmer mit diesen beiden GPUs. Hinton sagte humorvoll: "Natürlich bezahlen wir die GPUs, und Alex' Eltern zahlen den Strom. Das spart einfach Geld für die Universität von Toronto."

Ein Gespräch in der Kaffeeküche

bringt "Google Brain" zur Welt

Ungefähr zur gleichen Zeit wurde in Google ein neues Team, das Google Brain, ins Leben gerufen.

Jeff Dean erinnerte sich: Der Keim des Google Brain entstand aus einem zufälligen Gespräch in der Kaffeeküche.

An diesem Tag traf er zufällig Andrew Ng, der damals Professor an der Stanford-Universität war (und einmal pro Woche bei Google arbeitete).

Andrew sagte: "Meine Studenten haben bereits gute Ergebnisse mit neuronalen Netzen erzielt."

Diese Worte weckten Jeff Dean sofort. Er dachte: Wir haben genug CPU-Kapazität. Warum trainieren wir nicht riesige neuronale Netze?

Also trainierten sie ein System, das die parallele Verarbeitung von Modellen und Daten unterstützte und auf Tausende von Maschinen skaliert werden konnte.

Dieser berühmte Experiment: Das unüberwachte Lernen auf 10 Millionen YouTube-Videoframes, bei dem das neuronale Netzwerk lernte, "Katzen" zu erkennen.

Sie haben keine Faltungstechnik verwendet, sondern eine "lokal verbundene" Methode für die visuelle Verarbeitung, was zu 2 Milliarden Parametern führte.

Um dieses Training abzuschließen, nutzten sie 16.000 CPU-Kerne.

Jeff sagte: "Wir haben beobachtet, dass je größer das Modell ist, desto besser die Ergebnisse sind. Wir haben es damals nur noch nicht offiziell als Scaling Laws zusammengefasst."

Wir hatten sogar ein Mantra, das in gewisser Weise auch wie Scaling Laws klingt: Größere Modelle, mehr Daten, mehr Rechenleistung.

D.h., ein Jahr vor der Entstehung von AlexNet hatte das Google Brain bereits die Scaling Laws bestätigt.

Ein 64-jähriger Praktikant tritt bei Google ein

Im Sommer 2012 wechselte Andrew Ng zu der Bildungsplattform Coursera, weil er glaubte, dass dies die Zukunft sei.

Also empfahl er Hinton als Nachfolger.

Interessanterweise wollte Hinton zunächst als Gastwissenschaftler arbeiten, aber man musste sechs Monate lang Vollzeit arbeiten, um ein Gehalt zu erhalten.

Also wurde der 64-jährige Hinton ein "Praktikant" bei Google. Und zwar sogar der Praktikant von Jeff Dean.