Warum hat der Schritt vor 10 Jahren die heutige Künstliche Intelligenz (KI) verändert?

Der 37. Zug von AlphaGo hat die Wahrnehmung von KI verändert. Maschinen können autonom innovieren.

Viele Leute sprechen heute über KI und fixieren sich auf neue Dinge.

Größere Modelle, längere Kontexte und menschenähnlichere Antworten.

Aber Google DeepMind sprach in einer Podcast - Folge am 11. März 2026 über das Spiel, in dem AlphaGo Lee Sedol 2016 besiegte.

Sie nannten diesen Moment den "Wendepunkt der KI".

Warum war es dieses Spiel?

Weil in diesem Spiel ein Zug die Vorstellung vieler Menschen von KI veränderte.

Es ließ die Menschen erstmals erkennen: KI kann nicht nur Menschen nachahmen, sondern möglicherweise Wege gehen, die der Mensch noch nie gegangen ist. Und diese Fähigkeit, wenn sie außerhalb des Schachbretts angewandt wird, wird nicht nur das Go - Spiel verändern.

Wie hat dieser Zug vor 10 Jahren bis heute gewirkt und sogar die Entwicklung der KI verändert?

Abschnitt 1 | Warum Go?

Um zu verstehen, warum dieser Zug so wichtig war, müssen wir zunächst auf die Frage zurückkommen, die die Forscher damals stellten: Warum galt Go lange Zeit als eines der schwierigsten Gebiete für Künstliche Intelligenz.

In dieser Podcast - Folge erinnerte sich Thore Graepel, der Kernarchitekt von AlphaGo, daran, dass Go in den Augen der KI - Forscher fast eine "perfekte Herausforderung" war.

Der Grund ist nicht kompliziert: Die Regeln dieses Spiels sind sehr einfach, aber sobald das Spiel beginnt, wird die Situation schnell extrem komplex.

Jeder scheinbar normale Steinplatz auf dem Brett kann nach einigen Dutzend Zügen eine Kettenreaktion auslösen. Und diese Auswirkungen sind oft schwer im Voraus einzuschätzen.

Wenn man nur Brettspiele vergleicht, denkt viele an Schach. Bereits 1997 besiegte Deep Blue von IBM den Weltmeister Garry Kasparov. Viele Menschen dachten damals, dass Maschinen bald ähnliche Durchbrüche beim Go - Spiel erzielen würden.

Aber das Ergebnis war völlig anders.

Von der Rechenperspektive aus gesehen, ist die Komplexität von Go weit höher als die von Schach.

Beim Schach müssen in einem Spiel etwa 60 bis 70 Züge berücksichtigt werden, während ein Go - Spiel oft 200 bis 300 Züge dauert, und bei jedem Zug gibt es eine Vielzahl möglicher Steinplätze.

Dies bedeutet, dass die Anzahl möglicher Spielsituationen exponentiell wächst und schnell den Bereich überschreitet, den traditionelle Rechenmethoden erschöpfen können.

Pushmeet Kohli, der Wissenschaftliche Leiter von DeepMind, erklärte in der Podcast - Folge diesen Unterschied. Go ist nicht nur deshalb schwierig, weil es viele mögliche Züge gibt, sondern vor allem, weil das Spiel sehr lang dauert und viele Ebenen von Veränderungen vorausberechnet werden müssen.

Für Maschinen bedeutet dies, dass sie in einem riesigen, kaum vorstellbaren Raum nach einem sinnvollen Weg suchen müssen.

Wenn menschliche Go - Spieler mit einer solchen komplexen Situation konfrontiert sind, haben sie ihre eigene Vorgehensweise. Sie berechnen nicht alle möglichen Veränderungen, sondern wählen zunächst mit Hilfe von Erfahrung und Intuition die "aussichtsreichsten" Richtungen aus und führen dann weitergehende Berechnungen durch.

Das Problem ist, dass die frühen Künstlichen Intelligenzen diese Fähigkeit nicht hatten.

Traditionelle KI - Methoden setzen auf intensive Berechnungen und suchen durch ständiges Ausprobieren verschiedener Züge nach besseren Ergebnissen. Aber bei einem so komplexen Problem wie Go stoßen sie schnell an ihre Grenzen. Deshalb galt Go lange Zeit als eine Hürde im Bereich der KI, denn es erfordert nicht nur Rechenleistung, sondern auch eine Fähigkeit, die der menschlichen Intuition ähnelt.

Als DeepMind mit der Go - Forschung begann, versuchten sie, diese beiden Denkweisen zu kombinieren.

Einerseits lernten sie mit Deep Learning die "aussichtsreichsten" Steinplätze im Spiel.

Andererseits nutzten sie Rechenmethoden, um mögliche Folgeveränderungen zu berechnen.

Mit anderen Worten, die Maschine muss sowohl schnell die grobe Richtung erkennen als auch in kritischen Situationen eine tiefgreifende Analyse durchführen können.

Diese Methode ließ die Forscher erstmals den möglichen Durchbruch erkennen.

Abschnitt 2 | Der 37. Zug: Die Maschine ging neuen Wegen

Wenn man nur das Spielresultat betrachtet, könnte der 4:1 - Sieg von AlphaGo über Lee Sedol als technischer Fortschritt verstanden werden.

Aber was wirklich in Erinnerung blieb, war ein Zug im zweiten Spiel.

AlphaGo setzte einen Stein in der fünften Linie des Bretts in einer "Schulteranstoß" - Position.

Der professionelle Go - Spieler Michael Redmond, der damals im Kommentarbereich saß, dachte zunächst, dass es einen Fehler in der Aufzeichnung gegeben habe.

Er nahm den Stein auf und legte ihn wieder hin, denn in der traditionellen Go - Theorie ist dies fast kein Platz, den ein menschlicher Spieler ernsthaft in Betracht ziehen würde.

Als das DeepMind - Team sich später an diesen Moment erinnerte, wurde ein Detail erwähnt: In AlphaGos Modell war die Wahrscheinlichkeit, dass ein Zug wie der 37. Zug nach den historischen Spielnotizen menschlicher Spieler vorkommt, nur 0,01%.

Mit fortschreitendem Spiel begannen viele ursprünglich unlogische Stellungen allmählich ihre Wirkung zu zeigen. Erst nach einigen Dutzend Zügen wurde allmählich klar, dass dieser Zug keine zufällige Experimentierung war, sondern eine Strategie, die sich von der traditionellen Denkweise unterscheidet.

Er veränderte die Kräfteverteilung auf beiden Seiten des Bretts und auch das Verständnis beider Seiten für das Verhältnis zwischen Territorium und Einflussbereich.

Thore Graepel erinnerte sich in der Podcast - Folge, dass ein professioneller Go - Spieler, der neben ihm saß, zunächst die Bedeutung dieses Zuges überhaupt nicht verstand und sogar sagte, dass er seinen Schülern normalerweise klar sagte, nicht so zu spielen.

Aber nach dem Spiel kam der Spieler wieder und sagte ihm, dass es das unvergesslichste Spiel war, das er je gesehen habe, weil die Maschine eine völlig neue Spielweise anwandte.

Das ist die Bedeutung des 37. Zuges.

Dieser Zug wurde nicht direkt aus menschlichen Spielnotizen gelernt, sondern ist eine neue Spielweise, die in der Explorationsphase entstanden ist. Er beweist, dass Maschinen über bestehende Erfahrungen hinausgehen und neue Lösungen finden können.

Deshalb betrachteten viele Forscher diesen Moment als einen Wendepunkt.

Abschnitt 3 | AlphaZero: Keine menschliche Erfahrung erforderlich

Das DeepMind - Team begann auch zu überlegen: Welche anderen Möglichkeiten hat diese Fähigkeit?

Die Antwort kam schnell.

Kurz nachdem AlphaGo Lee Sedol besiegt hatte, unternahm das DeepMind - Team einen scheinbar einfachen, aber damals recht kühnen Versuch: Sie verzichteten auf alle menschlichen Spielnotizen.

Die Maschine lernte nicht mehr aus Millionen von Spielen professioneller Spieler, sondern wusste nur zwei Dinge:

Die Regeln des Go - Spiels und die Kriterien für Sieg und Niederlage.

Dann ließ man sie ständig gegen sich selbst spielen und fand so allmählich bessere Spielweisen.

So funktioniert AlphaZero.

Am Anfang wusste die Maschine fast nichts. Sie spielte einfach ständig und passte ihre Strategie ständig an. Aber je mehr Spiele sie absolvierte, desto besser entwickelte sie ein eigenes Verständnis: Welche Steinplätze mehr Potential haben und welche Stellungen vorteilhafter sind.

Das DeepMind - Team stellte fest, dass die Maschine in der frühen Lernphase allmählich viele klassische Spielweisen im Go - Spiel "wiederentdeckte". Fast alle Erfahrungen, die der Mensch über Jahrhunderte hinweg gesammelt hatte, probierte sie erneut aus. Nach weiterer Exploration begann sie dann, einen Teil davon aufzugeben.

Weil sie einige effektivere Methoden gefunden hatte.

Graepel sagte in der Podcast - Folge, dass dies genau der Punkt ist, der die Forscher an AlphaZero am meisten begeistert: Sie kann nicht nur menschliches Wissen wiederentdecken, sondern auch auf dieser Grundlage Spielweisen finden, die der Mensch nicht bedacht hat.

Und diese Fähigkeit wurde bereits während des Wettbewerbs in Seoul von jemandem vorhergesehen.

Die Filmcrew, die einen Dokumentarfilm über AlphaGo drehte, räumte gerade ihre Ausrüstung ein, aber das Mikrofon war noch eingeschaltet.

Sie nahmen versehentlich ein Gespräch auf.

Demis Hassabis, der CEO von Google DeepMind, und David Silver, der Chef - Forscher, unterhielten sich.

Demis sagte: "Es ist unglaublich, zu sehen, wie schnell ein Problem, das als unmöglich galt, gelöst wurde."

Dann machte er eine Pause und sagte weiter: "Ich bin sicher, dass wir jetzt Proteinfaltung lösen können. Ich dachte schon vorher, dass es möglich ist, aber jetzt können wir es definitiv schaffen."

Abschnitt 4 | Vom Brett ins Labor

Tatsächlich schafften sie es. Das bekannteste Beispiel ist AlphaFold.

In der Biologie ist es seit langem ein äußerst schwieriges Problem, wie Proteine sich in dreidimensionale Strukturen falten.

Wissenschaftler wissen zwar die Aminosäuresequenz der Proteine, aber um ihre endgültige Raumform vorherzusagen, benötigen sie oft Jahre an Experimenten.

AlphaFold gab 2020 in der CASP - Konkurrenz durch das Lernen einer großen Menge an Daten und physikalischen Gesetzen Vorhersageergebnisse, die der experimentellen Genauigkeit nahe kamen.

Viele Forscher bewerteten später, dass diese Arbeit die Forschung in der Strukturbiologie deutlich beschleunigte.

Ähnliches passierte auch im Bereich der Mathematik und der Informatik.

Die Matrixmultiplikation ist eine der grundlegenden Operationen in der Informatik, aber seit Jahrzehnten hat man kaum effizientere Algorithmen gefunden.

DeepMind ließ das Modell ständig in einer großen Anzahl möglicher Rechenschritte experimentieren und fand so einige neue Algorithmen, von denen einige weniger Rechenleistung erfordern als die Methoden, die der Mensch bisher verwendet hat.

Das ist, was AlphaTensor macht.

Ein weiteres Beispiel ist AlphaEvolve.

Das Forschungs - Team wandte die Strategie der Exploration auf technische Probleme an, wie z. B. die Optimierung der Ressourcenallokation in Rechenzentren oder die Verbesserung von Logistikrouten.

In diesen Szenarien sucht die Maschine in einer großen Anzahl möglicher Lösungen nach besseren Anordnungen, und einige Ergebnisse gehen auch über die ursprünglichen Entwürfe der Ingenieure hinaus.

Von der Proteinfaltung über die Matrixmultiplikation bis zur technischen Optimierung.

Hinter all diesen Durchbrüchen steckt dieselbe Methode: Man lässt die Maschine in einer Umgebung mit klar definierten Regeln autonom explorieren und finde Wege, die der Mensch nicht bemerkt hat.

Diese Methode wurde zuerst beim Go - Spiel verifiziert.

Deshalb kehren die DeepMind - Forscher oft zu diesem Spiel zurück.

Wenn man sie fragt, warum die Künstliche Intelligenz in den letzten Jahren so viele Fortschritte gemacht hat, erwähnen sie oft:

Den Zug auf dem Brett.

Epilog | 10 Jahre später: Der Zug noch einmal betrachten

Viele Menschen setzen den Beginn der KI - Welle in die Jahre, in denen die großen Modelle auftraten.

Die DeepMind - Forscher bevorzugen es, sich an das Jahr 2016 zu erinnern.

Dieses Go - Spiel bewies, dass Maschinen nicht nur lernen können, sondern auch schaffen können.

Nachdem diese Fähigkeit verifiziert wurde, hat sich die gesamte Forschungsrichtung verändert.

Der Zug vor 10 Jahren hat nicht nur das Ergebnis eines Spiels verändert.

Er hat dazu geführt, dass die Menschen anfangen zu glauben: Wenn man Maschinen genügend Regeln und Raum zur Exploration gibt, können sie möglicherweise Wege finden, die der Mensch nicht bedacht hat.

Diese Logik wurde in den zehn Jahren nach dem Go - Spiel immer wieder verifiziert.

Und das ist erst der Anfang.

📮 Original - Link:

https://www.youtube.com/watch?v=qoinGjj60Fo&t=1432s

https://deepmind.google/research/alphago/?utm_source=chatgpt.com

Dieser Artikel stammt aus dem WeChat - Account "AI - Deep Researcher", Autor: AI - Deep Researcher, veröffentlicht von 36Kr mit Genehmigung.