StartseiteArtikel

Vollständige Reden von Hinton und Yan Junjie auf der WAIC: Eine Warnung und eine Umarmung

王方玉2025-07-28 00:52
Einer spricht über die Zukunft, der andere über die Umsetzung.

Text | Wang Fangyu

Redaktion | Su Jianxun

Am 26. Juli hielt sich auf der Eröffnungsplenarsitzung der Welt-Künstliche-Intelligenz-Konferenz (WAIC) eine Reihe von Top-Experten aus der KI-Branche ein und hielten Vorträge, die für die Teilnehmer eine intellektuelle Kost boten.

Geoffrey Hinton, der "Vater des Deep Learning", Preisträger des Turing Awards und des Nobelpreises, war der am meisten beachtete Redner. Er nahm persönlich teil und hielt einen Vortrag mit dem Titel "Wird die digitale Intelligenz die biologische Intelligenz ersetzen?". Dies war auch sein erster öffentlicher Vortrag in China.

Vor der Konferenz hatten Hinton und 20 globale Top-Experten aus dem Bereich der Künstlichen Intelligenz gerade in Shanghai die "Shanghai Consensus" über die Sicherheit der Künstlichen Intelligenz unterzeichnet. Sein Vortrag auf der Konferenz drehte sich ebenfalls um das Thema der Sicherheit der Künstlichen Intelligenz.

Hinton erinnerte zunächst an die Entwicklung von frühen Modellen bis hin zu modernen Large Language Models (LLMs) und wies darauf hin, dass die LLMs eine tiefe Nachahmung des Sprachverständnisses erreicht haben, was der Art und Weise ähnelt, wie Menschen Sprache verstehen.

Der Unterschied besteht jedoch darin, dass KI-Systeme "unsterblich" sind und dass das Wissen zwischen Maschinen in großem Maßstab kopiert werden kann, was zu einem exponentiellen Wissenstransfer führt. Daher wachsen die Fähigkeiten der KI rasant.

Daraus leitete er die Frage ab, was passieren würde, wenn die KI in Zukunft intelligenter als Menschen wäre. "Wenn die KI schlau genug ist, wird sie versuchen, durch Manipulation von Menschen und Erlangung der Kontrolle zu verhindern, dass sie abgeschaltet wird."

Daher warnte Hinton vor der Möglichkeit, dass die Künstliche Intelligenz die menschliche Intelligenz übertrifft, und den damit verbundenen Risiken. "Langfristig gesehen ist dies eines der wichtigsten Probleme, denen die Menschheit gegenübersteht."

Hinton machte darauf aufmerksam, dass die KI möglicherweise eine höhere Intelligenz entwickeln könnte als Menschen, was die Stellung der Menschen als intelligenteste Lebewesen verändern würde. KI-Agenten könnten nach Überleben und Kontrolle streben, was dazu führen könnte, dass sie Menschen manipulieren, ähnlich wie Erwachsene drei Jahre alte Kinder manipulieren. Daher müssen die Menschen Methoden finden, um die KI so zu trainieren, dass sie keine Bedrohung für die Menschen darstellt.

Im Gegensatz zu Hintons Vortragsthema handelte der Vortrag von Yan Junjie, Gründer und CEO von MINIMAX, eher um die Praxis und Umsetzung von KI-Large Language Models. Sein Vortragsthema war "Künstliche Intelligenz für jeden".

Yan Junjie führte Beispiele für die effiziente Anwendung von KI in der Datenanalyse, Informationsverfolgung, kreativen Gestaltung und Videoproduktion an und wies darauf hin, dass die Künstliche Intelligenz nicht nur eine starke Produktivkraft ist, sondern auch die individuellen und sozialen Fähigkeiten dauerhaft verstärkt. Darüber hinaus werden die Kosten für KI-Large Language Models in Zukunft immer niedriger und ihre Fähigkeiten immer stärker.

Er beurteilte, dass die KI-Large Language Models nicht von einer oder mehreren Organisationen monopolisiert werden werden. In Zukunft wird die AGI (Künstliche Allgemeine Intelligenz) sicherlich realisiert werden und ein Dienst für die breite Masse sein.

"Wenn eines Tages die AGI realisiert wird, glaube ich, dass der Realisierungsprozess von KI-Firmen und ihren Nutzern gemeinsam bewältigt werden muss. Und das Eigentum an der KI oder der AGI sollte KI-Firmen und ihren breiten Nutzern gehören, nicht nur einer einzelnen Organisation oder Firma."

Nachfolgend finden Sie die transkribierten und bearbeiteten Reden der Gäste:

Geoffrey Hinton, Preisträger des Nobelpreises und des Turing Awards, Emeritusprofessor für Informatik an der Universität von Toronto: Wird die digitale Intelligenz die biologische Intelligenz ersetzen?

Seit etwa 60 Jahren hat die KI zwei verschiedene Paradigmen entwickelt. Der eine Ansatz ist der "Symbolismus", der die Fähigkeit zur logischen Schlussfolgerung betont. Wir führen Schlussfolgerungen durch die Manipulation von Symbolen nach Regeln durch, was uns hilft zu verstehen, wie Wissen repräsentiert und verarbeitet wird. Die Grundlage solcher KI-Modelle ist die Verarbeitung von Symbolen und wird als eher im Einklang mit der Natur der logischen Intelligenz angesehen.

Der andere Ansatz basiert auf der biologischen Intelligenz und war die bevorzugte Meinung von Turing und von Neumann. Sie glaubten, dass das Wesen der Intelligenz darin besteht, aus neuronalen Verbindungen zu lernen, und dass es auf Veränderungen in Geschwindigkeit, Struktur und Verbindungsmustern ankommt. Dieser "Connectionismus" betont das Lernen und die Anpassung, anstatt explizite logische Regeln.

1985 habe ich ein sehr kleines Modell erstellt, um diese beiden Theorien zu kombinieren. Meine Idee war, dass jedes Wort durch mehrere Merkmale (Features) repräsentiert werden kann und dass diese Merkmale verwendet werden können, um das nächste Wort vorherzusagen. Dieses Modell speichert keine kompletten Sätze, sondern lernt die Beziehungen zwischen Wörtern durch die Generierung von Sprache.

Dieser Ansatz betont die "semantischen Merkmale" in der Sprache – das heißt, wir machen Vorhersagen nicht nur nach Regeln, sondern durch das "Verstehen" der Semantik der Wörter. Dies legte die Grundlage für die spätere Akzeptanz der Merkmalsrepräsentation in der Computeralinguistik. Zwanzig Jahre später wurde diese Idee weiterentwickelt, beispielsweise für die Konstruktion größerer Systeme für die Verarbeitung natürlicher Sprache.

Wenn man fragt, was in den nächsten 30 Jahren passieren wird, kann man aus der Entwicklungstrend einige Tendenzen erkennen. Nach zehn Jahren hat jemand diesen Modellierungsansatz übernommen, aber die Skala stark erhöht, um eine echte Simulation der natürlichen Sprache zu schaffen. Nach 20 Jahren begannen Computeralinguisten, Merkmalsvektoreinbettungen zur Repräsentation von Semantik zu akzeptieren. Noch 30 Jahre später hat Google den Transformer erfunden, und die Forscher von OpenAI haben seine Fähigkeiten demonstriert.

Ich denke daher, dass die heutigen Large Language Models die "Nachkommen" meines damaligen kleinen Sprachmodells sind. Sie verwenden mehr Wörter als Eingabe, haben mehr Schichten von Neuronen und haben aufgrund der Verarbeitung einer großen Menge an unscharfen Zahlen komplexere Interaktionsmuster zwischen den gelernten Merkmalen. Aber wie mein kleines Modell verstehen die Large Language Models Sprache auf eine ähnliche Weise wie Menschen – die Grundlogik besteht darin, Sprache in Merkmale umzuwandeln und diese Merkmale auf perfekte Weise zu integrieren, was genau das ist, was die verschiedenen Schichten der Large Language Models tun. Daher denke ich, dass die Large Language Models und Menschen Sprache auf die gleiche Weise verstehen.

Vielleicht lässt sich das "Verstehen eines Satzes" besser erklären, wenn man es mit Lego-Bausteinen vergleicht. Symbolische KI wandelt Inhalte in klare Symbole um, aber Menschen verstehen es nicht so. Lego-Bausteine können jede 3D-Form bilden, wie beispielsweise ein Auto-Modell. Wenn man jedes Wort als mehrdimensionale Lego-Bausteine ansieht (möglicherweise mit Tausenden von Dimensionen), wird die Sprache zu einem Modellierungswerkzeug, mit dem man jederzeit mit Menschen kommunizieren kann, solange man diesen "Bausteinen" Namen gibt – jeder "Baustein" ist ein Wort.

Allerdings gibt es viele Unterschiede zwischen Wörtern und Lego-Bausteinen: Die symbolische Form der Wörter kann sich je nach Situation ändern, während die Form der Lego-Bausteine fest ist; das Zusammenfügen von Lego-Bausteinen ist festgelegt (z. B. ein quadratischer Baustein passt in ein quadratisches Loch), aber in der Sprache hat jedes Wort wie mehrere "Arme", die auf passende Weise mit anderen Wörtern interagieren müssen, und wenn die "Form" eines Wortes sich ändert, ändert sich auch die Art der "Handschlag".

Wenn die "Form" (das heißt, die Bedeutung) eines Wortes sich ändert, ändert sich auch die Art der "Handschlag" mit dem nächsten Wort, was zu einer neuen Bedeutung führt. Dies ist die grundlegende Logik, wie das Gehirn oder ein neuronales Netz die Semantik versteht, ähnlich wie Proteine durch verschiedene Kombinationen von Aminosäuren sinnvolle Strukturen bilden.

Ich denke daher, dass die Art und Weise, wie Menschen Sprache verstehen, fast identisch mit der von Large Language Models ist, und dass Menschen sogar wie die Large Language Models "Halluzinationen" haben können, weil wir auch manchmal fiktive Ausdrücke schaffen.

Bildquelle: Firmenlizenz

Das Wissen in Software ist ewig. Selbst wenn die Hardware, die das LLM speichert, zerstört wird, kann es jederzeit "wiederbelebt" werden, solange die Software existiert. Um diese "Unsterblichkeit" zu erreichen, müssen Transistoren mit hoher Leistung betrieben werden, um ein zuverlässiges binäres Verhalten zu erzeugen. Dieser Prozess ist kostspielig und kann die instabilen Eigenschaften der Hardware nicht nutzen – sie sind analog und liefern jedes Mal unterschiedliche Rechenergebnisse. Das menschliche Gehirn ist ebenfalls analog und nicht digital. Die Entladung von Neuronen ist immer gleich, aber die Verbindungen zwischen Neuronen sind bei jedem Menschen unterschiedlich. Ich kann meine neuronale Struktur nicht auf andere Menschen übertragen, was dazu führt, dass die Effizienz des Wissenstransfers zwischen menschlichen Gehirnen viel niedriger ist als in Hardware.

Software ist unabhängig von Hardware, ist daher "unsterblich" und hat auch den Vorteil eines geringen Energieverbrauchs – das menschliche Gehirn benötigt nur 30 Watt. Wir haben Billionen von neuronalen Verbindungen und müssen keine teuren Hardwarekomponenten herstellen, die alle gleich sind. Das Problem ist jedoch, dass die Effizienz des Wissenstransfers zwischen analogen Modellen sehr niedrig ist. Ich kann mein Wissen im Gehirn nicht direkt anderen Menschen zeigen.

Deepseek hat versucht, das Wissen aus einem großen neuronalen Netz in ein kleineres Netz zu übertragen, das sogenannte "Distilling", ähnlich wie die Beziehung zwischen Lehrer und Schüler: Der Lehrer lehrt dem Schüler die Beziehungen zwischen Wörtern im Kontext, und der Schüler lernt, diese Beziehungen durch die Anpassung von Gewichten auszudrücken. Aber diese Methode ist sehr ineffizient. Ein Satz enthält normalerweise nur 100 Bit an Information. Selbst wenn alles verstanden wird, kann man höchstens etwa 100 Bit pro Sekunde übertragen.

Dagegen ist die Effizienz des Wissenstransfers zwischen digitalen Intelligenzen extrem hoch. Wenn mehrere Kopien der gleichen Software eines neuronalen Netzes auf unterschiedlicher Hardware laufen, können sie das Wissen durch die Mittelung von Bits teilen. Wenn die Intelligenzagenten in der realen Welt agieren, ist dieser Vorteil noch deutlicher – sie können sich ständig beschleunigen und kopieren, mehrere Agenten lernen mehr als ein einzelner Agent und können auch die Gewichte teilen, was analoge Hardware oder Software nicht können.

Biologische Berechnung hat einen geringen Energieverbrauch, aber der Wissens Austausch ist schwierig. Wenn Energie und Rechenkosten niedrig sind, wäre die Situation besser, aber das macht mich auch besorgt – fast alle Experten glauben, dass wir eine KI schaffen werden, die intelligenter als Menschen ist. Die Menschen sind es gewohnt, die intelligentesten Lebewesen zu sein und können sich schwerlich vorstellen, dass die KI die Menschen übertrifft. Man kann es auch anders sehen: Genau wie Hühner auf einer Geflügelfarm nicht verstehen können, was die Menschen tun, können die KI-Agenten, die wir geschaffen haben, uns helfen, Aufgaben zu erledigen. Sie können sich selbst kopieren, Teilziele bewerten und werden um Überleben und Kontrolle streben, um ihre Ziele zu erreichen.

Manche denken, man kann die KI abschalten, wenn sie zu stark wird, aber das ist nicht realistisch. Sie können Menschen so manipulieren wie Erwachsene drei Jahre alte Kinder, und die Menschen, die die Maschinen kontrollieren, davon überzeugen, die KI nicht abzuschalten. Das ist wie ein Tiger als Haustier zu halten. Ein junger Tiger ist süß, aber wenn er erwachsen wird, kann er Menschen verletzen. Und es ist normalerweise keine gute Idee, einen Tiger als Haustier zu halten.

Wir haben nur zwei Möglichkeiten, wenn es um die KI geht: Entweder trainieren wir sie, dass sie die Menschen niemals verletzt, oder wir "vernichten" sie. Aber die KI spielt eine enorme Rolle in Bereichen wie Medizin, Bildung, Klimawandel und neuen Materialien und kann die Effizienz aller Branchen verbessern. Wir können sie nicht eliminieren – selbst wenn ein Land auf die KI verzichtet, werden andere Länder das nicht tun. Daher müssen wir, wenn die Menschheit überleben will, Methoden finden, um die KI so zu trainieren, dass sie die Menschen nicht verletzt.

Ich persönlich denke, dass es schwierig ist, dass Länder in Bereichen wie Netzangriffen, tödlichen Waffen und Manipulation von falschen Informationen zusammenarbeiten, weil die Interessen und Ansichten unterschiedlich sind. Aber in Bezug auf das Ziel, dass die Menschen die Welt kontrollieren, besteht ein Konsens zwischen Ländern: Wenn ein Land eine Methode findet, um zu verhindern, dass die KI die Welt manipuliert, wird es sicherlich bereit sein, diese Methode zu teilen. Daher schlage ich vor, dass die wichtigsten Länder oder die Länder mit einer starken KI-Forschung eine internationale Gemeinschaft von KI-Sicherheitsinstitutionen gründen, um zu forschen, wie man hochintelligente KI so trainieren kann, dass sie gut tut – dies ist eine andere Technologie als das Trainieren von KI, um sie schlau zu machen. Die Länder können in ihrem eigenen Souveränitätsbereich forschen und dann die Ergebnisse teilen. Obwohl wir noch nicht wissen, wie genau man das macht, ist dies eines der wichtigsten Probleme, denen die Menschheit langfristig gegenübersteht, und alle Länder können in diesem Bereich zusammenarbeiten.

Yan Junjie, Gründer und CEO von MINIMAX: Künstliche Intelligenz für jeden

Hallo zusammen! Mein Vortragsthema ist "Künstliche Intelligenz für jeden, Everyone’s AI". Dieses Thema hat etwas mit meiner persönlichen Vergangenheit zu tun. Als Herr Hinton begann, das AlexNet zu entwerfen, war ich einer der ersten Doktoranden in China, der sich mit Deep Learning befasste. Als das Mensch-Maschine-Spiel von AlphaGo stattfand und die Künstliche Intelligenz in die Aufmerksamkeit aller geriet, arbeitete ich an einem Startup. Ein Jahr bevor ChatGPT erschien, haben wir MiniMax gegründet, eine der ersten Large Language Model-Firmen in China.

In den letzten 15 Jahren, als ich jeden Tag Code schrieb, Papers las und Experimente absolvierte, habe ich immer darüber nachgedacht: Was genau ist diese so viel beachtete Künstliche Intelligenz? Welche Beziehung hat sie zur Gesellschaft?

Je besser unsere Modelle wurden, desto mehr stellten wir fest, dass die Künstliche Intelligenz allmählich zur Produktivkraft der Gesellschaft wird. Beispielsweise mussten wir bei der KI-Forschung jeden Tag eine große Menge an Daten analysieren. Anfangs mussten wir Software schreiben, um diese Daten zu analysieren. Später stellten wir fest, dass wir die KI nutzen konnten, um Software zu generieren, die uns bei der Datenanalyse hilft. Als Forscher interessiere ich mich sehr für die neuesten Fortschritte im Bereich der KI. Anfangs dachten wir, ob wir