Der Vater von AlphaGo: Befreiung der künstlichen Intelligenz von menschlichen Daten und 1,1 Milliarden US-Dollar in Seed-Runde gesammelt

Wetten auf die Möglichkeit des nächsten umwerfenden Paradigmas in der KI.

Ineffable, ein junges KI - Startup, das erst seit einigen Monaten besteht und noch keine konkreten Produktformen veröffentlicht hat, hat eine 1,1 - Milliarden - US - Dollar - Saatfinanzierung erhalten, die von Sequoia Capital und Lightspeed geleitet wurde. Index Ventures, Google, NVIDIA und andere haben mitinvestiert. Weitere Beteiligungsinstitute umfassen die British Business Bank und Sovereign AI.

Ein ähnliches Szenario war bereits zuvor aufgetreten: Safe Superintelligence von Ilya Sutskever und AMI Labs von Yann LeCun haben ebenfalls in der Saatstufe über eine Milliarde US - Dollar an Finanzierung erhalten, noch bevor ihre Produkte vollständig klar definiert waren. Die Investoren setzen im Wesentlichen auf das technische Ansehen der Gründer und ihre Einschätzung der zukünftigen KI - Entwicklung.

Bildquelle: Offizielle Website von David Silver

Der Gründer von Ineffable hat auch eine vergleichbare Reputation. Es ist David Silver, der leitende Forscher und technische Antriebsmotor hinter repräsentativen Ergebnissen der Reinforcement Learning wie AlphaGo, AlphaZero, MuZero, AlphaStar und AlphaProof.

Ein Blick auf seine Google Scholar - Seite zeigt, dass seine Publikationen insgesamt über 300.000 Mal zitiert wurden und acht seiner Artikel über 10.000 Zitationen haben. Man kann sagen, dass er ein führender Experte in der modernen Reinforcement Learning - Technologie ist.

Die Kernmission von Ineffable ist es, eine Superintelligenz (Superintelligence) zu schaffen. Sie wollen einen "Superlearner" erschaffen, der in der Lage ist, das gesamte Wissen anhand eigener Erfahrungen zu erkunden.

Ein sich selbst entwickelnder "Superlearner", dessen Ziel es ist, neues wissenschaftliches und technisches Wissen zu entdecken

David Silvers Karriere beweist im Wesentlichen, dass "eine skalierbare Expansion der Intelligenz auch ohne menschliche Priorwissen möglich ist".

Im Jahr 2016 war er an der Entwicklung des KI - Programms AlphaGo bei Google DeepMind beteiligt. AlphaGo kombinierte das Lernen anhand menschlicher Schachpartien, Reinforcement Learning und Selbstspiel und besiegte Lee Sedol im Go - Spiel. Dies war die erste öffentliche Demonstration einer Superintelligenz.

David hat anschließend mit AlphaGo Zero seine Vision auf den Extremfall getrieben: Das menschliche Voreilernen wurde vollständig entfernt, und das System lernte ausschließlich durch Selbstspiel. Dadurch stieg seine ELO - Punktzahl (die auch in den heutigen Ranglisten von großen Modellen verwendet wird) von etwa 3.700 auf über 5.000.

Ein weiteres Ergebnis seiner Arbeit bei DeepMind, AlphaProof, erreichte zusammen mit AlphaGeometry 2 im Jahr 2024 auf den Aufgaben des Internationalen Mathematik - Olympiads den Silbermedaille - Standard.

Zunächst hatte AlphaProof Zugang zu etwa 100.000 formellen Beweisen, die von menschlichen Mathematikern über Jahre hinweg gesammelt wurden. Anschließend generierte sein Reinforcement - Lernalgorithmus durch kontinuierliche Interaktion mit dem formalen Beweissystem eine Milliarde Beweise. Diese Betonung der Interaktionserfahrungen ermöglichte es AlphaProof, mathematische Möglichkeiten außerhalb des bestehenden Bereichs formaler Beweise zu erkunden und Lösungen für neue und herausfordernde Probleme zu finden.

Man kann beobachten, dass mit jedem Schritt, den David macht, das von ihm geschaffene KI - System weniger auf Nachahmung und mehr auf Entdeckung ausgerichtet wird. Ineffable ist der nächste Schritt auf diesem Entdeckungsweg.

Bei einem Gespräch mit einem Reporter von "WIRED" äußerte David, dass er der Meinung ist, dass die derzeit gängigen Ansätze in der KI - Entwicklung scheitern werden. Obwohl die großen Sprachmodelle bereits ein hohes Niveau erreicht haben, lernen sie im Wesentlichen von der menschlichen Intelligenz anstatt eine eigene, ursprüngliche Intelligenz zu entwickeln.

Er illustrierte die Grenzen des Ansatzes der großen Sprachmodelle mit einem Gedankenexperiment: Wenn man ein großes Sprachmodell in eine Zeit zurückschicken würde, in der die "Flache - Erde - Theorie" vorherrschend war, würde es, obwohl es ständig seinen Code optimiert, aufgrund der fehlenden Interaktion mit der realen Welt weiterhin ein Anhänger der "Flache - Erde - Theorie" bleiben.

Er machte einen Vergleich: "Menschliche Daten sind wie ein fossiler Brennstoff, der einen ausgezeichneten Weg bietet. Man kann die selbstlernenden Systeme als erneuerbare Brennstoffe ansehen - sie können unendlich lange lernen, ohne Grenzen."

Er sagte, dass die Mission von Ineffable darin besteht, erstmals Kontakt mit einer Superintelligenz aufzunehmen. Seine Definition einer Superintelligenz ist: Etwas, das wirklich unglaublich ist. Sie sollte in der Lage sein, neues wissenschaftliches, technisches, verwaltungstechnisches oder ökonomisches Wissen autonom zu entdecken.

Stellen Sie sich vor, eine Maschine könnte physikalische Gesetze aus ersten Prinzipien ableiten, neue Zweige der Mathematik erfinden, die der Mensch nie zuvor in Betracht gezogen hat, und neue Materialien, Medikamente und Computer entwerfen, die mit den bestehenden Wörtern noch nicht beschrieben werden können.

Ineffable hat bisher keine konkreten Produkte vorgestellt, sondern nur klar gemacht, dass sie einen "Superlearner" schaffen wollen. Das Ziel dieses Intelligenz - Agenten ist es, Wissen und Fähigkeiten anhand eigener Erfahrungen kontinuierlich zu erkunden, anstatt hauptsächlich auf menschliche Daten zu setzen.

Dieser "Superlearner" wird von einem starken Reinforcement - Lernalgorithmus angetrieben und lernt durch Ausprobieren, Feedback und Selbstverbesserung. Es ist möglich, dass er schließlich die wichtigen Erfindungen der menschlichen Geschichte neu entdecken und übertreffen kann.

Bildquelle: Screenshot aus einer Studie

Aus der Studie "Welcome to the Era of Experience", die David und sein Lehrer Richard Sutton (der Vater der Reinforcement Learning und Turing - Preis - Träger) im April 2025 veröffentlicht haben, können wir einige Hinweise auf den technischen Ansatz von Ineffable erhalten.

Der Kernpunkt der Studie ist: Sobald das volle Potenzial des Erfahrungslernens (experiential learning) freigesetzt wird, werden unglaubliche neue Fähigkeiten auftauchen. Die Ära der Erfahrung wird wahrscheinlich von Intelligenz - Agenten und ihrer Umgebung gemeinsam definiert.

Die Voraussetzung für das Erfahrungslearning ist, dass der Intelligenz - Agent Daten durch Interaktion mit der Umgebung generiert und aus diesen Interaktionen lernt. Lernen und Datengenerierung bilden eine einzige Schleife. Menschliche Daten sind begrenzt, aber Erfahrungen sind "unendlich". Solange der Intelligenz - Agent handeln, beobachten und Feedback erhalten kann, kann er ständig neue Lern - Daten generieren.

Das Problem der derzeitigen, auf menschliche Daten ausgerichteten KI ist, dass für größere Durchbrüche neue Datenquellen erforderlich sind. Die Art und Weise, wie diese Daten generiert werden, muss sich ständig verbessern, wenn der Intelligenz - Agent stärker wird. Jede statische Prozedur zur Generierung synthetischer Daten wird schnell von starken Intelligenz - Agenten überholt.

Die Künstliche Intelligenz steht am Anfang eines neuen Zyklus, in dem Erfahrungen das vorherrschende Mittel zur Leistungssteigerung werden und schließlich in ihrer Größe die menschlichen Daten der heutigen Systeme weit übertreffen werden. Intelligenz - Agenten in der Ära der Erfahrung haben einige Kernmerkmale:

Intelligenz - Agenten werden sich in einem kontinuierlichen Strom von Erfahrungen befinden, anstatt in kurzen Interaktionsabschnitten.

Ihre Handlungen und Beobachtungen werden tief in ihrer Umgebung verwurzelt sein. Die Interaktion wird nicht nur auf Dialoge beschränkt, sondern die Intelligenz - Agenten können reale Handlungen unternehmen, um ihre Welt zu verändern und reichhaltige Beobachtungs - Feedback zu erhalten.

Ihre Belohnungen und Ziele werden direkt auf ihren realen Erfahrungs - Feedback in der Welt basieren. Es wird nicht mehr von einem Bewertungsbeamten subjektiv entschieden, ob eine Handlung gut oder schlecht ist, sondern der Intelligenz - Agent führt Handlungen in der Welt aus, die gute oder schlechte reale Konsequenzen haben, und lernt aus diesen realen Konsequenzen.

Ihre Schlussfolgerungen werden nicht nur auf das Nachahmen des menschlichen Denkprozesses basieren, sondern auf ihrer eigenen Interaktion mit der Welt. Sie werden Vorhersagen treffen, Ausprobieren und Korrekturen vornehmen.

Hier ist zu betonen, dass Belohnung und Planung/Schlussfolgerung die beiden wichtigsten Eckpfeiler in der Ära der Erfahrung sind.

Die Belohnung beantwortet die Frage: "Woraufhin optimiert der Intelligenz - Agent eigentlich?" Heutige große Sprachmodelle verlassen sich hauptsächlich auf menschliche Präferenzen. Menschen beurteilen, bevor sie die realen Konsequenzen sehen, ob eine Antwort oder Handlung gut ist. Im Gegensatz dazu wird ein erfahrungsbasierter Intelligenz - Agent stärker auf reales Welt - Feedback setzen und die Ergebnisse der Handlungen selbst als Lernsignal verwenden.

Planung und Schlussfolgerung beantworten die Frage: "Wie nutzt der Intelligenz - Agent Erfahrungen, um bessere Handlungen zu unternehmen?" Es geht nicht nur darum, einen menschlichen Denkablauf zu imitieren, sondern durch Interaktion mit der Umgebung, Aufbau eines Weltmodells, Vorhersage der Handlungskonsequenzen und Korrektur der eigenen Einschätzung anhand realen Feedbacks. Das heißt, Intelligenz - Agenten in der Ära der Erfahrung lernen nicht nur das Wissen, das der Mensch bereits niedergeschrieben hat, sondern entdecken in der realen Welt - Schleife selbst, was funktioniert, was nicht und warum.

Ein möglicher Weg, um das Denken direkt in die Außenwelt zu verwurzeln, ist der Aufbau eines Weltmodells (world model). Es kann die Auswirkungen der Handlungen des Intelligenz - Agenten auf die Welt vorhersagen, einschließlich der möglichen Belohnungen.

Nehmen wir als Beispiel einen Gesundheitsassistenten. Wenn der Benutzer "seine Fitness verbessern" möchte, kann die Belohnungsfunktion auf reale Signale wie Schlaf, Herzfrequenz, Schritte und Müdigkeitsgefühl abzielen. Das Weltmodell muss vor der Abgabe von Empfehlungen die Auswirkungen verschiedener Lösungen vorhersagen: Würde die Empfehlung eines Fitnessstudios die Trainingshäufigkeit erhöhen? Würde ein Spaziergang am Abend den Schlaf verbessern? Würde eine Reduzierung des Koffeinkonsums die Herzfrequenz und die Einschlafzeit verbessern?

Anschließend werden die realen Gesundheitsdaten und das subjektive Feedback des Benutzers das Modell kalibrieren. Wenn die Vorhersage falsch war, wird es korrigiert; wenn die Empfehlung effektiv war, wird sie verstärkt. Auf diese Weise lernt der Gesundheitsassistent nicht nur, scheinbar vernünftige Empfehlungen zu geben, sondern lernt in der kontinuierlichen Schleife "Empfehlung - Handlung - Feedback - Korrektur", was für diesen Benutzer wirklich geeignet ist.

Die Möglichkeit eines nächsten umwerfenden Paradigmas in der KI

Der Marktwert von OpenAI und Anthropic wurde bereits auf fast eine Billion US - Dollar geschätzt (es gibt Meldungen, dass der Marktwert von Anthropic 1,2 Billionen US - Dollar erreicht hat). Google und Meta haben ebenfalls enorme Investitionen in die KI getätigt. All dies basiert auf der Transformer - Technologiearchitektur. Multimodale Modelle, wie Video - und Bildmodelle, sind eine Kombination der Transformer - und Diffusion - Architekturen.

Einige Unternehmen versuchen, die Transformer - Architektur zu hinterfragen und zu verbessern, um sie schneller und ressourcenschonender zu machen. Beispielsweise erkunden Together AI und Cartesia AI die SSM - Architektur, Liquid AI arbeitet an Randmodellen und RWKV kombiniert RNN und Transformer.

Letztendlich basieren all diese Paradigmen jedoch auf menschlichen Daten, und menschliche Daten haben eine Obergrenze. Ein völlig neues Paradigma mag derzeit noch weiter von der kommerziellen Umsetzung entfernt sein, aber wenn es sich als effektiv erweist und eine neue Ökosystem bildet, können die Vorteile enorm sein. Dies wurde in der Geschichte der Technologieentwicklung bereits mehrfach bewiesen. Dies ist auch der Grund, warum Ineffable in der Saatstufe 1,1 Milliarden US - Dollar an Finanzierung erhalten hat. Die Venture - Capital - Firmen setzen nicht auf das Produkt, sondern auf die Möglichkeit eines nächsten umwerfenden Paradigmas in der KI.

Der Grund für ihre Investition ist David Silver. Aufgrund seines AlphaGo, seiner acht Artikel mit über 10.000 Zitationen und seines Mut und seiner Weitsicht, das bestehende KI - Paradigma herauszufordern. Dies stimmt mit der Logik von Alpha Commune überein, die darauf abzielt, außergewöhnliche Unternehmer zu entdecken und sich auf die Frühphasen - Technologieinvestitionen konzentriert.

Dieser Artikel stammt aus dem WeChat - Account "Alpha Commune". Verfasser: Derjenige, der außergewöhnliche Unternehmer entdeckt. 36Kr hat die Veröffentlichung mit Genehmigung erhalten.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Vater von AlphaGo möchte künstliche Intelligenz von menschlichen Daten “befreien” und hat 1,1 Milliarden US-Dollar in der Seed-Runde gesammelt.

Ein sich selbst entwickelnder "Superlearner", dessen Ziel es ist, neues wissenschaftliches und technisches Wissen zu entdecken

Die Möglichkeit eines nächsten umwerfenden Paradigmas in der KI