Der Vater von AlphaGo mit 300.000 Zitierungen: In nur vier Monaten 10 Milliarden Yuan Kapital beschafft und überzeugt von RL für ASI-Schaffung

Die Seed-Runde-Finanzierung hat Yann Lecun übertroffen und einen europäischen Rekord aufgestellt.

【Einführung】Das von David Silver, dem Vater von AlphaGo, gegründete Ineffable Intelligence hat in der Saatkapitalrunde 1,1 Milliarden US - Dollar erhalten und damit einen europäischen Finanzierungsrekord aufgestellt. Der Unternehmenswert beträgt 5,1 Milliarden US - Dollar. Dieses Unternehmen setzt auf verstärkendes Lernen und Lernen aus eigener Erfahrung und versucht, die Hauptlinie der großen Modelle, die auf dem Skalengesetz basieren, herauszufordern.

Am 27. April hat das in London gegründete KI - Labor Ineffable Intelligence, das von David Silver, einem ehemaligen Top - Forscher von Google DeepMind und Professor an der UCL, gegründet wurde, die Saatkapitalrunde mit 1,1 Milliarden US - Dollar abgeschlossen. Der Unternehmenswert nach der Finanzierung beträgt 5,1 Milliarden US - Dollar.

https://www.cnbc.com/2026/04/27/deepmind-ineffable-intelligence-record-seed-funding-nvidia-google.html

Dies ist die bisher größte Saatkapitalrunde in Europa.

Sequoia Capital und Lightspeed Venture Partners haben die Finanzierung gemeinsam geleitet. Nvidia, Google, Index, DST Global, der britische Sovereign AI Fund und andere haben beteiligt.

Das Ziel von Ineffable ist es, einen "Superlearner" zu schaffen, der aus eigener Erfahrung Wissen gewinnt und das verstärkende Lernen weiter in Richtung ASI vorantreibt.

Das Besondere an diesem Geld liegt in der Phase.

Ineffable wurde erst vor einigen Monaten gegründet. Öffentliche Produkte, Einnahmen und Roadmaps sind noch begrenzt, aber es hat sofort einen Unternehmenswert von 5,1 Milliarden US - Dollar erreicht.

Die KI - Investitionen haben eine neue Phase erreicht. Das persönliche Vertrauen von Spitzenforschern ersetzt zunehmend die traditionelle kommerzielle Validierung und wird zur knappsten Sicherung für Frühphasenfinanzierungen.

Dieses riesige Kapital fließt in das verstärkende Lernen

In den letzten drei Jahren war die Hauptlinie der KI - Branche die großen Sprachmodelle.

Größere Korpora, größere Cluster und stärkere Inferenz bilden fast das gemeinsame Muster aller Spitzenunternehmen.

Silver hat sich für einen anderen Weg entschieden: das verstärkende Lernen.

Der Kern des verstärkenden Lernens besteht darin, dass das Modell in einer Umgebung agiert und seine Strategie durch Rückmeldungen korrigiert.

Schach, Go und StarCraft, diese geschlossenen Systeme, sind die Orte, an denen es erstmals Bekanntheit erlangt hat.

Das Spiel "StarCraft 2"

Das neue Unternehmen von Silver möchte diese Methode erweitern, damit das System von grundlegenden Handlungsfähigkeiten bis hin zu wissenschaftlichen, mathematischen und technologischen Durchbrüchen lernen kann.

In der öffentlichen Aussage des Unternehmens heißt es, dass die Mission von Ineffable darin besteht, "den ersten Kontakt mit Superintelligenz herzustellen".

Hier liegt auch der Unterschied von Silver zu der Route der großen Modelle.

Große Sprachmodelle lernen hauptsächlich aus Texten und Code, die von Menschen geschrieben wurden. Ihre Fähigkeitsgrenzen werden in hohem Maße durch die menschlichen Daten begrenzt.

Silver verglich in einem Interview mit Wired die menschlichen Daten mit fossilen Brennstoffen und das Selbstlernen mit erneuerbaren Energien.

Dieser Vergleich erklärt auch, warum die Investoren einem Labor, das noch kein vollständiges Geschäftsmodell hat, eine riesige Prämie geben.

Ist das verstärkende Lernen die Lösung, wenn das Skalengesetz an seine Grenzen stößt?

Das traditionelle Skalengesetz, das auf einer großen Menge menschlicher Daten basiert, ist nicht wirkungslos, aber die Grenznutzen werden schlechter.

Das weitere Anhäufen von Parametern, Korpora und Trainingsrechenleistung bringt weiterhin Verbesserungen, aber die hochwertigen menschlichen Texte werden zum Engpass.

Nach Schätzungen von Epoch AI beträgt der effektive Bestand an öffentlichen hochwertigen menschlichen Texten etwa 300 Billionen Token. Gemäß der Tendenz könnten diese möglicherweise schon in diesem Jahr oder spätestens 2032 vollständig aufgebraucht sein.

https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

Das heißt, der alte Paradigmenweg ist noch gangbar, aber immer teurer und langsamer.

Das reine verstärkende Lernen bietet tatsächlich einen Weg, der näher an AGI / ASI liegt, denn es bringt das Modell von "das Nachahmen menschlicher Texte" zu "dem Erwerb von Erfahrung durch Handlungen und Rückmeldungen".

AlphaGo Zero hat bereits bewiesen, dass in einer Umgebung mit klaren Regeln und eindeutigen Rückmeldungen das System ohne menschliche Schachpartien auskommen kann und durch Selbstspiel einen übermenschlichen Level erreichen kann.

OpenAI o1 hat auch gezeigt, dass das Massivverstärkende Lernen und mehr Denkzeit bei der Inferenz die Fähigkeit zur komplexen Inferenz deutlich verbessern können.

Aber das reine verstärkende Lernen kann kurzfristig schwer die AGI - Route allein tragen.

Bei Aufgaben wie Schach, Mathematik und Code gibt es eindeutige Validatoren, und das verstärkende Lernen ist stark.

Bei Problemen in der realen Welt gibt es keine stabile Belohnungsfunktion, die Erkundungskosten sind hoch, und Sicherheit und Ausrichtung sind schwieriger.

AlphaProof von Google DeepMind ist eher ein Muster für die reale Richtung. Es kombiniert vortrainierte Sprachmodelle, Lean - formale Validierung und AlphaZero - artiges verstärkendes Lernen und hat auf der IMO Silbermedaille erreicht.

Deshalb ist die realistischere Einschätzung, dass die Zukunft nicht die Wahl zwischen dem Vortraining großer Modelle und dem verstärkenden Lernen ist, sondern eine gemischte Route.

Das Vortraining bietet das Wissen und die Sprachbasis, das verstärkende Lernen bietet Handlungsrückmeldungen und Zielsetzung, und die Suche, Validatoren, Werkzeugaufrufe und Simulationsumgebungen bieten nachhaltige neue Erfahrungen.

Der Schlüssel zu ASI besteht darin, dass es kontinuierlich Fehlversuche, Validierungen und Entdeckungen durchführen kann und die Erfahrungen wieder in Fähigkeiten umwandeln kann.

Angestellte großer Unternehmen werden zu neuen Unternehmen

Ineffable hat ein günstiges Zeitfenster genutzt.

Unternehmen wie OpenAI, DeepMind, Anthropic und xAI haben in der letzten KI - Konkurrenz die knappsten Talente angesammelt, und diese beginnen auch in den Startup - Markt zu fließen.

Die großen Sprachmodellunternehmen kämpfen weiterhin mit riesiger Rechenleistung und Produktdistribution, während die verlassenden Personen mit neuen Routen, neuen Organisationen und höherem Aufstiegspotenzial die Spielchips für einen anderen Tisch holen.

Ähnliche Fälle werden immer häufiger.

TechCrunch berichtete, dass das von dem ehemaligen DeepMind - Forscher Tim Rocktäschel gegründete Recursive Superintelligence möglicherweise 1 Milliarde US - Dollar an Finanzierungen benötigt.

Nachdem Yann LeCun seine Position als Leiter von Meta AI verlassen hat, hat das von ihm beteiligte AMI Labs im März eine Finanzierung von 1,03 Milliarden US - Dollar angekündigt.

Ineffable ist kein Einzelfall. Es ist einer der auffälligsten Fälle in der Gründungswelle von Spitzenforschern.

Dies erklärt auch, warum die britische Regierung beteiligt ist.

Der britische Sovereign AI Fund und die British Business Bank haben an dieser Finanzierungsrunde beteiligt. Letztere hat eine Investition von 20 Millionen US - Dollar bestätigt und angegeben, dass es in den letzten 12 Monaten 9 KI - Investitionen getätigt hat, darunter in Unternehmen wie Wayve und PolyAI.

Für Großbritannien hat London seit der Übernahme von DeepMind durch Google eine hohe Dichte an Spitzen - KI - Talenten, aber es fehlen fortschrittliche Labore, die in Eigenheim bleiben und weiter expandieren können.

Ineffable bietet eine Chance, erneut zu setzen.

Das größte Problem besteht darin, vom Spiel zur realen Welt zu gelangen

Die technische Erzählung von Ineffable ist klar, aber es gibt auch sichtbare Risiken.

Schach, Go und StarCraft haben Regeln, Grenzen und berechenbare Rückmeldungen.

Bei wissenschaftlichen Entdeckungen, technologischen Erfindungen und sozialen Systemen in der realen Welt gibt es keine so stabile Belohnungsfunktion.

Die Frage, wie eine Strategie, die ein Agent in einer Simulationsumgebung lernt, auf die offene Welt übertragen werden kann, ist ein unvermeidliches Problem, wenn das verstärkende Lernen in Richtung allgemeiner Intelligenz geht.

Silvers Antwort ist immer noch die Simulation.

Wired berichtet, dass er die Agenten in eine Simulationsumgebung setzen möchte, damit sie lernen, Ziele zu erreichen, miteinander zu kooperieren und zu beobachten, wie sie mit anderen Agenten umgehen.

Diese Methode hat den Vorteil, dass das Systemverhalten in einem kontrollierbareren Raum beobachtet werden kann.

Aber es gibt auch eine Schwierigkeit: Die Simulationswelt muss reichhaltig genug sein, um Fähigkeiten zu trainieren, die für die reale Welt nützlich sind.

Das Sicherheitsproblem wird dadurch auch vergrößert.

Ein System, das aus Erfahrung lernt und ständig nach besseren Strategien sucht, könnte Wege finden, die von Menschen nicht vorgesehen wurden.

Hier liegt sowohl die Faszination als auch das Risiko des verstärkenden Lernens.

Die Investoren setzen darauf, ob Silver die Methode "Lernen aus Erfahrung" aus der AlphaGo - Ära von der Spielzimmerwelt in die größere Welt bringen kann.

David Silvers zweiter Start

David Silvers Karriere ist die wichtigste Stütze für diesen Unternehmenswert.

Nach den Informationen auf der UCL - Website war er der Leiter der Forschungsgruppe für verstärkendes Lernen bei DeepMind, leitete AlphaGo und war an AlphaZero beteiligt, das durch Selbstspiel in Schach, Go und Shogi einen übermenschlichen Level erreicht hat.

Außerdem lernte er den DeepMind - CEO Demis Hassabis bei einem Schachturnier kennen und wurde sein lebenslanger Freund.

Selbst nachdem er DeepMind verlassen hat, pflegen sie weiterhin eine enge Beziehung. David Silver sagte, "Ich habe nur verlassen, weil ich einen völlig neuen Weg einschlagen wollte."

https://www.wired.com/story/david-silver-ai-ineffable-intelligence-reinforcement-learning/

Die ACM hat ihm 2020 den 2019 ACM Prize in Computing verliehen, weil er bahnbrechende Beiträge in der Computerschachforschung geleistet hat.

Nach den Informationen der britischen Royal Society hat er an vielen Schlüsselprojekten von Atari, AlphaGo, AlphaZero bis hin zu AlphaStar beteiligt.

Seine Google Scholar - Seite und öffentliche Informationen zeigen, dass Silvers wissenschaftliche Zitationszahl 300.000 erreicht hat und sein H - Index 103 beträgt. Er ist einer der wenigen Personen in der verstärkenden Lernbranche, die sowohl wissenschaftlichen Einfluss als auch industrielle Erfolge haben.

https://scholar.google.com/citations?user=-8DNE4UAAAAJ&hl=zh-CN&oi=ao

Die 1,1 Milliarden US - Dollar Saatkapitalrunde von Ineffable ist auf den ersten Blick ein weiterer KI - Finanzierungsrekord, im Kern aber eine Stimme für eine bestimmte Route.

Die großen Modelle rennen weiterhin auf der Hauptstrecke, und Silver versucht zu beweisen, dass ASI auch aus Handlungen, Rückmeldungen und eigener Erfahrung entstehen kann.

In der Vergangenheit hat AlphaGo das verstärkende L

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Vater von AlphaGo mit 300.000 Zitierungen hat in nur vier Monaten nahezu 10 Milliarden Yuan an Kapital beschafft und ist überzeugt, dass Reinforcement Learning (RL) die Schaffung eines künstlichen Superintelligenz (ASI) ermöglichen wird.

Dieses riesige Kapital fließt in das verstärkende Lernen

Ist das verstärkende Lernen die Lösung, wenn das Skalengesetz an seine Grenzen stößt?

Angestellte großer Unternehmen werden zu neuen Unternehmen

Das größte Problem besteht darin, vom Spiel zur realen Welt zu gelangen

David Silvers zweiter Start