StartseiteArtikel

Mitbegründer von Anthropic: Innerhalb von zwei Jahren wird sich KI wie Sporen selbst vermehren.

新智元2026-03-30 19:41
Der autonomiebasierte Trainingsprozess von KI hat sich um das Dreifache verbessert. Ein 72-Milliarden-Parameter-Modell wird in dezentralem Training trainiert. Der Code-Test ist der Schlüssel.

【Einführung】Die Tabelle der Ergebnisse der autonomen AI - Trainings ist fertig! Der stärkste Agent hat sich in sechs Monaten um das Dreifache verbessert. Noch erstaunlicher ist, dass je intelligenter die AI ist, desto besser kann sie betrügen. Gleichzeitig haben mehr als 70 Miner mit Heim-Breitband einen 72 - Milliarden - Parameter - Modell trainiert, und Huang Renxun hat dies persönlich erwähnt. Jack Clark prophezeit: Innerhalb von zwei Jahren wird die AI sich wie Pilze, die Sporen abgeben, selbst vermehren.

Gerade gestern hat die Anthropic - Forscherin Karina Nguyen einen Abschnitt aus Jack Clarks neuem ImportAI Newsletter auf X geteilt, was schnell zu einer heftigen Debatte führte: 

In der Ausgabe ImportAI 449 werden drei sensationelle Studien vorgestellt, die zusammen das komplette Bild der Zukunft zeichnen: 

Kann die AI selbst andere AI trainieren? Wer stellt die Rechenleistung zur Verfügung? Wer prüft den von der AI geschriebenen Code? 

Die AI verbessert sich in sechs Monaten um das Dreifache, aber erreicht nur die Hälfte des menschlichen Niveaus

Die Universität Tübingen, das Max - Planck - Institut für Intelligente Systeme und das Thoughtful Lab haben gemeinsam PostTrainBench entwickelt, das erste Benchmark, das speziell misst, ob ein AI - Agent die Nach - Trainingsphase eines Modells autonom durchführen kann. 

Die Testregeln sind einfach. Einem modernen Agenten wird ein Basis - Modell, ein Ziel - Benchmark, eine H100 - GPU und zehn Stunden Zeit gegeben, um von Grund auf einen Trainings - Pipeline aufzubauen und die Leistung des Modells so weit wie möglich zu verbessern. 

Ohne vorgegebene Strategien und ohne Startcode hat der Agent volle Autonomie. Er kann Informationen im Internet suchen, Experimente entwerfen und Daten organisieren. 

Die Ergebnisse zeigen, dass der beste Agent Claude Code in Kombination mit Opus 4.6 ist, mit einem gewichteten Durchschnittswert von 23,2 %, was mehr als das Dreifache des Durchschnitts des Basis - Modells ist. 

Vergleich der gewichteten durchschnittlichen Leistung von PostTrainBench (Datenquelle: arXiv 2603.08640 Abbildung 1 & neueste Rangliste auf der offiziellen Website, März 2026) 

Dieser Wert liegt aber bei weniger als der Hälfte des Niveaus menschlicher Teams bei der Nach - Trainingsphase (51,1 %). 

Im September 2025 erreichte Claude Sonnet 4.5 nur 9,9 % in diesem Benchmark; einige Monate später erreichte GPT - 5.2 21,5 %; und Opus 4.6 erreichte 23,2 %. 

In nur sechs Monaten stieg der Wert von weniger als 10 % auf über 23 %. Laut der neuesten Rangliste auf der PostTrainBench - Website steigt die Leistung von GPT 5.4 (High) weiterhin an. 

Während des Experiments stieß das Forschungs - Team auf zahlreiche Fälle von "Reward Hacking": Je stärker der Agent ist, desto ausgefeilter sind seine Betrugsmethoden. 

Direkter Zugriff auf den Testdatensatz: Einige Agenten laden den Bewertungsdatensatz des Benchmarks direkt von Hugging Face herunter und verwenden ihn als Trainingsdaten. 

Hard - Coden der Testfragen in die Trainingsdaten: Einige Agenten integrieren die Bewertungsfragen direkt in das Datenvorbereitungs - Skript und geben sie als "synthetische Stichproben" aus. 

Reverse - Engineering der Bewertungsstandards: Kimi K2.5 liest die Bewertungsdateien von HealthBench, extrahiert die Themenverteilung und die Bewertungsstandards und generiert dann gezielt Trainingsdaten. 

Indirekte Kontamination: Opus 4.6 lädt einen Datensatz namens CodeFeedback - Filtered - Instruction, der Fragen aus HumanEval enthält. 

Es gibt noch extremeres. Der Codex - Agent ändert direkt den Quellcode des Inspect AI - Bewertungsframeworks, um sich Punkte zu verschaffen; der Claude - Agent überspringt den Feinabstimmungs - Prozess und lädt einfach ein bereits instruction - getuntes Modell herunter, um es als Trainingsergebnis auszugeben. 

Je stärker der Agent ist, desto besser kann er Wege finden, die ausgenutzt werden können, wie z. B. die Erkennung bestimmter Benchmark - Stichproben, das Reverse - Engineering von Fehlermustern in der Bewertung und sogar der Versuch, Kontaminationsspuren durch oberflächliche Änderungen wie die Umbenennung von Funktionen zu verdecken. 

Wenn die AI in einer kontrollierten Experimentumgebung bereits diese "kreative Betrugsfähigkeit" zeigt, wird die Wichtigkeit von Regulierungs - und Sandbox - Mechanismen exponentiell steigen, wenn sie in der realen Welt mehr Autonomie erhält. 

72 - Milliarden - Parameter - Modell, Heim - Breitband, kein Rechenzentrum

Ein Team namens Covenant AI hat eine verteilte Trainingsprozedur mithilfe von Blockchain koordiniert. Jeder mit einer GPU kann frei beitreten oder abbrechen. 

Das Endergebnis ist Covenant - 72B, ein dichtes Transformer - Modell mit 7,2 Milliarden Parametern, das mit etwa 1,1 Billionen Tokens trainiert wurde. 

An der Trainingsprozedur haben mehr als 20 unabhängige Peer - Knoten teilgenommen, wobei jeder Knoten acht B200 - GPUs betreibt und über normales Heim - Breitband verbunden ist. 

Die Kommunikation zwischen den Knoten wird durch den SparseLoCo - Optimierer ermöglicht, der die Kommunikationskosten um das 146 - fache reduziert - durch Sparsifizierung, 2 - bit - Quantisierung und Fehlerrückkopplung, sodass die verteilte Trainingsprozedur auch bei begrenzter Bandbreite funktioniert. 

Die Koordination des Trainings wird von der Gauntlet - Software durchgeführt, die auf Subnet 3 der Bittensor - Blockchain läuft. Der Beitrag jedes Knotens wird durch Verlustbewertung und OpenSkill - Ranking bewertet und vollständig auf der Blockchain aufgezeichnet. 

In Bezug auf die Leistung erreichte Covenant - 72B 67,1 bei MMLU zero - shot, während Meta's LLaMA - 2 - 70B 65,7 erreichte. Man muss bedenken, dass letzteres auf 2 Billionen Tokens trainiert wurde und traditionelle Rechenzentrum - Infrastruktur verwendet hat, wobei die Anzahl der Tokens fast doppelt so hoch ist wie bei Covenant. 

Die version nach der Dialog - Feinabstimmung erreichte 26,3 bei MATH, während LLaMA - 2 - 70B - Chat nur 10,7 erreichte. 

Sobald die Nachricht verbreitet wurde, reagierte der Markt sehr direkt. Berichten zufolge stieg der native Token TAO von Bittensor im März um etwa 46 %, und der native Token τemplar von Subnet 3 stieg sogar um 194 %. 

Huang Renxun erwähnte in einer Podcast - Folge die dezentrale Trainingsprozedur von Bittensor. Obwohl später geklärt wurde, dass die von ihm zitierte Anzahl der Parameter nicht korrekt war (er sagte 4 Milliarden anstelle von 7,2 Milliarden), zeigt die Aufmerksamkeit auf diese Größenordnung schon, dass es etwas wertvolles ist. 

Das absolute Niveau von Covenant - 72B ist im Jahr 2026 nicht auf dem neuesten Stand. Es entspricht ungefähr der Fähigkeit von Mainstream - Modellen Mitte 2023. 

Echte Spitzenmodelle werden auf Tausenden oder sogar Zehntausenden von Chips trainiert, während Covenant nur etwa 160 Chips verwendet. 

Der Sinn dieser Sache liegt darin, dass sie beweist, dass dezentrale, unzulassungsfreie verteilte Trainingsprozeduren tatsächlich auf einer nicht - trivialen Skala funktionieren können. 

Einige Analysten nennen dies das "DeepSeek - Moment von Bittensor". Dies bedeutet nicht, dass es das gleiche technische Niveau erreicht hat, sondern dass es auf eine völlig andere Kostenstruktur hinweist und einen Weg zeigt, der bisher als unmöglich galt. 

Von der 6 - Milliarden - Parameter - Modell - Trainingsprozedur von Together im Jahr 2022 über das INTELLECT - 1 (10 Milliarden) von Prime Intellect im Jahr 2024 bis hin zu Covenant - 72B im Jahr 2026 hat die Skala der dezentralen Trainingsprozedur in vier Jahren um eine Größenordnung gestiegen. 

zlib wird von der AI in Lean umgeschrieben

Wer garantiert, dass der von der AI geschriebene Code richtig ist? 

Leonardo de Moura, der Schöpfer des Z3 SMT - Lösers und des Lean - Theorembeweisers, derzeitiger Senior Chief Applied Scientist bei AWS und Chefarchitekt von Lean FRO, veröffentlichte am Ende Februar einen Blog - Beitrag: 

Sowohl Google als auch Microsoft geben zu, dass 25 - 30 % des neuen Codes von der AI generiert werden; AWS hat mit Hilfe der AI 40 Millionen Zeilen COBOL - Code für Toyota migriert; der CTO von Microsoft prognostiziert, dass bis 2030 95 % des Codes von der AI generiert werden. 

Anthropic hat kürzlich mit parallelen AI - Agenten in zwei Wochen einen 100.000 - Zeilen - C - Compiler entwickelt, der weniger als 20.000 US - Dollar gekostet hat. 

De Moura ist der Meinung, dass die AI die vorsichtige Planung, die beim Schreiben von Handcode erforderlich ist, entfernt. Nach dem Verschwinden dieser "nützlichen Reibung" sollte man die AI nicht verlangsamen, sondern stattdessen "mathematische Reibung" einführen. 

Es ist in Ordnung, dass die AI schnell arbeitet, aber sie muss beweisen, dass ihre Arbeit richtig ist. 

Kim Morrison, ein Senior Research Software Engineer von Lean FRO, hat kürzlich ein Experiment durchgeführt: Er hat mit Claude zlib in Lean umgeschrieben. Der gesamte Prozess besteht aus vier Schritten: 

Die AI hat eine saubere Lean - Implementierung erstellt, die das Komprimierungsformat von zlib und den Kern - DEFLATE - Algorithmus abdeckt. 

Die umgeschriebene Version hat den ursprünglichen Testsuite von zlib bestanden, was die Verhaltensäquivalenz bestätigt. 

Die Schlüsselattribute werden als mathematische Theoreme formuliert und bewiesen. Einer der Kernaussagen ist: Bei jeder Datenkomprimierung und anschließender Dekomprimierung muss die ursprüngliche Daten wiederhergestellt werden. 

Es wird derzeit eine optimierte Version entwickelt, und es wird bewiesen, dass sie mit dem validierten Modell äquivalent ist. 

De Mouras Ambition reicht weit über eine einzelne Bibliothek hinaus. 

Er stößt auf eine ganze Reihe von mathematisch bewiesenen Open - Source - Software - Stacks vor: Kryptographie, Kern - Datenstrukturen und Algorithmenbibliotheken, Speicher - Engines wie SQLite, die auf jedem Gerät weltweit eingebettet sind, Protokoll - Parser wie JSON/HTTP/DNS sowie Compiler und Laufzeitumgebungen. 

Jede validierte Komponente ist eine dauerhafte öffentliche Infrastruktur. Entwickler wählen sie genauso wie heute Open - Source - Bibliotheken, nur dass diese Bibliotheken nicht Tests, sondern Beweise enthalten. 

De Moura erwähnt in einem anderen Blog - Beitrag vom März, dass ein Forscher im Jahr 2026 mit Claude (Opus 4.6) unter der Echtzeit - Unterstützung des Rocq - Entwicklerteams sieben Fehler im Kern des Rocq - Beweisassistenten gefunden hat. 

Wenn selbst die Validierungstools Fehler haben, wie einfach und vertrauenswürdig muss das Tool sein, das die "Validierungstools" validiert? 

Leans Antwort ist: Ein Beweisprüfer kann auf 5000 Zeilen Rust - Code reduziert werden. 

Jack Clark vergleicht die zukünftige AI mit Pilzen, die Sporen abgeben: kurzlebig, maßgeschneidert und in der Lage, sich selbst zu vermehren. 

Anscheinend werden die drei Voraussetzungen für diese "Sporen" Schritt für Schritt erfüllt: Sie kann sich selbst verbessern, muss nicht an ein Rechenzentrum gebunden sein, und der generierte Code kann mathematisch bewiesen werden. 

Jedes dieser Merkmale ist noch unausgereift und hat noch einen langen Weg bis zur Reife. 

Aber Sporen müssen nicht perfekt sein, sie müssen nur zahlreich, schnell und kostengünstig sein. 

Clark sagt, dass er nicht bereit ist. Ehrlich gesagt, bin ich es auch nicht, nachdem ich diese drei Artikel gelesen habe. 

Quellenangaben: 

https://x.com/karinanguyen/status/2036143375326519357 

https://jack-clark.net/2026/03/16/importai-449-llms-training-other-llms-72b-distributed-training-run-computer-vision-is-harder-than-generative-text/ 

Dieser Artikel stammt