AI-Vorhersageexperte: Ich unterschätzte KI-Geschwindigkeit - "Automatisierung der KI-Entwicklung" bis Jahresende möglich

Die AI-Iteration bricht die Vorhersagegrenzen, und aufgrund der erstaunlichen Leistung von Claude Opus 4.6 hat die renommierte Forscherin Ajeya Cotra zugegeben, dass ihre Vorhersage über den AI-Fortschritt im Jahr 2026 bereits vorzeitig ungültig ist. Die Wahrscheinlichkeit für die "Automatisierung der AI-Entwicklung" bis Ende dieses Jahres beträgt 10%. Sie sagte: "Ich kann keine solide Tendenz finden, die behaupten würde, dass dies nicht bald passieren wird!"

Die Geschwindigkeit, mit der die Fähigkeiten der künstlichen Intelligenz zunehmen, bringt auch die gründlichsten Vorhersehner um die Waffe.

Die bekannte AI-Vorhersageforscherin Ajeya Cotra hat kürzlich öffentlich zugegeben, dass ihre nur vor zwei Monaten veröffentlichte Vorhersage für den Fortschritt der KI bis 2026 deutlich zu konservativ war. Auslöser für diese Selbstkorrektur war die Leistung des neuesten Modells von Anthropic, Claude Opus 4.6, in den Tests des renommierten Prüforgans METR. Das Modell hat in der Softwareentwicklung eine »Zeitspanne« von etwa 12 Stunden erreicht, weit über dem von Cotra vorhergesagten Niveau von etwa 24 Stunden bis Ende 2026. Dies bedeutet, dass der tatsächliche Fortschritt der KI in der Softwareentwicklung fast zehn Monate früher erfolgte, als sie vorhergesagt hatte.

Noch aufschlussreicher ist, dass Cotra daraufhin ihre Wahrscheinlichkeitsbeurteilung für die »vollständige Automatisierung der KI-Forschung und -entwicklung« angehoben hat. Sie hält die Wahrscheinlichkeit, dass die KI bis Ende dieses Jahres die Forschungsvorstellung und -umsetzung vollständig übernimmt und keine menschliche Beteiligung erforderlich ist, bei 10 % und sagte ausdrücklich: »Dies ist das erste Mal, dass ich keine solide Tendenz finde, die ich extrapolieren könnte, um zu behaupten, dass dies nicht bald passieren wird.« Diese Äußerung hat in der KI-Vorhersagebranche breite Aufmerksamkeit erregt.

Cotra war früher Leiterin für die Förderung von KI-Sicherheitsforschung bei Coefficient Giving, einer der größten globalen Stiftungen für die Förderung der KI-Sicherheit, und arbeitet derzeit bei METR, einem Institut, das sich auf die Bewertung von KI-Fähigkeiten spezialisiert hat.

01 Vorhersage verfehlt: Die Einschätzung von vor zwei Monaten ist veraltet

Am 14. Januar dieses Jahres prognostizierte Cotra auf der Grundlage des historischen Trends, dass die Zeitspanne zwischen 2019 und 2025 weniger als doppelt pro Jahr verdoppelt wurde, dass die Zeitspanne mit einer 50-prozentigen Erfolgsrate des fortschrittlichsten Modells bis Ende 2026 etwa 24 Stunden betragen würde, und die 80. Perzentile auf 40 Stunden geschätzt wurde.

Allerdings wurde Opus 4.6 nur etwa zwei Monate nach ihrer Vorhersage auf eine Zeitspanne von etwa 12 Stunden geschätzt. In der METR-Testmenge konnte Opus 4.6 von 19 geschätzten Softwareentwicklungstasks, die von Menschen mehr als 8 Stunden in Anspruch nehmen würden, mindestens teilweise 14 abschließen und 4 davon stabil bewältigen. Cotra gestand, dass es »nicht mehr glaubhaft« sei, dass die KI-Agenten immer noch in der Hälfte der Fälle bei 24-Stunden-Tasks scheiterten, obwohl noch zehn Monate Fortschritt möglich waren.

Es ist bemerkenswert, dass Cotra gleichzeitig darauf hinwies, dass die Unsicherheit bei der aktuellen Zeitspanne-Schätzung deutlich zugenommen habe – das 95-prozentige Vertrauensintervall von Opus 4.6 liegt zwischen 5,3 Stunden und 66 Stunden, teilweise weil die Anzahl der Langzeitaufgaben gering ist, die menschlichen Bearbeitungszeiten meist geschätzt werden und die Benchmark-Tests selbst nahezu gesättigt sind.

02 Fähigkeitsgrenzen: Das traditionelle Bewertungsrahmenwerk versagt

Mit der Annäherung und sogar Übertreffung der Fähigkeiten von KI-Agenten an die Größenordnung von Aufgaben von mehreren Stunden hinweg glaubt Cotra, dass die Anwendbarkeit des Begriffs »Zeitspanne« an sich herausgefordert wird.

Sie weist darauf hin, dass die Zerlegbarkeit von Aufgaben mit der Größe deutlich zunimmt: Eine einstündige Debugging-Aufgabe lässt sich kaum parallel aufteilen, eine ein-tägige Entwicklungsaufgabe kann zwar schwerlich aufgeteilt werden, aber die Grenzen sind unklar, während ein Projekt von einem Monat oder mehreren Monaten von Natur aus für die Aufteilung in mehrere parallele Teilaufgaben geeignet ist. Sobald ein KI-Agent in der Lage ist, Aufgaben in der Größenordnung von 80 Stunden stabil zu bewältigen, kann theoretisch durch die Zuweisung von Aufgaben durch eine »Management-KI« und die parallele Durchführung durch eine »Ausführungs-KI« ein Projekt beliebiger Größe fortgesetzt werden.

Tom, ein Kollege von Cotra, schlägt daher vor, die Kalenderzeit, die ein großes Team für die Bewältigung einer Aufgabe benötigt, anstelle der Arbeitsstunden eines einzelnen Menschen als besseren Indikator für die »innere Schwierigkeit« zu verwenden. Cotra ist der Ansicht, dass mit dem Eintritt der KI in diese neue Größenordnung der »Indikator der Arbeitsstunden eines einzelnen Menschen« möglicherweise einen über-exponentiellen Anstieg zeigt, was die Schätzung der Obergrenze der Softwareentwicklungskapazitäten bis Ende des Jahres extrem schwierig macht.

Sie gibt gleichzeitig zu, dass diese Art der Zerlegung von Aufgaben in der Praxis nicht perfekt funktionieren wird – die intuitive Einschätzung des globalen Kontexts durch die Projektbeteiligten lässt sich nicht vollständig durch Jira-Tickets oder Asana-Aufgaben ersetzen. Sie ist jedoch der Meinung, dass dieses Modell für eine ziemlich große Klasse von Softwareprojekten »überraschend effektiv« sein könnte.

03 Schlüsselschritt: Die Automatisierung der KI-Forschung und -entwicklung könnte dieses Jahr Realität werden

Von allen Vorhersagen ist die Wahrscheinlichkeitsbeurteilung von Cotra für die »vollständige Automatisierung der KI-Forschung und -entwicklung« am meisten beachtet.

Sie definiert diese Wahrscheinlichkeit als: Ein KI-System übernimmt vollständig die Forschungsvorstellung und -umsetzung, ohne menschliche Beteiligung. In ihrer Vorhersage im Januar gab sie eine Wahrscheinlichkeit von 10 % an und erhielt nach der Veröffentlichung Rückmeldungen von mehreren Kollegen in der KI-Vorhersagebranche, die der Meinung waren, dass diese Zahl zu hoch sei. Nach den Ergebnissen von Opus 4.6 sagte sie, dass 10 % »wieder in einem vernünftigen Bereich« zu liegen scheine.

Cotra bleibt dennoch vorsichtig. Sie weist darauf hin, dass die vollständige Automatisierung der KI-Forschung nicht nur Softwareentwicklungskapazitäten erfordert, sondern auch einen Durchbruch in Bereichen wie »Forschungsurteil« und »Kreativität« erfordert, und diese sind genau die Bereiche, in denen die gegenwärtigen KI-Systeme im Vergleich zu menschlichen Forschern noch deutlich hinterherhinken. Sie ist der Meinung, dass die Wahrscheinlichkeit, dass dieses Ziel in den nächsten drei bis fünf Jahren erreicht wird, viel höher ist als in diesem Jahr.

Ihr Sprachgebrauch hat sich jedoch grundlegend gewandelt: »Dies ist das erste Mal, dass ich keine solide Tendenz finde, die ich extrapolieren könnte, um zu behaupten, dass es nicht bald passieren wird.«

Dieser Artikel stammt aus dem WeChat-Account »Hard AI«, Autor: Spezialist für Technologieentwicklung. 36Kr hat die Veröffentlichung mit Genehmigung vorgenommen.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

AI-Vorhersageexperte: Ich habe die Geschwindigkeit der KI doch unterschätzt. Es ist wirklich möglich, bis Ende dieses Jahres "Automatisierung der KI-Entwicklung" zu erreichen.

01 Vorhersage verfehlt: Die Einschätzung von vor zwei Monaten ist veraltet

02 Fähigkeitsgrenzen: Das traditionelle Bewertungsrahmenwerk versagt

03 Schlüsselschritt: Die Automatisierung der KI-Forschung und -entwicklung könnte dieses Jahr Realität werden