Rasende AGI: Claude wird zum König am Jahresende, und seine fast 5-stündige eigenständige Codierung erschreckt das gesamte Netz.
Das Jahr 2025 neigt sich dem Ende zu. Es stellt sich heraus, dass die echten Experten in der „Zivilbevölkerung“ versteckt sind!
Es ist weder Google noch OpenAI, sondern das Königliche Programmier-Modell Claude Opus 4.5 von Anthropic.
Eine kürzlich veröffentlichte METR-Studie besagt, dass Claude Opus 4.5 in der Lage ist, kontinuierlich und autonom für „bis zu 5 Stunden ohne Ausfall“ zu programmieren.
Selbst das stärkste Programmier-Modell von OpenAI, GPT-5.1-Codex-Max, muss sich geschlagen geben.
Heutzutage ist die gesamte Welt von der Programmierfähigkeit von Claude Opus 4.5 beeindruckt.
Die Zeitspanne, für die AI-Programmier-Intelligenzagenten Aufgaben bearbeiten können, wächst nicht nur exponentiell – die Wachstumsrate steigt auch kontinuierlich!
2019 - 2024: Die Aufgabenzeit verdoppelt sich alle 7 Monate.
2024 - 2025: Die Aufgabenzeit verdoppelt sich alle 4 Monate.
Viele Leute schütteln beim ersten Blick auf diese Kurve instinktiv den Kopf.
Einige verstehen es nicht. Andere wollen es nicht akzeptieren.
Aber ein Fakt wird immer deutlicher: Die von AI-Programmier-Intelligenzagenten kontinuierlich erledigten Aufgaben gehen von der „Minuten-Ebene“ zur „Stunden-Ebene“, und die Beschleunigung steigt weiter an.
Netzuser halten dieses Diagramm für das wichtigste in Bezug auf AI:
Warum wird dieses Diagramm als das „wichtigste Diagramm“ bezeichnet?
Weil es eine zentrale Frage beantwortet:
Hat die AI eine Glasdecke erreicht? Ist die AGI ein weiteres Utopie? Wie weit hat die AI im Jahr 2025 tatsächlich vorangeschritten?
Es ist normal, dass die meisten Benutzer kaum Unterschiede spüren. Für die meisten Menschen kann das Modell schon lange alltägliche Fragen beantworten:
„Empfehle einen Film“, „Erkläre dieses Konzept“, „Schreibe eine Zusammenfassung“.
Aber die echten Veränderungen finden auf einer anderen Front statt: Programmier-Intelligenzagenten.
Und dies ist eine Form, die die meisten Menschen (einschließlich Journalisten und Politiker) schwerlich erreichen können.
Obwohl diese Fortschritte scheinbar klein erscheinen, sind sie in ihrer Summe von großer Bedeutung.
Im April 2026 können die ersten AI-Intelligenzagenten einen vollständigen menschlichen Arbeitstag unabhängig erledigen;
Ende 2026 kann die AI die Aufgabenmenge einer halben Woche erledigen;
Ende 2027 kann die AI die Aufgabenmenge von zwei Monaten erledigen;
Ende 2028 kann die AI die Arbeitsmenge von mehreren menschlichen Monaten erledigen;
Bis 2030 kann die AI den größten Teil der Verwaltungsarbeit kleiner Unternehmen oder Organisationen übernehmen.
Exponentielles Wachstum der AI
Das Zeitalter der Intelligenzagenten ist da
Um die Fähigkeiten von AI und Menschen quantitativ zu vergleichen, hat METR im März dieses Jahres einen neuen Indikator vorgeschlagen: 50%-Aufgabenabschluss-Zeitspanne (50%-task-completion time horizon).
Mit anderen Worten: Betrachten Sie die AI als neuen Mitarbeiter: Geben Sie ihr eine Aufgabe und sehen Sie, wie lange die durchschnittliche menschliche Arbeitszeit für diese Aufgabe ist, wenn sie mit einer „Wahrscheinlichkeit von 50%“ erfolgreich abgeschlossen wird.
GPT-5.1-Codex-Max kann bereits Software-Engineering-Aufgaben über eine Dauer von 2 Stunden und 53 Minuten erledigen (Erfolgsrate 50%), was eine vierfache Verbesserung gegenüber o1 darstellt.
Die 50%-Zeitspanne von Claude Opus 4.5 beträgt ungefähr 4 Stunden und 49 Minuten. Dies ist bisher die längste veröffentlichte Zeitspanne.
Obwohl die 50%-Aufgabenabschluss-Zeitspanne relativ lang ist, beträgt die 80%-Zeitspanne des Opus 4.5-Modells nur 27 Minuten, was mit der Leistung früherer Modelle vergleichbar ist und unter der von 32 Minuten des GPT-5.1-Codex-Max-Modells liegt.
Der Unterschied zwischen der 50%- und der 80%-Zeitspanne von Opus 4.5 zeigt, dass die Erfolgsrate-Kurve seiner Logik flacher ist, was bedeutet, dass das Opus-Modell bei langwierigen Aufgaben einen differenzierten Vorteil hat.
Einige gehen sogar so weit zu sagen, dass Claude Code der Definition der allgemeinen Künstlichen Intelligenz bereits sehr nahe kommt.
Diese Aussage mag übertrieben erscheinen – aber sie spiegelt eine gewisse Realität wider.
Das Jahr 2025 war wohl das chaotischste Jahr in Bezug auf die Diskussionen um AI. Die Kluft zwischen den tatsächlichen Fortschritten und den Medienfokus war noch nie so groß.
Aber im nächsten Jahr könnte sich dies ändern – wenn der Einfluss der Programmier-Intelligenzagenten in alle Ecken der Sozialwirtschaft vordringt, werden die Menschen schließlich ihre Macht erleben. Hoffentlich haben wir dann noch genug Zeit, uns angemessen vorzubereiten.
Die AGI rückt näher
Das Gedächtnis wird zur letzten Hürde
Es ist nicht verwunderlich, dass Intelligenzagenten Aufgaben immer länger erledigen können.
Bisherige Studien weisen in der Regel auf vier Gründe hin:
Stärkeres Schlussfolgern: Können große Aufgaben in kleinere Aufgaben aufteilen
Vertrauter mit Tools: Können Code schreiben, Webseiten durchsuchen, Skripte ausführen
Stabileres Selbstkorrekturvermögen: Können nach einem Fehler rückgängig machen, erneut versuchen und die Aufgabe fortsetzen
Nicht abnehmender Nutzen: Eine kleine Verbesserung der Genauigkeit führt zu einem sprunghaften Anstieg der bearbeitbaren Aufgabenzeitspanne
Beispielsweise können neuere Modelle Aufgaben besser planen, externe Tools (wie Code-Schreiben, Webseiten-Suchen) besser nutzen und bei Fehlern effektiver korrigieren, wodurch sie in langen Aufgabenketten eine hohe Erfolgsrate aufrechterhalten können.
Natürlich müssen wir auch die derzeitigen Einschränkungen berücksichtigen, während wir von einer rosigen Zukunft träumen.
Aber wenn die Aufgabenzeitspanne von „Stunden“ zu „Arbeitstagen“ geht, treten neue Probleme auf:
Verlust des Kontexts: Vergisst immer mehr, was zuvor gesagt wurde
Ansammlung von Abweichungen: Kleine Fehler werden zu großen Problemen
Zielabweichung: Verliert den Faden und geht in die falsche Richtung
Letztendlich führen alle diese Probleme auf einen gemeinsamen Kern zurück: Langzeitgedächtnis.
Das Gedächtnis: Die letzte Hürde auf dem Weg zur AGI
Fast alle Schwächen der AI führen letztendlich auf das Gedächtnis zurück.
Sie können sich das aktuelle Large Language Model wie folgt vorstellen: Ein extrem intelligenter und reaktionsschneller Neuling, der aber „nach Feierabend alles vergisst“.
Es kann Code schreiben, logisch denken und Artikel verfassen. Aber sobald die Konversation endet, erinnert es sich kaum an das, was es getan hat.
Die „Gedächtnisse“ vieler aktueller Intelligenzagenten basieren hauptsächlich auf zwei Ansätzen:
Starke Suchtools: Sucht Informationen bei Bedarf (ähnlich wie grep in einem Code-Repository)
Zusammenfassung und Kompression in den Kontext einfügen: Komprimiert die vergangenen Inhalte in einige Sätze und gibt sie erneut ein
Obwohl die Informationssuchtechnologie bereits erhebliche Fortschritte gemacht hat, liegt die Genauigkeit selbst des besten derzeitigen RAG-Systems (Retrieval-Augmented Generation) nur bei etwa 90%.
Das stetige Erweitern des Kontextfensters verbessert zwar dieses Problem: Ein größeres Fenster bedeutet, dass mehr Daten gleichzeitig in das Modell eingegeben werden können, was es dem Modell ermöglicht, effizienter in einem riesigen Gedächtnisindex zu „lesen“.
Aber selbst so ist es erforderlich, eine Durchbrechung auf der untersten Architekturebene zu erzielen, um ein AGI-ähnliches, „detailliertes“ Gedächtnis zu erreichen.
Und das größere Problem ist: Kein System hat bisher wirklich „Selbstlernen“ erreicht.