6 Stunden, 200 US-Dollar, kein menschlicher Code: Anthropic treibt die KI-Programmierung über die Schwelle hinaus
【Einführung】Der Code ist nicht verschwunden, aber er ist kein Privileg von wenigen mehr. In der Ära des künstlichen Intelligenzes (KI) mit "Gleichberechtigung bei der Schaffung" ist es nicht mehr die Programmierfähigkeit, die wirklich knapp ist, sondern ob Sie eine gute Idee haben, die es wert ist, dass die Maschine für Sie hunderte von Dollar an Rechenleistung verbrennt.
Was wirklich beunruhigend ist, ist nicht, dass die KI die Produktivität erhöht, sondern dass die KI beginnt, die "Produktionsverhältnisse" zu bestimmen.
Der gefährlichste Fortschritt von Anthropic besteht nicht darin, dass die KI Code schreiben kann, sondern dass die KI beginnt, Projekte alleine abzuschließen.
Eine einzeilige Anforderung, 6 Stunden, 200 Dollar.
Ohne Produktmanager, ohne Programmierer, ohne Designer, und sogar ohne dass ein Mensch während des gesamten Prozesses eine Codezeile ergänzt.
Anthropic hat Claude in eine Aufgabe geworfen: Ein komplettes Retro-Spieleditor-System zu erstellen.
Das Ergebnis war, dass Claude nicht nur eine ansehnliche Seite lieferte.
Es hat die Anforderungen selbst aufgeteilt, selbst Code geschrieben, selbst getestet, selbst Korrekturen vorgenommen und schließlich ein tatsächlich funktionierendes Fertigprodukt geliefert.
Bei diesem Experiment von Anthropic geht es nicht nur darum, dass die KI Code generiert, sondern dass sie sich der Abgabe eines fertigen Produkts nähert.
In der Vergangenheit haben wir über die Programmierfähigkeit der KI gesprochen und uns gefragt, wie schnell sie schreiben kann. Jetzt lautet die Frage: Kann sie mehrere Stunden lang kontinuierlich arbeiten, in der 5. oder 10. Überarbeitungsphase nicht abweichen und schließlich das Produkt abgeben?
Die Antwort, die Anthropic diesmal gibt, lautet: Ja.
Aber die Voraussetzung ist nicht, die KI wie eine einzelne Person einzusetzen, sondern sie wie ein Team zu organisieren.
Original Link: https://www.anthropic.com/engineering/harness-design-long-running-apps
Die KI ist nicht unklug, sondern instabil
Die KI in der Vergangenheit war wie ein Praktikant mit hohem Potenzial.
In der ersten Version arbeitete sie sehr eifrig.
Die erste Seite wurde schnell fertiggestellt.
Der erste Codeausschnitt sah auch brauchbar aus.
Aber sobald die Aufgabe länger dauerte, begann sie durcheinander zu geraten:
Die Logik war zerstreut, der Kontext ging verloren.
Das, was korrigiert werden sollte, wurde nicht korrigiert, und das, was getestet werden sollte, wurde nicht getestet.
Das Schlimmste ist, dass sie oft in einen Zustand gerät, in dem es "so aussieht, als wäre alles fertig".
Anthropic hat es genau getroffen: Das Problem liegt nicht unbedingt an der Intelligenz, sondern an der Fähigkeit, langfristig Aufgaben auszuführen.
Anthropic hat ein Kontrollexperiment durchgeführt, und das Ergebnis war brutal.
Im Einzel-Agenten-Modus hat die KI in 20 Minuten und für 9 Dollar etwas geschaffen, das "wie ein Spieleditor" aussah.
Das Problem ist, dass es beim ersten Gebrauch auffällt -
Die Interaktion war nicht funktional; die Entitäten reagierten nicht richtig; die Kernfunktionen funktionierten überhaupt nicht.
Dies zeigt eine Sache:
Früher dachte man immer, dass die KI nicht gut genug war, weil sie nicht intelligent genug war.
Jetzt sieht es so aus, dass in vielen Fällen es nicht die Intelligenz, sondern die Stabilität ist, die die KI zurückhält.
Viele Menschen denken, wenn die KI etwas vergisst, dass man ihr einfach ein größeres Kontextfenster geben sollte.
Das klingt vernünftig, aber Anthropic hat diesmal kalte Wasser geworfen.
Ein größeres Fenster bedeutet nicht unbedingt eine stärkere Leistung. In vielen Fällen wird einfach die Verwirrung vergrößert.
Je mehr Dinge zusammengepfercht werden, desto leichter wird die wirklich wichtige Hauptlinie überdeckt. Dies wird als "Kontextverfall" bezeichnet.
Was noch schlimmer ist, ist, dass das Modell sich oft überschätzt.
Anthropic hat festgestellt, dass das Programm beim ersten Start abstürzt, aber das Modell denkt, dass es gut gemacht hat.
Deshalb gerät der Einzel-Agent in zwei Fallen: Einerseits wird der Code immer unordnlicher; andererseits denkt er, dass alles in Ordnung ist, je unordnlicher es wird.
Deshalb kann die KI allein durch ein größeres Modell, ein längeres Fenster und eine höhere Token-Grenze nicht unabhängig ein Projekt abgeben.
Um einen Durchbruch zu erzielen, hat Prithvi Rajasekaran von Anthropic Labs einige neue KI-Engineering-Methoden erforscht.
Diese Methoden sind in zwei völlig verschiedenen Bereichen anwendbar: Einem, der durch subjektiven Geschmack definiert wird, und einem anderen, der durch nachweisbare Richtigkeit und Nutzbarkeit bestimmt wird.
Unter Anregung von generativen adversariellen Netzwerken (GANs) hat er eine Mehr-Agenten-Struktur entwickelt, die einen Generator und einen Evaluator enthält.
Anthropic hat kein "Supermensch" geschaffen, sondern ein Göttliches Team
Die wichtigste Veränderung bei diesem Mal ist nicht die Anzahl der Parameter. Nicht das Fenster. Auch nicht irgendein geheimer Hinweis.
Die echte Veränderung ist, dass Anthropic nicht mehr versucht, dass eine einzelne KI ein ganzes Projekt alleine erledigt.
Es beginnt, die KI in Teams aufzuteilen.
Diese Struktur ähnelt einem kleinen Produktteam.
Der Planner ist dafür verantwortlich, alles klar zu denken. Er erweitert zunächst eine vage Anforderung zu einer Spezifikation und definiert, was das Produkt tatsächlich leisten soll.
Der Generator ist für die Umsetzung verantwortlich. Er schreibt Code, baut Front- und Backend auf, verbindet die Interaktionen, führt die Integration durch und bringt das Projekt Schritt für Schritt voran.
Der Evaluator ist dafür verantwortlich, Fehler zu finden. Er ist nicht für Schönheiten zuständig. Er ist nur für die Abnahme verantwortlich. Er klickt auf die Seite, testet die Buttons, überprüft die Datenbank, testet die Schnittstellen und findet die Fehler, um sie dann zurückzuschicken, um sie zu korrigieren.
Der letzte Schritt ist besonders wichtig, denn wenn die KI während des Schreibens selbst bewertet, wird es ihr leicht, sich zu überzeugen, dass es "ungefähr" reicht.
Aber wenn man die beiden Aufgaben trennt, können viele Probleme, die sonst ignoriert würden, nicht mehr übersehen werden.
Bei dem Retro-Spieleditor hatte der Planner am Anfang nur eine einzeilige Anforderung.
Aber am Ende war es eine Spezifikation mit 16 Funktionen und 10 Sprints.
Sprite-Animationen, Sound-Systeme, Verhaltensvorlagen, KI-gestützte Sprite-Generierung, Level-Design-Assistenten, Export und Teilen wurden alle in den Prozess integriert.
Das ist nicht mehr einfach "KI schreibt Code", sondern die KI lernt, wie ein Team ein Produkt zu entwickeln.
Was wirklich die Qualität erhöht, ist die strenge Abnahme
Viele KI-Produkte von heute haben eine gemeinsame Eigenschaft - sie sehen komplett aus, haben sichere Farben und eine ordentliche Layout.
Man kann keine großen Fehler finden, aber es fehlt auch die Seele. Solche Dinge werden AI Slop "KI-Schlamm" genannt. Im Grunde genommen sind es "Anscheinprodukte, die wie fertige Produkte aussehen".
Offensichtlich ist Anthropic mit einem solchen Ergebnis nicht zufrieden.
Deshalb lässt es den Evaluator nicht nur auf Bugs prüfen, sondern auch auf vier Dinge achten:
Designqualität, Originalität, Verarbeitungssinn, Funktionalität.
Außerdem erhöht es absichtlich das Gewicht von "Originalität" und "Designqualität".
Übersetzt in einfache Sprache heißt das: Geben Sie nicht immer die sichersten Antworten ab, sondern erstellen Sie etwas, das wirklich wie ein Werk aussieht.
Hinter diesem liegt ein sehr wichtiges Signal:
Viele Menschen denken, dass die Kreativität der KI von plötzlichen Einfällen kommt, aber in vielen Fällen wird die Kreativität der KI genau durch hohe Standards herausgefordert.
Deshalb könnte die wirklich knappe Fähigkeit in der nächsten Phase nicht "wer besser generieren kann" sein, sondern "wer besser bewerten kann".
Wie gut Sie Fehler finden können, bestimmt, wie weit die KI letztendlich gehen kann.
Das Schrecklichste ist, dass die KI tatsächlich bis zur 10. Überarbeitung verbessern kann
Das beunruhigendste an diesem Experiment ist, dass Claude beginnt, ein starkes Gefühl der Abgeschlossenheit zu entwickeln.
Schauen wir uns noch einmal RetroForge, also den Retro-Spieleditor, an.
Es ist dieselbe einzeilige Anforderung.
Die Einzel-Agenten-Version benötigte 20 Minuten und 9 Dollar. Es war schnell und billig, aber es war eher wie ein leerer Hülle.
Die Drei-Agenten-Version benötigte 6 Stunden und 200 Dollar. Es