Programmierende Agenten könnten einer der teuersten Fehler in der Geschichte der Softwareentwicklung sein.
„Ich wage es zu behaupten: Die Einführung von KI - Agenten in die Softwareentwicklung wird einer der kostspieligsten Fehler in der Geschichte dieses Bereichs werden.“
Derjenige, der diese Worte sagte, ist George Hotz. Mit 17 Jahren war er der erste, der das iPhone hackte. Später führte er eine Reverse - Engineering - Analyse des PlayStation 3 durch – weshalb ihn Sony vor Gericht zog. Danach gründete er comma.ai und wurde der unkonventionellste Mann im Bereich der autonomen Fahrweise.
In den letzten sechs Monaten hat Hotz alle namhaften KI - Programmier - Agenten auf dem Markt getestet. Er hat mit ihnen Code für tinygrad geschrieben und einen USB - PCIe - Chip rückwärts analysiert. Er hat verschiedene Modelle, verschiedene Harnesses und verschiedene Prompts ausprobiert.
Letzten Sonntag hat er seine Schlussfolgerungen in einem Blogbeitrag mit dem Titel „Der ewige Sloptember“ festgehalten und festgestellt, dass die Massenadoption von künstlichen Intelligenz - Programmieragenten in eine Katastrophe münden wird oder zumindest ihr nahekommen wird.
Hotzs Kernargument ist klar: Agenten sind keine Programmierer. „Agenten können nicht programmieren, und es wird immer schwieriger, dies zu erkennen“, schrieb er. „Sie sind hochkomplexe statistische Modelle, die darauf ausgelegt sind, die Verteilung des ‚Programmierens‘ zu imitieren. Die von ihnen erzeugten Dinge sind schlecht, nur immer versteckter und schwieriger zu entdecken. Und das ist genau das Ergebnis eines immer präziseren statistischen Modells.“
1 Die zwei Pole der KI - Programmierung: Karpathy sieht eine Revolution, Hotz sieht eine Katastrophe
Vor fünf Tagen hat einer der bekanntesten Forscher der KI - Szene, Andrej Karpathy, Anthropic beigetreten und öffentlich klar gemacht, dass KI - Agenten die Softwareentwicklung grundlegend verändert haben.
Jetzt repräsentieren diese beiden Männer die beiden Extreme einer noch ungelösten Debatte in der Branche, und beide haben genug Glaubwürdigkeit, um ihre Position zu verteidigen.
Hotz war nicht von Anfang an so überzeugt. Er hat sechs Monate lang Agenten in realen Projekten eingesetzt: darunter das Schreiben von Teilen des Codes für seinen Open - Source - Tiefenlernrahmen Tinygrad und die vollständige Reverse - Engineering - Analyse des Firmwares eines USB - PCIe - Chips. Aber am Ende kam er zu dem Schluss, dass er jedes Mal „besser und schneller“ hätten händisch machen können. Das Muster, das er beobachtete, war: „Agenten legen alle Fortschritte am Anfang an und geben Ihnen dann einen Leuchtfeuerhebel, den Sie immer wieder ziehen müssen, in der Hoffnung, dass sie die letzte Verfeinerung erledigen. Aber es fehlt immer etwas.“
Hotz hatte die offensichtlichste Gegenargumentation vorausgesehen:
Bevor jemand herausspringt und sagt: ‚Du hast es falsch gemacht‘, sage ich es zuerst: Ich habe verschiedene Modelle, verschiedene Harnesses und verschiedene Prompts ausprobiert. Das ist nicht das Problem. Diejenigen, die so etwas sagen, würden wahrscheinlich auch zu einem Leuchtfeuer sagen: Sieh mal, nachdem Sie eine Kirsche bekommen haben, sollten Sie auf fünf Linien setzen. Kein Wunder, dass Sie nicht gewinnen!
Ich sage nicht, dass KI nutzlos ist. Sie ist offensichtlich nützlich. Für die meisten Suchanfragen ist sie definitiv ein besserer Google - Sucher. Wenn Sie nur einen schnellen Prototypen brauchen und sich nicht um die Verfeinerung kümmern, ist sie unglaublich schnell.
Aber ist sie ein Softwareingenieur? Sie ist weit von den Standards aller Firmen entfernt, bei denen ich gearbeitet habe. Der Trick besteht darin, zu wissen, wann man sie einsetzen sollte und wann nicht.
Ein Programmierer, der seine Kunst als Teil seiner Identität ansieht, wird natürlich gegen Werkzeuge aufbäumen, die ihn ersetzen wollen. Er hat diese Bedenken ernst genommen, aber sie auch faktisch zurückgewiesen.
Hotz schrieb: „Ich habe mir später nochmal über die Aufrechterhaltung meines Selbstwertgefühls Gedanken gemacht. (Googles) AFL findet mehr Bugs als LLM, und dennoch hat das niemanden so beeinflusst. Schach und Go sind beliebter denn je.“ In gewisser Weise hat er recht, denn Schach - KI hat die Menschen seit Jahrzehnten dominiert, aber das Spiel ist stattdessen beliebter geworden.
Also ist er nicht vor der eigenen Ersetzung besorgt. Was ihn wirklich Sorgen macht, ist, was mit der Codequalität passieren wird, wenn alle gleichzeitig diese Werkzeuge einsetzen, insbesondere wenn große Technologieunternehmen und die Wall Street die Massenadoption dieser Werkzeuge vorantreiben.
Hotz meint: „Ich denke sogar, dass diese Art von Argumentation eine Art Psychowaffe zur Vermarktung von Agenten ist. Die Angst vor Verlusten ist eine der wenigen Dinge, die große Unternehmen dazu bringen können, etwas zu tun. Ich denke jedoch, dass sie in dieser Angst einen großen Fehler machen.“
Er meint, dass Agenten am Ende größere Schäden an großen Organisationen anrichten werden als an hochleistungsfähigen Einzelpersonen oder kleinen Organisationen.
In den letzten sechs Monaten habe ich beobachtet, wie meine Freunde und Kollegen diese Werkzeuge einsetzen. Alle hochleistungsfähigen Personen haben ein gemeinsames Merkmal: Sie haben die Fähigkeit, Fehler zu korrigieren, und in den meisten Fällen können sie erkennen, wann etwas Schrott ist. Es braucht tatsächlich etwas Zeit, um diese Werkzeuge zu erkunden, zu testen und die äußere Schleife anzupassen, z. B. wann man sie einsetzen sollte, wann man ihnen vertrauen sollte und wie man sie einsetzen sollte. Aber abgesehen von einigen wenigen Bereichen mit klaren Grenzen habe ich noch niemanden von ihnen in ein Modell gewechselt, in dem man nicht mehr jede Codezeile gründlich liest und versteht.“
Schauen wir uns nun die großen Organisationen an. Die Rückkopplungsschleifen sind viel langsamer und die Ausrichtung viel geringer. Diejenigen, die am schlechtesten abschneiden, haben keine Selbstkontrollfähigkeit. Und genau diese Personen werden diejenigen sein, die mit Agenten „10 - mal so viel Code“ produzieren. Was glauben Sie, wird dies mit der durchschnittlichen Leistung einer Organisation und der Welt insgesamt bewirken?
Agenten werden am Ende mehr Code, mehr Anwendungen und mehr Funktionen produzieren. Dies wird eine Goldene Zeit für die Produktion von Schrottcode und eine Dunkelheit für hochwertige Exemplare sein.
In Bezug auf tiefere technische Fragen hat Hotz sich einer anderen Fraktion zugewandt. Er sagt: „Obwohl ich nicht alle ihre Ansichten teile, stehe ich jetzt in der Frage der LLM auf der Seite von LeCun / Marcus. Ich glaube nicht, dass diese Art von Modellen tatsächlich programmieren können. Ich denke, der Prozess ist wichtig.“
Nach seiner Meinung braucht ein echter Programmieragent ein Weltmodell, und nicht die derzeitige RLVR - basierte Methode. Über letztere spricht er ganz direkt: Das ist einfach „das, was man macht, wenn man fehlgeschlagene Tests auskommentiert und sagt, dass alle Tests bestanden haben“.
Er meint, dass das tiefere Problem darin besteht, wie wir ein Produkt betrachten. In der Vergangenheit nahm man an, dass hinter einem Code oder einer Software ein menschlicher Schaffungsprozess steckte. Aber diese Annahme gilt jetzt nicht mehr. „Dinge können auf eine Weise kaputt gehen, die früher nicht möglich war. Und die Syntax und Grammatik, die früher als Signale für die Qualität des Codes galten, sind jetzt nutzlos.“ Der von Agenten geschriebene Code wird nicht auf die gleiche Weise erzeugt wie menschlicher Code. Dieser Unterschied mag statistisch gesehen sehr gering sein, aber wenn man versucht, ihn wie menschlichen Code zu verstehen und weiterzuentwickeln, wird er sehr deutlich.
Hotz warnt auch diejenigen, die KI - Agenten für die Entwicklung von seriöser Software einsetzen: „Die wahre Geschichte dieser Zeit wird sein, wer es schafft, sich in seiner KI - Begeisterung nicht zu verletzen.“
2 Diejenigen, die die KI - Programmierhype geschaffen haben, beginnen, sich Sorgen über die Kontrollierbarkeit zu machen
Hotz ist nicht der einzige, der so etwas sagt.
Mario Zechner und Armin Ronacher, die beiden Ingenieure, die die Kernkomponenten des beliebten OpenClaw KI - Agenten entwickelt haben, warnen nun: Diejenigen KI - Systeme, die behaupten, Programmierer ersetzen zu können, bringen eine Menge schlechten und sogar gefährlichen Codes in die Welt. Sie nennen dieses Phänomen „vibe slop“ – Programmierer entwerfen und testen Systeme nicht mehr gründlich, sondern lassen KI schnell etwas zusammenstellen, was am Ende zu Software führt, die der Zeit nicht standhält.
„Die Infrastruktur bricht zusammen, die Software hat mehr Sicherheitslücken als je zuvor“, sagt Zechner, der Schöpfer des internen OpenClaw - Frameworks Pi. „Wir können noch ein paar Monate oder sogar Jahre damit umgehen, aber am Ende wird es uns teuer zu stehen kommen.“
Zechner und Ronacher sind keine KI - Gegner. Sie verwenden KI auch in ihrer eigenen Codeentwicklung, um langweilige Aufgaben zu erledigen, und ihr selbst entwickeltes Werkzeug Pi wird von Hunderten von Tausenden von Menschen verwendet. Genau weil sie in der Branche tätig sind, ist diese Warnung nicht die leeren Schreie eines Laien. Sie befürchten, dass viele Unternehmen kurzfristige Produktivität gegen langfristige Probleme eintauschen: Der Nachwuchs an Fachkräften trocknet aus, die Anzahl der Bugs steigt, es gibt Sicherheitslücken und die technische Schuldenlast wächst.
Alphabet - CEO Pichai hat gesagt, dass 75 % des neuen Codes von Google von KI generiert wird. Meta - CEO Zuckerberg prognostiziert, dass KI bis 2026 den größten Teil des Codes des KI - Teams von Meta schreiben und überprüfen wird. Aber Zechner meint, dass diese Aussagen zeigen, dass viele Menschen nicht verstehen, was KI - Agenten können und was nicht.
KI - Programmierwerkzeuge sind gut darin, neuen Code zu generieren, aber schlecht darin, bestehende Software zu bewerten und zu verbessern – insbesondere die riesigen und komplexen Legacy - Systeme in etablierten Unternehmen. Start - ups, die mit vibe coding anfangen, können schnell loslegen, aber Zechner sagt, dass sie, sobald das System eine gewisse Größe erreicht hat, auf die gleichen Probleme stoßen wie große Unternehmen: Die Verwendung von KI - Agenten ist begrenzt.
Nehmen wir das Claude Code von Anthropic als Beispiel. Zechners Bewertung ist unerbittlich: „Claude Code ist eine der kaputtesten Software, die ich je benutzt habe.“ Diese Probleme entstehen, weil die Entwickler KI zur Erstellung verwendet haben. Und Catherine Wu, die Produktverantwortliche von Anthropic, hat sich verteidigt, aber auch zugegeben: „Die endgültige Verantwortung liegt immer noch bei den Menschen.“
Der Informatiker Timothy B. Lee hat darauf hingewiesen, dass Anthropic über einige der besten KI - Ingenieure der Welt verfügt, daher könnte diese starke Abhängigkeit von KI für sie funktionieren, aber nicht unbedingt für alle Kunden dieser Firma. Viele Unternehmen verlassen sich bei der Bearbeitung ihrer internen Software - Systeme auf das implizite Wissen ihrer Programmierer, das nicht in den Trainingsdaten von KI - Agenten enthalten ist.
„Diese Modelle können leicht in die falsche Richtung gehen, und es muss jemand darauf achten.“
Zechner meint, dass eine Abrechnung bevorsteht.
Er meint, dass die großen Unternehmen bald erkennen werden, dass ihre Überbetonung von KI - generiertem Code die Kosten erhöht und die Softwarequalität verringert. Er meint, dass viele kleine Start - ups, die auf vibe coding setzen, pleite gehen werden. Er meint auch, dass Cloud - Code - Repositories wie GitHub weiterhin mit von KI generiertem Programmier - Schrott gefüllt werden.
3 Die Rendite von KI hinkt noch hinter den Kosten zurück
Wenn Hotz und Zechner sich Sorgen um die Codequalität machen, so geht es den Uber - Manageren um etwas anderes: das Geld.
Uber - COO Andrew Macdonald hat in einem Interview vor drei Tagen gesagt, dass die Kosten für KI innerhalb der Firma immer schwieriger zu rechtfertigen sind.
Er hat erwähnt, dass Uber - CTO Praveen Neppalli Naga im April dieses Jahres in einem Interview mit The Information gesagt hat, dass Uber bereits das Budget für Claude Code für 2026 aufgebraucht hat. Diese Aussage ist dann im Internet verbreitet worden.
Macdonald sagt, dass diese Aussage in Uber eine Furore ausgelöst hat und dass die Mitarbeiter nun gründlich über die Token - Konsum von KI und die daraus resultierenden Abwägungen diskutieren, wie etwa die Auswirkungen auf die Personalstärke. Er sagt, dass er nach Gesprächen mit mehreren leitenden Ingenieuren von Uber festgestellt hat, dass mehr Token - Verbrauch nicht automatisch bedeutet, dass die Firma proportional mehr nützliche Funktionen für die Verbraucher liefern kann.
„Dieser Zusammenhang existiert noch nicht“, sagt Macdonald. „Es ist schwierig, einen bestimmten Indikator direkt mit ‚Okay, jetzt haben wir 25 % mehr nützliche Funktionen für die Verbraucher geliefert‘ in Verbindung zu bringen.“
Wenn dieser kausale Zusammenhang nicht hergestellt werden kann, ist es schwierig, die Kosten für KI zu rechtfertigen. Uber - CEO hat bereits Anfang dieses Monats angekündigt, dass die Firma die Einstellungen verlangsamen wird, um die KI - Investitionen abzufedern.
Macdonald fügt noch hinzu: Wenn Sie nur ein Benutzer sind, der sich verschiedene spannende Anwendungsfälle ausdenkt und nicht selbst bezahlen müssen, scheint KI tatsächlich kostenlos zu sein. Aber die Rechnung muss am Ende die Firma bezahlen.
Einige Unternehmen haben bereits angefangen, sich zurückzuziehen. Beispielsweise hat Duolingo ursprünglich geplant, die KI - Nutzung in die Leistungsbewertung aufzunehmen, aber die Mitarbeiter haben schnell gefragt, ob man KI einsetzt, um die Dinge besser zu machen oder um zu beweisen, dass man KI verwendet. Anschließend hat das Unternehmen diese Entscheidung zurückgenommen. Duolingo - CEO hat später auch zugegeben: „Es hat den Anschein, dass wir nicht die Mitarbeiter für die tatsächlichen Ergebnisse verantwortlich machten, sondern die Verwendung eines bestimmten Tools vorantrieben; aber in einigen Fällen war es nicht geeignet.“
Im April dieses Jahres hat Bryan Catanzaro, der Vizepräsident für angewandtes Deep Learning bei Nvidia, erwähnt, dass KI die Personalkosten nicht gesenkt hat – tatsächlich sind die Kosten für künstliche Intelligenz derzeit höher als die bestehenden Personalkosten der Firma. Mindestens in seinem Team sind die Rechenkosten weit höher als die Personalkosten.
4 Fazit
Also ist das eigentliche Problem nicht „Mensch schreibt schlechten Code