StartseiteArtikel

Menschen schlagen KI - Programmierung und gewinnen den Titel, Ultraman gibt die Zustimmung. 16 Spitzen-Programmierer enthüllen in praktischen Tests: KI-Programmierung ist tatsächlich eine "Effizienz-Illusion".

爱范儿2025-07-17 16:52
Kann der von KI geschriebene Code überhaupt noch genutzt werden!

Humanity has prevailed (for now!) Die Menschheit hat (vorerst!) gewonnen! 

Gestern gewann in der AtCoder 2025 Weltmeisterschaft in Tokio der menschliche Teilnehmer Psyho mit einem deutlichen Abstand gegen das von OpenAI eingereichte automatisierte Programm OpenAIAHC und belegte damit den ersten Platz. 

Die AtCoder World Tour Finals sind ein von AtCoder jährlich ausgerichtetes Turnier, das darauf abzielt, den Weltmeister im Wettbewerbs-Programmieren zu ermitteln. An erster Stelle steht Psyho aus Polen, OpenAIAHC liegt auf Rang zwei. 

Sobald die Nachricht bekannt wurde, retweetete sogar OpenAI CEO Altman es persönlich und kommentierte: „Gut gemacht, Psyho!“ 

Dieser Sieg ist sicherlich zu feiern, aber er bleibt vorerst. OpenAIAHC liegt dicht auf dem zweiten Platz und drängt an. Die Fähigkeiten von KI in Programmierwettbewerben werden immer stärker, und die von Null aus debuggten Programme nähern sich bereits den Spitzenleistungen von Menschen. 

Genau wie damals bei der „Schlacht“ von AlphaGo gegen Lee Sedol zeigen sich auch die Vorteile von KI-Programmierung Schritt für Schritt und nehmen allmählich die Oberhand. 

Heutige Entwickler werden von Tools wie Claude Code, Gemini CLI und Cursor umringt. Es geht nicht mehr darum, ob man diese Tools nutzt, sondern wie man sie nutzt. 

Die jüngste Veröffentlichung von Kimi K2 hat Claude Code wieder in die Schlagzeilen gebracht. Viele bemerkten neben der Schnelligkeit und Größe des K2-Modells auch, dass seine API in Claude Code integriert wurde. 

Starte Claude Code, schreibe einen Prompt, drücke Enter, und schon ist ein gut strukturiertes Funktionsblock geschrieben. Das Gleiche gilt für Gemini CLI und Cursor. 

Das Programmieren hat sich von einem schmerzlichen Prozess, in dem man alleine gegen Bugs kämpft, zu einem kreativen Spiel mit KI wie beim Bauen von Lego-Bausteinen verwandelt. Es gibt sogar einen schönen Namen dafür: Vibe Coding (Stimmungsprogrammierung, Programmieren in Zusammenarbeit mit KI über Prompts). 

Sehr viele Menschen teilen auf sozialen Medien ihre Erfahrungen mit Vibe Coding. Einige sagen, dass Claude der „stärkste bisher verwendete Code-Assistent“ sei, aber auch erfahrene Entwickler teilen ihre schwierigen Erfahrungen mit der Nutzung von Claude. 

Einige erfahrene Entwickler empfinden den von KI geschriebenen Code als „ekelhaft“. 

Funktioniert Vibe Coding überhaupt? Ist es die KI, die in Programmierwettbewerben den zweiten Platz belegt, oder die, die in der täglichen Programmierung immer wieder „ekelhaft“ wirkt? Vor kurzem hat eine neue Studie die KI-Programmierung mit kalten Wasser bespritzt. 

Eine kontra-intuitive Studie: KI-Programmierung könnte weniger effizient sein. 

Kürzlich hat die US-amerikanische KI-Sicherheitsbehörde METR eine praktische Studie zu Claude 3.5/3.7 veröffentlicht. Sie haben 16 erfahrene Open-Source-Entwickler eingeladen, Claude Code bei der Programmierung in vertrauten Projekten zu nutzen. 

Die Ergebnisse der 16 erfahrenen Entwickler in der Studie (rot), sowie die Prognosen von Ökonomen, Maschinellen Lernern und Entwicklern während und nach der Studie von links nach rechts (grün). 

Das Ergebnis hat viele überrascht: 

Nach der Nutzung von KI haben die Entwickler durchschnittlich 19 % länger benötigt, um ihre Aufgaben zu erledigen. 

Interessanterweise fühlten sich die Teilnehmer, obwohl die Ergebnisse langsamer waren, schneller! Sie fühlten, dass die KI ihnen viel geholfen habe, der Programmierung sei flüssiger gelaufen und die Effizienz habe um 20 % zugenommen. 

Die „KI-Halluzination“ scheint auf die Menschen übertragen worden zu sein und hat sich in eine „Effizienzhalluzination“ verwandelt. Du denkst, du bist schneller geworden, aber eigentlich fühlst du dich nur schneller. 

Warum ist das so? Die Studie hat die folgenden Gründe zusammengefasst: 

  • Das Schreiben von Prompts nimmt viel Zeit in Anspruch und muss oft geändert werden;
  • Die von Claude gelieferten Codes können meist nicht direkt verwendet werden und müssen manuell in der Logik korrigiert und auf Bugs überprüft werden;
  • Du befindest dich in einer „unterbrochenen Phase“ in der Schleife von „Prompt - Warten - Korrigieren“.

Nach alledem fragen wir uns, ob wir selbst auch die gleichen Probleme haben würden, wenn wir diese Tools nutzen würden. 

Deshalb haben wir ein kleines Experiment gemacht. 

Kann Vibe Coding dich wirklich fliegen lassen? 

Wir haben eine kleine Aufgabe entworfen, die zwar nicht allzu schwierig aussieht, aber logisch nicht ganz einfach ist: 

Schreibe ein Befehlszeilentool, das bei Eingabe eines Schlüsselworts die Titel der Beiträge auf der Zhihu-Hotliste, die dieses Schlüsselwort enthalten, zurückgibt und die Anzahl der Ausgaben begrenzt. 

Diese Aufgabe beinhaltet Netzwerkanfragen, HTML-Parsing, String-Matching und die Analyse von Befehlszeilenparametern und eignet sich perfekt, um die Fähigkeiten von Claude Code und Gemini CLI zu testen. 

Hier verwenden wir Gemini CLI, um diese Aufgabe zu lösen. Obwohl es in der Befehlszeile ziemlich ungewöhnlich ist, chinesisch zu verwenden, unterstützen sowohl Gemini CLI als auch Claude Code die Eingabe von chinesischen Zeichen. 

Es war ziemlich schnell. Vielleicht war die Aufgabe einfach, und man musste nicht lange warten, bis der Code generiert wurde. Zuerst generierte es automatisch, welche Bibliotheken installiert werden mussten, um Webseiten zu crawlen, und dann wurde die Hauptdatei main.py erstellt. 

Das Problem war, dass man sich bei Zhihu anmelden musste. Es hat automatisch Google genutzt, um eine öffentliche API zu suchen und andere Tools zu verwenden, aber es half nichts. Am Ende hat es mir gesagt, dass ich selbst das Cookie eingeben musste. 

Obwohl es mir in kurzer Zeit nicht geholfen hat, diese Aufgabe zu erledigen, war das gesamte Erlebnis doch sehr angenehm. Es war wie, wenn man einen Praktikanten anweist, eine Aufgabe zu erledigen. Man kann einen Praktikanten nicht schimpfen, wenn er es nicht gut macht, aber in Vibe Coding kann man direkt Gemini CLI ankreiden. 

Beim Verwenden von Claude Code mit Kimi K2 haben wir ebenfalls versucht, ihn von Grund auf an einer wissenschaftlichen Aufgabe zu beteiligen. In einem leeren Ordner habe ich Claude Code gesagt, dass ich einen Artikel für die CVPR (Spitzenkonferenz für Computervision) veröffentlichen möchte und dass ich eine bestimmte Richtung habe. Er soll mir helfen, den Code für dieses Experiment zu schreiben. 

Am Ende, als ich alle kostenlosen API-Tokens von Kimi K2 aufgebraucht hatte, war das Projekt immer noch so gut wie Null. Zuerst generierte es überzeugt den gesamten Trainingscode, die Netzwerkstruktur, die Datensatzcode und den Testcode und sagte, dass es lauffähig sei. 

Ich sagte, dass seine Methode nicht neuartig sei, und es stimmte zu. Dann bat ich es, die neuesten zwei Jahre an Papers zu finden, und dann verbrauchte es alle meine Tokens. 

Da der gesamte Prozess ziemlich kurz war, habe ich nicht viel eingegriffen und die Aufgabe vollständig der KI überlassen. Selbst wenn es Probleme gab, habe ich die KI selbst die Lösung suchen lassen. 

Ich denke, es hat einen großen Vorteil: Es kann fast vollständig den Computer steuern, ohne dass ich zusätzlichen Kontextinformationen geben muss. 

Genuss vs. Effizienz, kann KI-Programmierung beides bieten? 

Bei diesem kleinen Test war mir am meisten aufgefallen, dass die KI mir eher „Genuss“ als „Effizienz“ gebracht hat. 

Du fühlst dich wie ein Programmierprofi, und der Code erscheint wie magisch. Aber sobald es einen Fehler gibt oder die Logik nicht stimmt, stellst du fest, dass du den Code nicht wirklich verstehst und nicht weißt, wie du ihn korrigieren sollst. 

Aber ich denke immer noch, dass es an sich mit dem Tool nicht das Problem ist. Die Art und Weise, wie man das Tool nutzt, ist der entscheidende Faktor, ob man sein Potenzial ausschöpfen kann. 

Sean Grove von OpenAI hielt auf der AIEWF2025 einen Vortrag über „Neuer Code“ 

Sean Grove, der in OpenAI an der Arbeit zur Alignment-Inferenz beteiligt ist, erwähnte in einem jüngsten Vortrag, dass bei der Nutzung von KI-Programmiertools nicht die Prompt-Engineering, sondern die „Spezifikation“ wichtig sei. 

Das aktuelle „Vibe Coding“ hat ein Problem: Wir behalten den von KI generierten Code, aber verwerfen die Prompts, die unseren ursprünglichen Zweck enthalten. Das ist so, als würde man den Quellcode wegwerfen und nur die kompilierten Binärdateien versionieren, was nicht nachhalt