StartseiteArtikel

Neueste Rede des AI-Experten Karpathy: Von der Fantasie zur Realisierung von AGI - zunächst müssen drei Realitäten konfrontiert werden.

36氪的朋友们2025-06-19 20:06
Kapaxi: Software 3.0 revolutioniert die Programmierung. Der Prompt ist der Kern. Große Modelle stehen vor den Herausforderungen der Intelligenz-Lücken/Schritt-förmigen Vergessens. Ein neues Paradigma der Mensch-Maschine-Kollaboration.

Am 19. Juni wurde berichtet, dass Andrei Karpathy, ein Technologiekünstler in der KI-Branche und Mitbegründer von OpenAI, kürzlich auf einem geschlossenen Kurs der YC Artificial Intelligence Startup School 2025 erklärte, dass Software 3.0 die traditionelle Programmierung in die Enge treibt. Programmierer müssen entweder lernen, mit Prompts zu "programmieren", oder sich umorientieren und Prompt-Generatoren verkaufen.

Karpathy betonte, dass Software 3.0 die traditionelle Programmierung mit dem Paradigma "Prompt ist Programm" revolutioniert. Es ist nicht einfach eine Überlagerung von handgeschriebenem Code und maschinellem Lernen, sondern eine Verschmelzung von Prompts, Systemdesign und Modelloptimierung zu einer neuen Produktivität durch die vielfältigen Eigenschaften von Large Language Models (LLMs).

Das Problem ist, dass aktuelle LLMs zwei wesentliche Mängel aufweisen: "Zackenförmiges Denken" (eine Diskrepanz in der Fähigkeit, schwierige Aufgaben und alltägliche Entscheidungen zu meistern) und "Retrograde Amnesie" (Einschränkungen in der Gesprächsauszeichnung). Diese Grenzen müssen durch System-Prompt-Lernverfahren definiert werden.

Er betonte, dass der Schlüssel für die Mensch-Maschine-Kollaboration das Konzept der "Teilautonomie" ist. Ähnlich wie bei der Iron Man-Armbrust muss ein Autonomie-Regler eingesetzt werden, um die autonomen Entscheidungen der KI und das Vertrauen der Menschen in die KI auszugleichen. Gleichzeitig muss die Entwicklungsökosystem neu strukturiert werden. Intelligent Agents, als "Übersetzer" zwischen Menschen und Computern, treiben das Entwicklungsparadigma von "Menschen anpassen sich an Maschinen" zu "Maschinen anpassen sich an Menschen" voran.

01 Software 3.0: Die Ökosystem-Neugestaltung mit Prompts als Programm

Karpathy zeigte in seiner Präsentation ein "Software-Evolutionstrail", das sehr aufschlussreich war. Er unterteilte die Softwareentwicklung in drei Phasen: "Software 1.0" (manuelles Codieren), "Software 2.0" (Maschinelles Lernen) und "Software 3.0" (Prompt-gesteuert). Dies ist jedoch kein friedlicher Koexistenzzustand. Ähnlich wie Smartphone die Tastaturtelefone verdrängten, drängt Software 3.0 die ersten beiden Generationen aus dem Markt. Karpathy bezeichnet diesen Trend als "unumkehrbare technologische Iteration".

Was die Kernpunkte der technologischen Veränderung angeht, bricht Karpathy mit der einfachen Logik der Überlagerung von "1+2=3". Er erklärt, dass Software 3.0 kein mechanisches Zusammenspiel der ersten beiden Generationen ist, sondern eine völlig neue Entität. So können heutige KI-Engineer, dank ihrer Fähigkeiten in "Prompt-Design + Systemarchitektur + Modelloptimierung", die reinen Prompt-Engineer überholen. Während die meisten Menschen noch mit "Singleplayer-Gedanken" mit Prompts arbeiten, haben die Entwickler mit komplexen Fähigkeiten bereits den "Gott-Modus" eröffnet.

Was noch revolutionärer ist, ist die "Alleskönner"-Eigenschaft der LLMs. Diese KI-Systeme können heute wie "technologische Transformers" zwischen verschiedenen Rollen wechseln: als "digitale Handwerker" bieten sie Rechenleistung, als "Codefabrik" generieren sie Code, als "Anwendungsentwickler" unterstützen sie die Ausführung von Tools, und als "Online-Manager" bedienen sie mehrere Benutzer gleichzeitig. Diese vielseitige Leistung revolutioniert die traditionelle Logik von der Forschung bis zur Kommerzialisierung.

Diese Eigenschafts-Kombination bringt die kommerzielle Logik der traditionellen Technologien durcheinander. Früher waren neue Technologien zunächst teuer und wurden später billiger. LLMs dagegen sind zunächst kostenlos, um die Benutzer einzuführen, und plötzlich sagen sie: "Ich kann eigentlich Ihre Branche komplett umgestalten."

02 LLM-Psychologie: Die Doppelherausforderung von Zackenförmigem Denken und Gedächtnisdefiziten

Karpathy hat das Konzept der "LLM-Psychologie" vorgeschlagen, um die "kognitiven Defizite" der aktuellen LLMs aufzudecken.

Er bringt zwei Konzepte auf den Tisch: "Zackenförmiges Denken" und "Retrograde Amnesie", die die Hauptprobleme der aktuellen LLMs aufzeigen.

Die Theorie des "Zackenförmigen Denkens" vergleicht die KI mit einem "schizophrenen Genie". Sie kann partielle Differentialgleichungen lösen, die selbst Physik-Professoren in Verzweiflung treiben, aber scheitert möglicherweise an einfachen mathematischen Fragen wie "Welche Zahl ist größer, 9.11 oder 9.9?"

Karpathy zeigt diese Diskrepanz in der Fähigkeit mit einem witzigen Beispiel: Die KI kann bei der Schreibung eines Essays auf zahlreiche Quellen verweisen, aber empfiehlt möglicherweise, "Eier nach dem Schälen in den Mikrowellenofen zu geben". Sie kann komplexe Formeln ableiten, aber scheitert an einfachen logischen Fragen. Dies ist völlig anders als die lineare Intelligenzkurve des Menschen. Menschen sammeln Erfahrung wie in einem Spiel, während die KI eher wie ein beschlagener Skill-Baum aussieht. Die natürliche Sprachverständnisfähigkeit kann auf Level 20 sein, während das alltägliche Urteilsvermögen möglicherweise nur auf Level 3 ist.

Er spottet davon, dass die heutige KI wie Sheldon aus "The Big Bang Theory" ist: hochintelligent, aber unfähig, sich selbst zu versorgen. Entwickler müssen lernen, die KI vor ihren "Dummheiten" aufzuhalten. Interessanterweise ist die Lösung nicht, einfach mehr Rechenleistung hinzuzufügen. Karpathy gibt ein Beispiel: LLM ist wie eine "kognitive Therapie" für die KI. Bevor das Modell antwortet, sollte es sich selbst fragen: "Habe ich richtig gerechnet?" Ähnlich wie ein Schüler, der seine Prüfungsergebnisse überprüft. In der Produktionsumgebung ist es jedoch immer noch wie, ein ungezügeltes Kind zu betreuen. Man lässt die KI an Aufgaben arbeiten, bei denen sie gut ist, wie das Schreiben von Code, und überwacht sie gleichzeitig, um sicherzustellen, dass sie nicht an einfachen Fragen scheitert.

Wenn "Zackenförmiges Denken" ein Intelligenzproblem ist, dann ist "Retrograde Amnesie" eine Gedächtniskatastrophe.

Karpathy macht einen dramatischen Vergleich: LLM ist wie der Hauptcharakter aus "Memento". Jedes Gespräch beginnt von vorne. Nach dem Training ist es als wäre ein "Reset"-Knopf gedrückt worden. Abgesehen von den wenigen hundert Wörtern des aktuellen Kontexts, ist alles Vergangenheitsgeschichte. Stellen Sie sich vor, Sie hätten einen Kollegen, der gestern noch die Reimbursement-Prozedur gelernt hat, aber heute wieder ratlos ist. Die "Gedächtnisfunktion" von ChatGPT ist wie ein Notizzettel für diesen Kollegen, aber ein sehr schlechter, der leicht von Kaffee beschädigt werden kann.

Während Menschen lernen, indem sie Notizen machen, fehlt der KI diese Fähigkeit. Das Pre-Training füllt das Modell mit Wissen, das Fine-Tuning bildet das Verhalten. Beide erfordern jedoch die Anpassung von Parametern. Was wir brauchen, ist, dass die KI sich selbst "Lern-Tagebücher" schreiben kann. Beispielsweise sollte das Modell nach der Beantwortung einer komplexen Frage sich selbst fragen: "Was sollte ich beim nächsten Mal tun?" Ähnlich wie ein Schüler, der seine Prüfungen nachträglich überprüft.

Um es einfacher zu machen: Pre-Training ist wie das Besuch einer Universität, Fine-Tuning ist wie ein Praktikum, und System-Prompt-Lernen ist wie das Schreiben von Arbeitsberichten nach der Arbeit.

Karpathy vergleicht die Gedächtnisdefizite der KI mit einem Lieferbote ohne Notizbuch. Er kann die Kundenpräferenzen nicht merken und verliert sich immer wieder an "alltäglichen Kreuzungen". Die ideale Lösung wäre, ihm ein "digitales Tagebuch" zu geben, damit das Modell seine eigenen Lösungsstrategien entwickeln kann, anstatt dass die Entwickler wie Babysitter hinterherhauen müssen.

Wo liegt das Problem? Es ist wie, einem Patienten mit Amnesie beizubringen, ein Tagebuch zu schreiben. Zuerst muss die KI verstehen, was sie notieren soll, und dann, wie sie die Erfahrungen aus dem Tagebuch in ein autonomes Entscheidungsvermögen umwandeln kann. Die technologischen Hürden auf diesem Weg werden die Entwickler noch lange beschäftigen.

03 Teilautonomie: Wenn die KI die Iron Man-Armbrust anzieht

Karpathy bringt die Idee auf, dass die KI die "Iron Man-Armbrust" anzieht. Diese Armbrust besteht aus zwei Teilen: "Augmentation" (Fähigkeitssteigerung), die dem Benutzer Stärke, Werkzeuge, Umweltwahrnehmung und Informationsaustausch verleiht, und "Autonomie", die der KI in den meisten Szenarien die Fähigkeit gibt, autonom Entscheidungen zu treffen und Aufgaben auszuführen, ohne dass menschliche Anweisungen erforderlich sind.

Aber wie kann diese coole Idee in die Realität umgesetzt werden? Karpathy bringt drei Lösungsansätze auf den Tisch.

Erster Ansatz: Installieren Sie einen "Sinnvollkeitsregler". Karpathy stellt das Konzept des "Autonomie-Reglers" vor, ähnlich wie ein Lautstärkeregler an einem alten Radio. Es kann die "Autonomieklappe" der KI flexibel steuern. Nehmen wir Cursor als Beispiel. Vom vorsichtigen "Möchten Sie vielleicht 'hello' schreiben?" beim Autovervollständigen mit der Tab-Taste bis hin zum selbstbewussten "Ich übernehme alles" im Cmd-I-Intelligent Agent-Modus. Es ist wie ein Praktikant, der sich zu einem Projektleiter entwickelt. Auch die Suchfunktion von Perplexity hat sich von der einfachen "Hier ist ein Link, schauen Sie sich das an" -Version zur "Forscher-Modus" mit Referenzen entwickelt. Selbst die Tesla-Fahrerassistenz hat sich von der L1-Stufe ("Sie halten das Lenkrad, ich helfe Ihnen beim Fahren") zur L4-Stufe ("Sie surfen im Internet, ich fahre") entwickelt. Hinter all diesen Veränderungen steckt die dynamische Anpassung des menschlichen Vertrauens in die KI.

Zweiter Ansatz: Drücken Sie den "Schnellvorwärts"-Knopf für die Mensch-Maschine-Kollaboration. In der Kollaborationsschleife von "KI stellt Fragen - Mensch korrigiert" betont Karpathy, dass die Teilautonomie der Schlüssel zum Erfolg ist. Die Überprüfung muss schnell sein. Beispielsweise kann die KI zunächst ein 100-Wort-Konzept erstellen, das der Mensch in 10 Sekunden genehmigen oder ablehnen kann. Die Generierung muss jedoch eingeschränkt werden. Beispielsweise kann man festlegen, dass der generierte Code bestimmte Funktionen enthalten muss, um zu verhindern, dass die KI "aus dem Ruder läuft" und "magischen Code" erstellt, der nicht funktioniert.

Dritter Ansatz: Überwinden Sie die "Marianengrabe" zwischen Demo und Produkt. Karpathy nimmt Waymo als Beispiel und gibt eine Warnung. 2014 hat