StartseiteArtikel

Andrej Karpathys viraler Vortrag dominiert die Tech-Szene: KI läutet Software 3.0 ein – Das Zeitalter, in dem alles neu geschrieben wird, ist angebrochen.

AI前线2025-06-19 19:23
Zukünftige Software wird nicht länger ein kalter, unpersönlicher Werkzeug sein, sondern ein intelligenter Partner, der verstehen, schließen und sogar aktiv kooperieren kann.

Herausgeberhinweis: In jüngster Zeit hat Andrej Karpathy, ein führender Künstliche-Intelligenz-Experte, der an der Stanford University, bei OpenAI und Tesla gearbeitet hat, auf der Bühne der AI Startup School in San Francisco aus einer einzigartigen Perspektive, die sowohl die Wissenschaft als auch die Industrie umfasst, eine Paradigmenwende aufgedeckt, die die technologische Welt neu formt. Andrej hat eine "Programmierrevolution" erkannt, die im Gange ist. Mit der Entwicklung der KI-Technologie hat die Softwareprogrammierung die "Zeit 3.0" erreicht. Hierbei ersetzt die natürliche Sprache die traditionellen Codes als Kernprogrammierungsschnittstelle, und die großen Modelle übernehmen die komplexen Logiken, die früher manuell geschrieben werden mussten. Andrej hat darauf hingewiesen, dass diese Veränderung weit mehr ist als eine einfache Werkzeugaktualisierung. Wenn Entwickler über alltägliche Sprachbefehle Systeme ansteuern können und die Anforderungen der Benutzer direkt in maschinenausführbare Absichten umgewandelt werden können, bauen wir tatsächlich einen "neuen Computer". Dieser Computer versteht die Welt nicht mehr auf der Grundlage präziser grammatikalischer Regeln, sondern auf probabilistischer und semantischer Ebene - ähnlich wie der Mensch. Diese Entwicklung ist für Entwickler ein Vorteil, da es die Programmierbarriere beseitigt. Für Benutzer ist es noch besser, da es die Interaktionsweise vollständig befreit und die Mensch-Maschine-Kooperation keine sprachlichen Barrieren mehr hat. Wie Andrej betont hat: Wir stehen an einem historischen Wendepunkt in der Mensch-Maschine-Beziehung. Die zukünftige Software wird nicht länger ein kalter Werkzeug sein, sondern ein intelligenter Partner, der versteht, schließt und sogar aktiv kooperiert. Die Tiefe dieser Veränderung könnte vergleichbar sein mit der damaligen Überleitung von der Befehlszeilenschnittstelle zur grafischen Benutzeroberfläche.

Der folgende Text basiert auf dem Video von Andrej Karpathy's Vortrag und wurde unter Beibehaltung der ursprünglichen Bedeutung bearbeitet.

KI hat die traditionellen Softwarekomponenten umgeworfen

Ich freue mich sehr, heute mit Ihnen über "Software in der KI-Zeit" zu sprechen. Ich habe gehört, dass viele von Ihnen Studenten sind, die gerade auf dem Weg in die Branche sind. Dies ist ein sehr einzigartiger und interessanter Zeitpunkt, um in die Branche einzusteigen.

Warum das so ist? Ich glaube, dass die Software derzeit eine weitere tiefgreifende Veränderung durchmacht. Beachten Sie, dass ich hier das Wort "weitere" verwende, weil ich bereits ähnliche Vorträge gehalten habe. Warum also nochmal über dieses Thema sprechen? Weil sich die Software ständig ändert, kann ich immer neue Materialien für neue Vorträge finden. Und diese Veränderung ist, wie ich finde, sehr grundlegend.

Im Großen und Ganzen hat sich die Software in den letzten 70 Jahren im Wesentlichen nicht stark verändert, aber in den letzten Jahren hat sie zwei große Veränderungen erfahren. Daher haben wir eine Menge Arbeit zu tun - eine große Menge an Software muss neu geschrieben oder neu gestaltet werden.

Wenden wir uns nun dem Softwaregebiet zu. Wenn wir die "Map of GitHub" als Softwarekarte betrachten, zeigt sie all den Softwarecode, den wir geschrieben haben, also alle Anweisungen, die dem Computer sagen, wie er in der digitalen Welt Aufgaben ausführen soll.

Wenn wir hineinzoomen, können wir sehen, dass jeder kleine Punkt ein unterschiedliches Code-Repository ist, also bereits geschriebener Code.

Vor einigen Jahren habe ich begonnen zu erkennen, dass sich die Software verändert und eine "neue Art von Software" entsteht. Damals habe ich sie "Software 2.0" genannt.

Software 1.0 ist der traditionelle Code, den wir für Computer schreiben. Software 2.0 besteht im Wesentlichen aus den Gewichten von neuronalen Netzen. Statt direkt Code zu schreiben, trainieren Sie die Parameter eines neuronalen Netzes, indem Sie den Datensatz anpassen und einen Optimierer ausführen. Damals wurde das neuronale Netz von vielen als Klassifikator wie eine Entscheidungsbaum angesehen, nichts Besonderes. Aber meine damalige Meinung war, dass dies ein neues Softwareparadigma ist.

Jetzt, in der Zeit von Software 2.0, gibt es auch etwas Ähnliches wie GitHub. Beispielsweise ist Hugging Face im Wesentlichen das GitHub der Software-2.0-Zeit. Und es gibt auch Visualisierungstools wie Model Atlas, mit denen man die Parameter verschiedener Modelle sehen kann - zum Beispiel ist der große Kreis in der Mitte die Parameter des Bildgenerierungsmodells FLUX. Jedes Mal, wenn jemand ein neues Modell auf der Grundlage von FLUX feinabstimmt, ist dies im Grunde genommen ein "git commit" auf dieser Karte, was im Wesentlichen eine neue Version des Bildgenerators erzeugt.

Wir können es also so verstehen:

  • Software 1.0 ist der Code, der für Computer geschrieben wird.
  • Software 2.0 sind die Gewichtungsparameter, die für neuronale Netze geschrieben werden.

Beispielsweise ist AlexNet ein neuronales Netz für Bilderkennung.

Die meisten neuronalen Netze, mit denen wir uns in der Vergangenheit vertraut gemacht haben, waren "festgelegte Funktionen" - beispielsweise geben sie bei Eingabe eines Bildes ein Klassenlabel aus. Aber es hat sich kürzlich eine grundlegende Veränderung ereignet: Neuronale Netze können jetzt "programmiert" werden, was den großen Sprachmodellen (LLMs) zu verdanken ist. Daher denke ich, dass dies eine ganz neue Computermwelt ist.

Daher ist diese neue Zeit verdientermaßen Software 3.0: Sie schreiben keinen Code mehr und trainieren keine neuronalen Netzparameter mehr, sondern "programmieren" das LLM direkt über "Prompt" (Hinweise). Noch besser ist, dass diese Programmiersprache die alltägliche "Englischsprache" ist.

Das ist wirklich interessant. Lassen Sie uns ein Beispiel nehmen, um den Unterschied zwischen der Software-3.0-Zeit und anderen Programmierweisen zu verdeutlichen:

Angenommen, Sie möchten eine Sentiment-Klassifizierung durchführen. In der Software-1.0-Zeit müssten Sie einen Python-Code schreiben, in der 2.0-Zeit müssten Sie ein neuronales Netz trainieren, und jetzt können Sie in vielen Fällen auf GitHub nicht nur Code, sondern auch direkt einen Prompt auf Englisch schreiben, um das große Sprachmodell dazu zu bringen, Klassifizierungsergebnisse auszugeben.

Dies ist tatsächlich eine ganz neue Programmierweise, und sie wird mit natürlicher Sprache durchgeführt.

Vor einigen Jahren, als ich dies erkannte, habe ich einen Tweet veröffentlicht, und viele Menschen haben dadurch auf diese Veränderung aufmerksam geworden. Dieser Tweet ist immer noch mein angepinntes Beitrag: Wir können jetzt Computer mit Englisch programmieren.

Als ich bei Tesla arbeitete, war ich an der Entwicklung des autonomen Fahrsystems beteiligt. Wir haben versucht, das Auto autonom fahren zu lassen und haben damals ein Architekturdiagramm gezeigt.

Das Diagramm zeigt, dass die Eingabe von verschiedenen Sensoren (z. B. Kameras) kommt, durch eine Reihe von Softwareverarbeitungen geht und schließlich der Lenkwinkel und die Beschleunigung ausgegeben werden.

Damals habe ich darauf hingewiesen, dass es etwa "eine Tonne" an C++-Code im System gab, also Software 1.0, und dass auch einige neuronale Netze für die Bilderkennung begannen aufzutauchen. Diese Veränderung ist sehr interessant - mit der Verbesserung der Leistung des autonomen Fahrsystems werden die neuronalen Netze immer größer und leistungsfähiger, und gleichzeitig beginnen wir, eine große Menge an logischem Code, der ursprünglich in C++ geschrieben war, zu entfernen.

Frühere Operationen wie das "Zusammenfügen von Bildern mehrerer Kameras" werden jetzt von neuronalen Netzen übernommen. Das Ergebnis ist, dass wir eine große Menge an 1.0-Code entfernt haben. Man kann sagen, dass der Software-2.0-Stack den Software-1.0-Stack "verschlungen" hat und zum Kernteil des Systems geworden ist.

Jetzt erleben wir dasselbe. Das neue Softwareparadigma (Software 3.0) dringt schnell in den gesamten Technologiestack vor. Wir stehen jetzt vor drei völlig verschiedenen Programmierparadigmen: 1.0, 2.0, 3.0.

Wenn Sie gerade in die Branche eintreten, empfehle ich Ihnen, sich gut mit allen drei vertraut zu machen. Sie haben jeweils Vor- und Nachteile: Manche Funktionen eignen sich möglicherweise besser für direktes Codeschreiben (1.0), andere für das Training von neuronalen Netzen (2.0), und wieder andere erfordern nur die Eingabe eines Prompts (3.0). Wir werden ständig vor Entscheidungen stehen: Welche Methode soll ich für diese Funktion verwenden? Soll ich ein Modell trainieren? Oder kann ich einfach das LLM nutzen, um die Antwort zu generieren?

KI wird zur neuen Elektrizität

Und wir müssen in der Lage sein, flexibel zwischen diesen drei Paradigmen zu wechseln.

Als nächstes möchte ich in den ersten Teil dieses Vortrags eintauchen...

Große Sprachmodelle (LLM) haben die Eigenschaften einer öffentlichen Infrastruktur, eines Wafer-Fabrikats und eines Betriebssystems - sie werden zu einer neuen Art von "Betriebssystem", das von großen Labors entwickelt und wie ein öffentliches Versorgungsunternehmen verteilt wird (zumindest derzeit). Viele historische Analogien passen hier - meiner Meinung nach entspricht unser gegenwärtiger Rechenstand ungefähr dem Stand der 1960er Jahre.

Zu den LLMs und wie man dieses neue Paradigma und Ökosystem verstehen soll und wie es aussieht, möchte ich einen Satz von Andrew zitieren, der nach mir sprechen wird. Er hat damals gesagt: "KI ist die neue Elektrizität."

Ich finde diesen Satz sehr aufschlussreich, denn er erfasst wirklich einen wichtigen Punkt: Die LLMs haben offensichtlich Eigenschaften ähnlich denen eines "öffentlichen Versorgungsunternehmens".

Die heutigen LLM-Labore wie OpenAI, Gemini, Anthropic usw. investieren große Kapitalausgaben (CapEx), um LLMs zu trainieren, was der Bau eines Stromnetzes ähnelt. Und anschließend müssen sie