StartseiteArtikel

Enthüllung: Wie hat OpenAI das Inferenzmodell entwickelt?

36氪的朋友们2025-08-04 17:54
Zweifellos war OpenAI einst der absolute Führer in der KI-Branche. Doch heute steht es vor dem Zusammenschluss einer Reihe starker Konkurrenten wie Google, Anthropic, xAI und Meta. Die Frage ist nicht mehr, ob OpenAI seine "Zukunft der Agenten" erreichen kann, sondern ob es vor den Konkurrenten den Zielpunkt erreichen kann, bevor es von ihnen überholt wird. Dieser Wettlauf um die Zukunft hat erst gerade begonnen.

Der von OpenAI populäre ChatGPT könnte nur ein "glücklicher Zufall" sein. Innerhalb der Firma hat ein groß angelegtes Projekt, das mit Mathematik begann und den Codename "Erdbeere" trägt, bereits still und leise eine "Schlussfolgerungs"-Revolution ausgelöst. Sein ultimatives Ziel ist die Schaffung eines allgemeinen KI-Smart-Agenten, der komplexe Aufgaben autonom bearbeiten kann. "Am Ende musst du dem Computer nur sagen, was du brauchst, und er wird alle diese Aufgaben für dich erledigen", sagte CEO Altman.

Während die ganze Welt über das plötzliche Erscheinen des ChatGPT feiert, weißt du vielleicht nicht, dass dies nur eine überraschende "zufällige Entdeckung" von OpenAI war. Ein neuer ausführlicher Artikel in der Tech-Medienplattform Techcrunch enthüllt OpenAIs groß angelegtes Vision von der Mathematikwettbewerb hin zu den "allgemeinen KI-Smart-Agenten" (AI Agents). Dahinter steckt eine jahrelange überlegte Strategie und die ultimative Erforschung der "Schlussfolgerungs"-Fähigkeit von KI.

01

Der zufällige Ausgangspunkt: Mathematik

Viele denken, dass die Erfolgsgeschichte von OpenAI mit dem ChatGPT begann, aber die wirkliche revolutionäre Kraft stammt aus einem Bereich, der scheinbar weit von der breiten Anwendung entfernt ist - der Mathematik.

Im Jahr 2022, als der Forscher Hunter Lightman OpenAI betrat, waren seine Kollegen mit der Veröffentlichung des ChatGPT beschäftigt. Dieses Produkt wurde später weltweit berühmt und wurde zu einer phänomenalen Verbraucheranwendung. Gleichzeitig arbeitete Lightman jedoch in einem unbemerkt bleibenden Team namens "MathGen" und lehrte still und leise KI-Modelle, wie man Mathematikwettbewerbsaufgaben für Highschool-Schüler löst.

"Wir versuchten damals, das Modell bei der mathematischen Schlussfolgerung besser zu machen", erinnerte sich Lightman. Und diese scheinbar von der Hauptlinie abweichende Erforschung war genau der Ausgangspunkt für die Entwicklung von Schlussfolgerungsmodellen bei OpenAI.

Warum Mathematik? Weil Mathematik der Prüfstein für reine Logik und Schlussfolgerung ist. Wenn ein Modell komplexe mathematische Probleme wirklich verstehen und lösen kann, bedeutet dies, dass es anfängliche Schlussfolgerungsfähigkeiten entwickelt hat.

Im Rückblick scheint der Erfolg des ChatGPT eher wie ein "glücklicher Zufall" - intern wurde dies als bescheidene Forschungs-Vorschau bezeichnet, die jedoch versehentlich den Verbrauchermarkt entzündete.

Aber die Blicke von OpenAIs CEO Sam Altman waren schon weiter gerichtet. Auf der ersten Entwicklerkonferenz im Jahr 2023 skizzierte er klar die Zukunft:

Am Ende musst du dem Computer nur sagen, was du brauchst, und er wird alle diese Aufgaben für dich erledigen. Diese Fähigkeiten werden in der KI-Branche normalerweise als Smart-Agenten (Agents) bezeichnet. Die daraus resultierenden Vorteile werden enorm sein.

Und die damalige eher "bescheidene" Arbeit war sehr erfolgreich. Kürzlich gewann ein Modell von OpenAI eine Goldmedaille beim Internationalen Mathematikolymp (IMO), der Weltmeisterschaft für die besten Highschool-Schüler.

OpenAI ist überzeugt, dass diese in der Mathematik geschulte Schlussfolgerungsfähigkeit auf andere Bereiche übertragen werden kann und schließlich ihren langersehnte allgemeinen KI-Smart-Agenten antreiben wird.

02

Das "Erdbeere"-Projekt: Der entscheidende Durchbruch, der die Schlussfolgerungsrevolution auslöste

Frühe GPT-Modelle waren gut darin, Texte zu verarbeiten, aber vor einfacher Mathematik gerieten sie oft in Verlegenheit.

Wie ist OpenAI von der einfachen Sprachverarbeitung zur komplexen logischen Schlussfolgerung gekommen? Der Wendepunkt kam im Jahr 2023, als OpenAI durch eine innovative Methode einen Sprung in der Schlussfolgerungsfähigkeit erzielte. Dieser Durchbruch hatte zunächst den internen Codename "Q*" und wurde später auch "Strawberry" (Erdbeere) genannt.

Das Herzstück besteht in einer bisher nie dagewesenen Kombination von drei Technologien:

Große Sprachmodelle (LLM): Sie bieten eine riesige Wissensbasis und Sprachfähigkeiten.

Stärkendes Lernen (RL): In einer simulierten Umgebung wird das Modell durch ein "Belohnungs- und Bestrafungs"-System (d. h. die Rückmeldung, ob die Antwort richtig ist) trainiert, um bessere Entscheidungen zu treffen. Dies beruht auf der gleichen Technologie wie damals, als AlphaGo Lee Sedol besiegte.

Testzeitberechnung (Test-time computation): Dem Modell wird mehr Zeit und Rechenleistung gegeben, um zu "nachdenken". Bevor es die endgültige Antwort gibt, plant, verifiziert und überprüft es seine Schritte wiederholt.

Diese Kombination hat eine völlig neue Methode hervorgebracht - die "Denkkette" (Chain-of-Thought, CoT). Das Modell gibt nicht mehr direkt die Antwort, sondern zeigt wie ein Mensch einen vollständigen Lösungsansatz auf. Der Forscher El Kishky konnte seine Begeisterung nicht verbergen, als er die damalige Situation beschrieb:

Ich konnte sehen, dass das Modell begann zu schließen. Es bemerkte Fehler und ging zurück, es war frustriert. Das war wirklich wie das Lesen der Gedanken eines Menschen.

Dieser Durchbruch führte direkt zur Entstehung des o1-Schlussfolgerungsmodells im Herbst 2024. Die Entstehung des o1 hat die Welt schockiert und die 21 Kernforscher hinter ihm zu den heiß begehrtesten Talenten in Silicon Valley gemacht. Mark Zuckerberg von Meta hat ein Gehaltspaket von über einer Milliarde US-Dollar angeboten, um fünf von ihnen zu rekrutieren, um seine neue Abteilung für Superintelligenz aufzubauen.

03

Die Erforschung der Essenz von KI-"Schlussfolgerung"

Denkt KI wirklich "schlussfolgernd"? Oder ist es nur eine fortschrittlichere Nachahmung?

Angesichts dieser Frage verhielten sich die Forscher von OpenAI ziemlich pragmatisch. El Kishky erklärte aus der Perspektive der Informatik: "Wir lehren das Modell, wie es Rechenleistung effektiv nutzen kann, um eine Antwort zu erhalten. Wenn man es so definiert, dann ist es Schlussfolgerung."

Ein anderer Forscher, Lightman, konzentrierte sich mehr auf das Ergebnis: "Wenn das Modell schwierige Aufgaben bewältigen kann, dann führt es einen notwendigen, annähernd schlussfolgernden Prozess durch. Wir können es Schlussfolgerung nennen, aber das ist nur eine Bezeichnung, um ein starkes und nützliches Werkzeug zu schaffen."

Der Forscher Nathan Lambert von der gemeinnützigen Organisation AI2 benutzte eine geniale Metapher: KI-Schlussfolgerung steht zum menschlichen Denken wie ein Flugzeug zum Vogelflug. Ein Flugzeug erreicht das Fliegen nicht dadurch, dass es die Flügelbewegungen von Vögeln nachahmt, aber es erobert ebenfalls den Himmel. Die "Schlussfolgerungs"-Mechanismen von KI unterscheiden sich vom menschlichen Gehirn, aber das hindert sie nicht daran, ähnliche oder sogar stärkere Ergebnisse zu erzielen.

Diese Konzentration auf das ultimative Ziel, anstatt sich auf die Form zu konzentrieren, ist genau der Kern der OpenAI-Kultur. Laut ehemaligen Mitarbeitern ist "alle Forschung bei der Firma von unten nach oben organisiert". Solange das Team die Durchbrechung seiner Ideen nachweisen kann, wird die Firma wertvolle GPU-Ressourcen und Talentpool zugunsten dieses Projekts einsetzen. Genau diese Hingabe an die Mission der AGI (Allgemeine Künstliche Intelligenz) anstatt die Verfolgung kurzfristiger Produktgewinne lässt OpenAI es sich leisten, so enorme Investitionen in Schlussfolgerungsmodelle zu tätigen und schließlich den Vorsprung zu erlangen.

04

Die nächste Front: Von objektiver Codierung zu subjektiven Aufgaben

Heute haben KI-Smart-Agenten bereits in einigen klar definierten und verifizierbaren Bereichen wie der Unterstützung von Programmierern bei der Codierung erste Erfolge erzielt. Aber wenn man versucht, sie komplexere und subjektive Aufgaben wie "Finde mir einen langfristigen Parkplatz mit dem besten Preis-Leistungs-Verhältnis" oder "Plane mir eine perfekte Familienreise" zu übergeben, machen sie oft triviale Fehler oder benötigen zu viel Zeit.

Was ist der Kern des Engpasses dahinter? Lightman stellte es auf den Punkt: "Wie viele Probleme in der maschinellen Lerntechnik ist dies ein Datenproblem."

Wie man Modelle trainiert, um subjektive Aufgaben ohne klare Standardantworten zu bearbeiten, ist derzeit die Spitze der Forschung. Der OpenAI-Forscher Noam Brown hat angekündigt, dass sie eine neue allgemeine Stärkendes-Lernen-Technologie entwickelt haben, mit der Modelle Fähigkeiten lernen können, die schwer zu verifizieren sind. Das IMO-Goldmedaille-Modell basiert auf dieser Technologie. Das Modell kann mehrere "Smart-Agenten-Kopien" generieren, gleichzeitig verschiedene Lösungswege erkunden und schließlich die beste Lösung auswählen.

Dies deutet auf die zukünftige Entwicklung von KI hin: Von einem einzelnen Modell zur Zusammenarbeit mehrerer Smart-Agenten, von der Bearbeitung objektiver Fakten zum Verständnis subjektiver Absichten.

OpenAIs ultimatives Ziel ist die Schaffung eines Super-Smart-Agenten, der alles im Internet für dich erledigen kann und deine Vorlieben versteht. Dies unterscheidet sich völlig von der heutigen Form des ChatGPT, aber alle Forschungen von OpenAI zielen fest auf diese Richtung.

Es ist zweifellos, dass OpenAI einst der absolute Führer in der KI-Branche war, aber heute steht es vor dem Angriff von starken Konkurrenten wie Google, Anthropic, xAI und Meta. Die Frage ist nicht mehr, ob OpenAI seine "Zukunft der Smart-Agenten" erreichen kann, sondern ob es vor den Konkurrenten das Ziel erreichen kann. Dieser Wettlauf um die Zukunft hat erst gerade begonnen.

Dieser Artikel stammt aus dem WeChat-Account "Hard AI", Autor: Long Yue, veröffentlicht von 36Kr mit Genehmigung.