StartseiteArtikel

Eine Dissertation, um die Vergangenheit und Gegenwart des Kontext-Engineering zu verstehen

36氪的朋友们2025-11-07 15:06
Kontext-Engineering, der Maurer der KI-Zeit

Im Juni 2025 haben Shopify-CEO Tobi Lütke und der AI-Experte Andrej Karpathy auf X ein neues Konzept vorgestellt – Kontext-Engineering. Karpathy definiert es als "eine feine Kunst und Wissenschaft, die darauf abzielt, die richtigen Informationen einzufügen, um sich auf die nächste Schlussfolgerung vorzubereiten."

Allerdings, worin unterscheidet sich dieses neue Konzept vom Prompt-Engineering? Warum steht es in Verbindung mit Technologien wie RAG und MCP? Die bisherigen Antworten gingen meist von einem technischen Blickwinkel aus und versuchten, zu analysieren, was der Kontext umfasst und wie er am besten genutzt werden kann.

Am 30. Oktober haben die Shanghai Jiao Tong Universität und das GAIR-Labor das Papier "Kontext-Engineering 2.0: Der Kontext des Kontext-Engineerings" veröffentlicht, das dieses aufstrebende Fachgebiet aus einer umfassenderen Perspektive definiert. Es betrachtet die Mensch-Maschine-Interaktion nicht mehr als eine Kunstgriff, sondern geht zurück zur grundlegenden Logik der Kommunikationsdynamik.

Dieser Artikel beantwortet auf der Grundlage dieses Papiers systematisch drei Kernfragen: Was genau ist das Kontext-Engineering? Welche Bausteine hat es? Wie wird es in Zukunft entwickelt?

01 Was ist das Kontext-Engineering? Eine alte Disziplin zur Entropie-Reduktion

Um das Kontext-Engineering zu verstehen, muss man zuerst die Frage beantworten: Warum ist die Kommunikation zwischen Menschen und Maschinen so schwierig?

Das Papier meint, dass zwischen Menschen und Maschinen eine kognitive Kluft besteht.

Die menschliche Kommunikation ist hochentropisch. Die menschliche Ausdrucksweise ist ungeordnet, chaotisch und voller impliziter Informationen. Wenn ich einem Kollegen sage: "Bitte erledige mir diesen Bericht", muss er wissen, um welchen Bericht es sich handelt, anhand meines Tonfalls die Dringlichkeit einschätzen und die soziale Botschaft hinter "bitte" verstehen. All dies sind eine Menge unklare, unstrukturierte Kontextinformationen.

Maschinen hingegen sind niedrigentropische Wesen. Sie können nicht genug Kontextinformationen verarbeiten und verstehen nur klare und eindeutige Anweisungen.

Um diese Kluft zu überbrücken, müssen Menschen ihre "hochentropischen" Absichten in "niedrigentropische" Anweisungen umwandeln, die Maschinen verstehen können. Das Mittel dazu ist die Schaffung eines reichhaltigeren und effektiveren Kontexts. Wie Marx sagte, besteht das Wesen des Menschen in der Summe seiner sozialen Beziehungen. Um die AI besser verstehen zu lassen, müssen wir ihr helfen, alle Situationen zu verstehen, in denen sich Menschen befinden.

Das ist das Wesen des Kontext-Engineerings: ein systematisches Entropie-Reduktionsverfahren durch einen besseren Kontext.

Im Rahmen dieses Systems sind die wichtigsten Elemente die Entitäten, d. h. Menschen, Anwendungen und Umgebungen. Der Kontext besteht aus allen Informationen, die den Zustand der Entitäten beschreiben.

Das Kontext-Engineering ist der Versuch, die Sammlung, Verwaltung und Nutzung des Kontexts zu gestalten und zu optimieren, um das Verständnis der Maschine und die Leistung bei Aufgaben zu verbessern.

In diesem Sinne ist das Kontext-Engineering überhaupt kein neues Konzept. Es hat sich bereits über 20 Jahre vor der AI entwickelt, und jetzt befinden wir uns in der Zeit des Kontext-Engineerings 2.0.

Zeit der Version 1.0 (1990er - 2020): Der Kontext ist die Übersetzung

Seit der Entstehung der Computer haben wir die Logik des Verständnisses zwischen Menschen und Maschinen erforscht. Die Benutzeroberfläche des Betriebssystems ist die älteste und erfolgreichste Praxis des Kontext-Engineerings.

In jener Zeit lag der Schwerpunkt des Kontext-Engineerings auf der Übersetzung, d. h. die Umwandlung der natürlichen menschlichen Sprache in eine maschinenverständliche Sprache. Ingenieure haben durch die Gestaltung von grafischen Benutzeroberflächen (GUI) die hochentropischen Absichten in einen niedrigentropischen Interaktionsablauf "eingebaut", indem sie die Mausbedienung und strukturierte Oberflächen nutzten. Das gilt auch für Programmiersprachen, die die natürliche Sprache in formale Anweisungen umwandeln.

Dieser Prozess widerspricht jedoch der natürlichen Ausdrucksweise der Menschen. Wenn man z. B. Programmieren lernt, muss man nicht nur die Sprache, sondern auch eine formale Denkweise lernen.

Zeit der Version 2.0 (2020 - heute): Der Kontext ist die Anweisung

Im Jahr 2020, mit der Veröffentlichung von GPT-3, sind wir in eine neue Ära eingetreten. Benutzer können direkt in natürlicher Sprache mit Maschinen kommunizieren.

Die Zwischenschicht der Übersetzung ist weg, und auch die Entropie-Reduktionsarbeit von Designern und Programmierern entfällt.

Allerdings haben normale Benutzer festgestellt, dass die AI trotzdem die Informationen hinter den Worten nicht verstehen kann, obwohl keine Übersetzung erforderlich ist.

Die Notwendigkeit der Entropie-Reduktion ist nicht verschwunden, sondern auf die Benutzer verlagert worden. Sie müssen lernen, ihre Absichten präzise auszudrücken, effektive Prompts zu erstellen und die Ausgabe zu optimieren.

Das ist der Grund für den Ausbruch des Prompt-Engineerings. Menschen versuchen, eine strukturierte natürliche Sprache neu zu erfinden, um die Kommunikationsbarrieren zu verringern.

Aber neben der Normierung unserer eigenen Ausdrucksweise können wir auch am Modell selbst arbeiten und es mit besseren Hilfsmitteln und Systemen versehen, damit es unsere Absichten besser verstehen kann.

Das ist der Hintergrund für die Entstehung des Kontext-Engineerings.

02 Warum besteht immer noch ein Verständnisabstand zwischen AI und Menschen?

Da das Kontext-Engineering das Ziel hat, die Kluft in der Kommunikation zwischen Menschen und AI zu schließen, was sind die Hauptgründe, warum es nicht in der Lage ist, wie Menschen in einer hochentropischen Weise zu kommunizieren?

Das Papier hat durch den Vergleich mit der menschlichen Kommunikation acht Schwächen der AI zusammengefasst, die wir in vier Kategorien einteilen können. Aufgrund dieser Schwächen kann die AI unsere hochentropische Kommunikation nicht verstehen, was zu einer Kluft führt.

Erstens ist die Wahrnehmung der AI unvollständig. Bei der menschlichen Kommunikation werden eine Menge Informationen außerhalb der Wörter aufgenommen, während die AI nur die expliziten Eingaben der Benutzer erhält. Sie kann die Umgebung, in der wir uns befinden, nicht sehen, was eine inhärente Schwäche in der Sammlung von Kontextinformationen darstellt.

Zweitens ist die Verständnisfähigkeit der AI begrenzt. Im Vergleich zu Menschen ist die Fähigkeit der AI, Kontextinformationen zu verstehen und zu integrieren, sehr begrenzt. Selbst wenn ihre Wahrnehmung nicht unvollständig wäre und alle Informationen an die AI gegeben würden, würde sie möglicherweise die Beziehungen zwischen diesen Informationen nicht verstehen. Die gegenwärtigen Modelle haben Schwierigkeiten, komplexe Logik und Beziehungsinformationen in Bildern zu verarbeiten.

Drittens ist das Fehlen von Gedächtnis am schlimmsten. Die Transformer-Architektur hat eine Leistungsschwäche bei der Verarbeitung von langen Kontexten, was dazu führt, dass das Modell weder ein langfristiges Gedächtnissystem hat noch in der Lage ist, lange Distanzabhängigkeiten zu erfassen. Die AI kann die vergangenen Gespräche nicht behalten und kann daher nicht wie Menschen einen Hintergrundkonsens aufbauen. Genau diese "uns allen bekannten Vergangenheiten" machen die menschliche Kommunikation so einfach. Die gegenwärtigen Methoden zur Speicherung von Gedächtnis, wie RAG, sind immer noch ineffizient.

Viertens ist die Aufmerksamkeit der AI im Vergleich zu Menschen zerstreut. Das Papier nennt dies "Kontextauswahlprobleme". Selbst wenn wir das vorherige Problem lösen und der AI ein langfristiges Gedächtnis hinzufügen, z. B. durch RAG, theoretisch kann es alle Inhalte speichern. Aber angesichts der riesigen Menge an Informationen weiß die AI nicht, worauf sie sich konzentrieren soll.

Früher hat das Prompt-Engineering die fehlende Gedächtnisfunktion durch die Hinzufügung von "Zusammenfassungen" repariert und die Belastung bei der Verständnisbildung und der Aufmerksamkeit durch die manuelle Raffinierung von Informationen und die Normierung der Ausdrucksweise verringert. Es war die umfassende "Wartung" für die Schwächen des Modells in der vergangenen Zeit.

Dieser Prozess ist jedoch sehr aufwändig.

Ein gutes Kontext-Engineering sollte daher möglichst viele Hilfsmittel schaffen, damit das Modell diese nutzen kann, um die gegenwärtigen Fähigkeitsmängel zu beheben. Die AI kann so tatsächlich zu einer digitalen Präsenz des Menschen werden, und die Gespräche, Entscheidungen und Interaktionspfade des Menschen können kontinuierlich weiterentwickelt werden.

Dieser Prozess ist jedoch sehr arbeitsintensiv. Ein gutes Kontext-Engineering sollte Hilfsmittel schaffen, damit das Modell mit Hilfe des Systems die gegenwärtigen Fähigkeitsmängel beheben kann.

03 Das Kontext-Engineering – der Maurer der AI-Ära

Um die gegenwärtigen Probleme des Modells zu lösen, hat das Papier ein umfassendes Kontext-Engineering-System vorgeschlagen, das aus drei Phasen besteht: Sammlung, Verwaltung und Nutzung. Diese Technologiekarte beschreibt detailliert das riesige Hilfssystem, das wir aufbauen müssen, um die Schwächen der Large Language Models (LLM) zu kompensieren.

Baustein 1: Kontextsammlung und Gedächtnissystem

Dieser Baustein behebt hauptsächlich die "unvollständige Wahrnehmung" und das "fehlende Gedächtnis" der AI.

Bei der Kontextsammlung müssen wir über die einfache Texteingabe hinausgehen und uns auf die multimodale und verteilte Sammlung konzentrieren.

Die multimodale Fusion bedeutet, dass Texte, Bilder und Audiodaten über ihre jeweiligen Encoder in einen gemeinsamen Vektorraum abgebildet werden, damit das Modell die Bedeutung der multimodalen Informationen wirklich verstehen kann.

Die verteilte Sammlung hingegen erfasst über Smartphones, tragbare Geräte, IoT-Sensoren und sogar Brain-Computer-Interfaces aktiv die Umgebungsinformationen und hochentropischen Informationen, die die Benutzer nicht klar in Worten ausdrücken können.

Das Speichersystem ist die Grundlage für das Gedächtnis. Um das fehlende Gedächtnis aufgrund der Transformer-Architektur zu beheben, müssen wir eine hierarchische Speicherarchitektur aufbauen, damit das Modell eine menschenähnliche Gedächtnisstruktur entwickelt.

Es ähnelt der Speicherverwaltung eines Betriebssystems: Das Kurzzeitgedächtnis ist der Arbeitsspeicher der AI, d. h. ein begrenzter Kontextfenster; das Langzeitgedächtnis ist die Festplatte der AI, die für die dauerhafte Speicherung von hochwichtigen Kontextinformationen in einer externen Datenbank verwendet wird.

Zwischen den beiden Ebenen muss ein Gedächtnisübertragungsmechanismus ähnlich dem Schlaf aufgebaut werden. Das System verarbeitet die vergangenen Inhalte und speichert die wichtigen Kurzzeitgedächtnisinformationen als Langzeitgedächtnis ab.

Baustein 2: Kontextverwaltung

Dieser Baustein löst hauptsächlich das Problem der begrenzten Verständnisfähigkeit der AI und ihrer Schwierigkeiten bei der Verarbeitung von komplexer Logik und Beziehungsinformationen.

Der Kern ist die Kontextabstraktion, die das Papier "Self-Baking" nennt. Da die AI die ursprünglichen, hochentropischen Kontextinformationen nicht verstehen kann, fungiert dieses Hilfssystem als Vorverarbeitungseinheit und verarbeitet die Kontextinformationen in eine niedrigentropische Struktur, die die AI verstehen kann.