Azubis arbeiten, Direktor gibt Anweisungen: KI kann "bedarfsweise intelligent" sein

Für KI-Unternehmen bedeutet dies eine neue Wettbewerbsdimension. Es geht nicht mehr nur darum, in einer einzigen Dimension um Parameter und Preise zu konkurrieren, sondern um intelligentes Preis-Leistungs-Verhältnis.

Ich möchte, dass Anthropic aufhören würde, zu konkurrieren, denn sie haben wieder neue Funktionen herausgebracht:

Die Advisor-Strategie wurde in das API-Toolset von Claude integriert. Wenn Sonnet oder Haiku während des Laufs auf Schwierigkeiten stoßen, wird Opus um Lösungen gefragt, und dann wird der Lauf fortgesetzt. Alle Aktionen werden in einer einzigen API-Anfrage durchgeführt.

Ehrlich gesagt ist diese Vorgehensweise in der Entwickler-Community nicht neu. Viele (arme) Entwickler machen es so in ihrem Arbeitsablauf: Sie verwenden ein billiges Modell für einfache Aufgaben und rufen nur bei Bedarf anspruchsvollere Modelle auf, wobei sie die Modelle manuell umschalten müssen. Jetzt hat Anthropic diesen "Armen-Workflow" produktivisiert und ihn zu einer offiziellen Funktion gemacht, die mit einer einzigen Codezeile aktiviert werden kann.

Der "Azubi" arbeitet, der "Chef" gibt Tipps

In der üblichen Architektur von AI-Agenten wird normalerweise das stärkste Modell als Leiter eingesetzt, das die Aufgaben in kleine Teile zerlegt und an billigere Modelle zur Ausführung verteilt. Das starke Modell leitet von oben, die schwächeren Modelle arbeiten unten. Es ist eine hierarchische Struktur.

Anthropics Advisor funktioniert genau umgekehrt. Das schwächere Modell ist der Hauptarbeiter, das stärkere Modell ist der Berater.

Genauer gesagt: Sonnet (oder das noch billigere Haiku) arbeitet als "Durchführer" den gesamten Task ab - es ruft Tools auf, liest die Ergebnisse und bearbeitet iterativ. Wenn es an einer Entscheidungspunkte ankommt, bei dem es unsicher ist - etwa an der Abzweigung in der Code-Architektur, ob man Plan A oder Plan B wählen soll - wird es nicht einfach raten, sondern eine "Handschuhe heben" - Tool-Aufruf initiieren, um den aktuellen Kontext und die konkrete Frage an Opus zu senden.

Opus, als "Berater", wird nach dem Lesen nicht direkt an der Ausführung teilnehmen, weder Code schreiben noch die Logik ändern, sondern nur einen kurzen Rat zurückgeben (normalerweise 400 - 700 Token): "Wähle Plan A, weil XYZ. Achte auf Teil Z." Sonnet nimmt den Rat an und setzt die Ausführung fort. Der gesamte Prozess ist für den Benutzer unsichtbar.

Um es einfacher zu verstehen: Es ist wie ein Azubi, der bei einer Aufgabe nicht weiter weiß und den Chef um Rat fragt. Der Chef gibt ihm eine Richtung, und der Azubi setzt seine Arbeit fort. Der Chef wird nach seinem Gehalt bezahlt (Opus-Preis), aber er hat nur ein paar Worte gesagt, also kostet es nicht viel. Der Azubi arbeitet den gesamten Task ab (Sonnet/Haiku-Preis), aber der Preis pro Einheit ist niedrig, also ist die Gesamtkosten gering.

Die eigenen Testdaten von Anthropic zeigen:

- Sonnet + Opus Advisor hat auf SWE-bench Multilingual 2,7 Prozentpunkte mehr als Sonnet allein, und die Kosten werden um 11,9 % gesenkt. - Haiku + Opus Advisor hat auf BrowseComp einen Score von 41,2 %, was mehr als doppelt so viel wie Haiku allein (19,7 %) ist, aber die Kosten betragen nur 15 % von Sonnet. - Der CEO von Bolt kommentiert: "Bei komplexen Aufgaben ist die Architekturentscheidung deutlich besser, bei einfachen Aufgaben gibt es keine zusätzlichen Kosten." - Ein Machine-Learning-Engineer von Eve Legal sagt: "Bei der Aufgabe der strukturierten Dokumentextraktion hat Haiku durch den Advisor die Intelligenz dynamisch verbessert und die Qualität eines führenden Modells erreicht, während die Kosten um das Fünffache gesenkt wurden."

Selbst ein Azubi darf nicht dumm sein

Dieses Modell hat eine leicht zu übersehende Voraussetzung: Der Azubi muss intelligent genug sein, um genau zu beurteilen, wann er nicht mehr kann.

Dies ist im Wesentlichen die "Stütze" des Advisors und die Voraussetzung für die Funktionsfähigkeit der gesamten Funktion. Ein wirklich schlechtes Modell weiß gar nicht, was es nicht weiß, und wählt möglicherweise überzeugt die falsche Lösung, "Unwissenheit macht mutig". In diesem Fall wird der Advisor nicht aufgerufen, was noch gefährlicher ist als die Verwendung des schlechten Modells für den gesamten Task: Da die Kommunikation nur zwischen den Modellen stattfindet und nicht an den Benutzer weitergeleitet wird, denkt man, dass Opus die Kontrolle hat und man sich keine Sorgen machen muss, aber in Wirklichkeit wird es nie aufgerufen.

Deshalb unterstützt die Advisor-Tool von Anthropic derzeit nur Sonnet und Haiku als Durchführer, nicht beliebige Modelle. Diese beiden Modelle wurden innerhalb der Claude-Familie ausgiebig trainiert und wissen, wann sie um Rat fragen und wann sie es selbst schaffen können.

Die Vorteile dieser Strategie sind offensichtlich: Die Schwelle für die Benutzer wird gesenkt, und man muss keine Ingenieurkenntnisse haben, um die besten Praktiken anwenden zu können. Aber es gibt auch einen subtilen Nebeneffekt: Es wird gespart, aber nicht vollständig.

Wenn Entwickler ihre eigenen Model-Routen aufbauen, können sie Modelle von beliebigen Firmen frei kombinieren: Sie können DeepSeek für die Filterung, GPT - 5 für die Inferenz und Gemini für die Zusammenfassung verwenden, je nachdem, welches am billigsten ist. Dies ist eine offene, vollkommen eigenständige und plattformübergreifende Kostensenkungsstrategie.

Aber das Advisor-Tool unterstützt nur Modelle innerhalb der Claude-Familie. Der Durchführer muss "echtes Blut" von Sonnet oder Haiku sein, und der Berater muss Opus sein. Man kann nicht GPT als Berater oder Gemini als Durchführer verwenden.

Theoretisch kann jedes Modell über einen Tool-Aufruf ein anderes Modell aufrufen. Anthropics Vorgehensweise ist reine Produktstrategie.

Da es sich um keine originelle Idee handelt, kann ich ja einfach eine ähnliche Lösung programmieren und verschiedene Modelle kombinieren. Ist das möglich? Das Advisor-Tool ist ein Szenario mit gegenseitiger Interaktion zwischen Modellen. Angenommen, man möchte DeepSeek als Hauptmodell verwenden und bei Schwierigkeiten den Kontext an Claude senden, um um Rat zu fragen. Nachdem Claude die Antwort zurückgibt, setzt DeepSeek die Ausführung fort. Es können folgende Probleme auftreten:

- Ausgabeformat: Die strukturierte Art und Weise, wie Claude die Empfehlung zurückgibt (z. B. indem es die Planungsschritte in XML-Tags einschließt), kann DeepSeek möglicherweise nicht genau interpretieren und befolgen. Bei den Modelle der gleichen Familie sind diese Formate aufeinander abgestimmt.

- "Sprachliche" Unterschiede: Jedes Modell hat seine eigene bevorzugte Art des Denkens und Ausdrucks. Die Empfehlung, die Opus an Sonnet gibt, verwendet Wörter und logische Strukturen, die Sonnet am besten verstehen und ausführen kann. Die Empfehlung, die Claude an DeepSeek gibt, kann DeepSeek zwar verstehen, aber die Genauigkeit der Ausführung wird beeinträchtigt - ähnlich wie wenn ein Muttersprachler Englisch einem Menschen mit gutem, aber nicht-muttersprachlichem Englisch Anweisungen gibt. In den meisten Fällen ist es okay, aber es kann in subtilen Punkten zu Verständnisfehlern kommen.

- Tool-Use-Format ist nicht kompatibel: Die function calling - Formate verschiedener Anbieter haben leichte Unterschiede. Das Tool-Use von Claude und das von DeepSeek stimmen in Bezug auf das JSON-Schema und die Parameterübergabe nicht vollständig überein. Wenn man Agentenketten zwischen verschiedenen Anbietern aufbaut, wird es so, und die Formatkonvertierung in der Mitte ist ein Problem.

Es ist natürlich am besten, die offizielle native Lösung zu verwenden. Aber wenn man den Advisor in seinen Arbeitsablauf integriert, ist man gleichzeitig in die Claude-Ekologie eingeschlossen. Dies ist eine raffinierte Geschäftsidee. Anthropic hindert einen nicht daran, Kosten zu sparen, sondern hilft sogar dabei, aber es nutzt die "Kostensenkung" selbst, um die Bindung an die Plattform zu stärken.

Ist es dann wirklich kostengünstig? Schließlich kostet DeepSeek zumindest noch in Yuan, während Claude in US-Dollar brennt.

Die Community hat es zuerst gemacht, Anthropic hat nur einen Knopf hinzugefügt

Der Gedanke hinter Advisor ist nicht neu. Es scheint eher, dass Anthropic eine bereits existierende Praxis zu einem offiziellen Produkt gemacht hat.

Die am häufigsten verwendete Kostensenkungstechnik in der Entwickler-Community ist die "Model-Routing": Man verwendet billige Modelle für einfache Aufgaben (Klassifizierung, Zusammenfassung, Formatierung) und ruft nur bei Bedarf anspruchsvollere Modelle auf. Es gibt viele Open-Source-Projekte, die dieses Modell umsetzen.

Viele der Funktionen, die wir heute häufig verwenden, wurden einst von der Entwickler-Community manuell zusammengestellt: Der "Projektraum" (Project), der heute fast ein Standard bei allen AI-Systemen ist, wurde einst von Entwicklern auf API-Ebene manuell aus system prompts und Dokumentkontexten zusammengesetzt, wobei alles auf ein Projekt bezogen war. Die Vorform von Artifacts war auch, dass Entwickler mit Claude/GPT/Gemini HTML/React-Komponenten generierten und sie dann manuell in den Vorschau-Viewer kopierten. Heute kann diese Funktion auch in den Terminals der verschiedenen Anbieter implementiert werden.

Neuere Beispiele sind die Einführung von Dispatch (Fernsteuerung des Desktops über das Mobiltelefon) und Channels (IM-Integration) von Anthropic. Dies ist die eigene OpenClaw von Claude, und dann hat sie OpenClaw verboten.

Von der Produktstrategie her zeigt die neu veröffentlichte Advisor-Strategie, dass im Falle von knappen Rechenkapazitäten die Kosteneffizienz nicht nur das Ziel der Benutzer ist, sondern auch ein Problem für die Unternehmen. Es ist ein größerer Trend in der AI-Preisgestaltung.

Die übliche AI-Preisgestaltung ist einfach: Man wählt ein Modell und bezahlt pro Token. Wenn man die beste Qualität möchte, wählt man Opus, wenn man billig sein möchte, wählt man Haiku. Die Preise sind fest. Im Wesentlichen verkauft man "Rechenkapazitätszeit", d. h. man kauft die Verarbeitungsfähigkeit für eine bestimmte Anzahl von Tokens.

Das Advisor-Modell ist flexibler. Man wählt nicht mehr ein festes Intelligenzniveau, sondern lässt das System die Intelligenz dynamisch nach der Komplexität der Aufgabe zuweisen. Die Anbieter können auch flexibler die Rechenkapazitäten verteilen.

Für die Endbenutzer ist dies ein Vorteil. Man muss nicht für eine Aufgabe, die nur 2 Punkte wert ist, den vollen Opus-Preis für eine Aufgabe mit tiefer Inferenz bezahlen. Aber für die AI-Unternehmen bedeutet dies auch eine neue Wettbewerbsdimension. Es geht nicht mehr nur darum, die Parameter und Preise zu optimieren, sondern um die Intelligenzkosteneffizienz.

Dieser Artikel stammt aus dem WeChat-Account "APPSO". Autor: Selina, Redakteur: Li Chaofan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Azubis arbeiten, der Direktor gibt Anweisungen, und KI kann "bedarfsweise intelligent" sein.

Der "Azubi" arbeitet, der "Chef" gibt Tipps

Selbst ein Azubi darf nicht dumm sein

Die Community hat es zuerst gemacht, Anthropic hat nur einen Knopf hinzugefügt