Anwenderhandbuch: Auswahl von KI in der Agentenzeit

Künstliche Intelligenz ist nicht mehr nur ein Chatbot.

Das Übersetzungsbüro von Shenyi ist ein Übersetzungsteam unter 36Kr. Es konzentriert sich auf Bereiche wie Technologie, Geschäft, Arbeitsplatz und Lebensstil und stellt vor allem neue Technologien, neue Ansichten und neue Trends aus dem Ausland vor.

Herausgeberhinweis: Künstliche Intelligenz (KI) hat ihren Fokus von Chatting auf die Erledigung von Aufgaben verschoben. Der Autor schlägt vor: Schauen Sie nicht nur auf das Modell, sondern wählen Sie die richtige "Architektur" und lernen Sie, intelligente Agenten zu verwalten. Dies ist das Geheimnis, um KI in Produktivität umzuwandeln. Dieser Artikel ist eine Übersetzung.

Seit der Veröffentlichung von ChatGPT habe ich acht solche Anleitungen geschrieben. Dieser Artikel markiert jedoch einen radikalen Bruch mit der Vergangenheit, denn die Bedeutung von "KI nutzen" hat sich grundlegend verändert. Vor einigen Monaten bedeutete "KI nutzen" für die meisten Menschen noch ein hin- und hergehender Dialog mit einem Chatbot. In den letzten Monaten ist es jedoch möglich geworden, KI als "Agenten" zu nutzen: Sie können ihnen Aufgaben zuweisen, und sie rufen die erforderlichen Tools automatisch auf, um die Aufgaben zu erledigen. Aufgrund dieser Veränderung müssen Sie bei der Entscheidung, welche KI zu nutzen, drei Dimensionen berücksichtigen: Modelle, Anwendungen und Antriebsarchitekturen.

Selbst bei einem identischen Modell - Claude Opus 4.6 - gibt es deutliche Unterschiede in der Leistung, wenn es in drei verschiedenen Anwendungen und Architekturen die gleiche Frage ("Vergleichen Sie ChatGPT, Claude und Gemini") beantwortet. Ohne jegliche unterstützende Architektur sind die Informationen veraltet. Auf der Website von Claude.ai kann ich aktualisierte Informationen und verifizierbare Quellen erhalten. Bei der Verwendung von Claude Cowork erhalte ich eine tiefe Analyse und eine ansprechend formatierte punktuelle Gegenüberstellung.

Modelle sind das unterliegende "KI-Gehirn". Die derzeitigen drei Marktführer sind GPT-5.2/5.3, Claude Opus 4.6 und Gemini 3 Pro (die Firmen bringen neue Modelle schneller auf den Markt als je zuvor, und die Versionsnummern können innerhalb weniger Wochen ändern). Das Modell bestimmt das Intelligenzniveau des Systems, die Inferenzfähigkeit, die Schreib- oder Programmierfähigkeit, die Tabellenanalysefähigkeit sowie die Qualität der visuellen Erkennung und Bildgenerierung. Die Leistungsevaluierung misst und die KI-Unternehmen bemühen sich, die Modelle zu verbessern. Wenn Leute sagen, "Claude schreibt besser" oder "ChatGPT ist besser in Mathematik", beziehen sie sich auf die Modelle.

Anwendungen sind die fertigen Produkte, mit denen Sie tatsächlich mit dem Modell kommunizieren und es für die Erledigung von praktischen Aufgaben nutzen. Die häufigsten Anwendungen sind die offiziellen Websites der jeweiligen Modelle: chatgpt.com, claude.ai, gemini.google.com (oder die entsprechenden Apps auf dem Mobiltelefon). Die KI-Unternehmen entwickeln inzwischen auch immer mehr andere Anwendungen, darunter Programmiertools wie OpenAI Codex oder Claude Code sowie Desktop-Tools wie Claude Cowork.

Antriebsarchitekturen (Harnesses) ermöglichen es KI-Modellen, ihre Kraft für die Erledigung von praktischen Aufgaben freizusetzen, ähnlich wie ein Gespann die ursprüngliche Kraft eines Pferdes bindet und es dazu bringt, einen Wagen zu ziehen oder das Feld zu bestellen. Diese Architektur ist ein System, das es der KI ermöglicht, Tools autonom aufzurufen, Aktionen auszuführen und mehrstufige Aufgaben zu erledigen. Anwendungen verfügen normalerweise über eine solche Architektur. Beispielsweise hat die Webversion von Claude eine solche Architektur, die es Claude 4.6 Opus ermöglicht, Webseiten zu durchsuchen und Code zu schreiben. Sie enthält auch Anweisungen zur Bearbeitung von Tabellen und Grafikdesign. Die Architektur von Claude Code ist noch umfangreicher: Sie gibt Claude 4.6 Opus einen virtuellen Computer, einen Browser und ein Code-Terminal und ermöglicht es ihm, diese Tools zu kombinieren, um die Aufgabe der Erforschung, Erstellung und Tests einer neuen Website von Grund auf zu erledigen. Manus (kürzlich von Meta erworben) ist im Wesentlichen eine unabhängige Antriebsarchitektur, die mehrere Modelle kapseln kann. OpenClaw, das kürzlich viel Beachtung erhalten hat, ist hauptsächlich eine Architektur, die es Ihnen ermöglicht, jedes KI-Modell auf Ihrem lokalen Computer aufzurufen.

Bis vor kurzem war es nicht notwendig, sich mit diesen Dingen zu befassen. Damals war das Modell das Produkt, die Anwendung die Website, und die Antriebsarchitektur war kaum vorhanden - Sie geben etwas ein, es antwortet, Sie geben wieder etwas ein. Jetzt kann sich die Leistung desselben Modells in verschiedenen Architekturen jedoch stark unterscheiden. Claude Opus 4.6, der mit Ihnen im Chatfenster spricht, ist eine völlig andere Erfahrung als Claude Opus 4.6, der innerhalb von Claude Code stundenlang autonom Software schreibt und testet. GPT-5.2, das nur Fragen beantwortet, unterscheidet sich auch stark von GPT-5.2 Thinking, das Webseiten durchsuchen und Präsentationen für Sie erstellen kann.

Dies bedeutet, dass die Frage "Welche KI soll ich nutzen?" schwieriger zu beantworten ist, denn die Antwort hängt jetzt davon ab, wofür Sie sie nutzen möchten. Lassen Sie mich Ihnen nun die aktuelle Situation aufzeigen.

Aktuelle Modellübersicht

Die umfassenden Fähigkeiten der Spitzenmodelle sind sehr ähnlich, und sie sind "klüger" und machen weniger Fehler als je zuvor. Wenn Sie jedoch fortschrittliche KI für ernsthafte Zwecke nutzen möchten, müssen Sie mindestens 20 US-Dollar pro Monat zahlen (obwohl es in einigen Regionen der Welt billigere Alternativen gibt). Mit diesen 20 US-Dollar erhalten Sie zwei Dinge: das Recht, das Modell auszuwählen, und die Möglichkeit, fortschrittlichere Modelle und Anwendungen zu nutzen. Ich würde gerne sagen, dass die kostenlosen Modelle genauso gut sind wie die bezahlten, aber das stimmt nicht. Die meisten kostenlosen Modelle sind für Chatting optimiert, nicht für Genauigkeit. Sie reagieren zwar sehr schnell und sind beim Chatting interessanter, aber in Bezug auf Genauigkeit und Fähigkeiten fallen sie deutlich hinterher. Normalerweise, wenn jemand online Beispiele für komische KI-Leistungen veröffentlicht, ist es entweder, weil er die kostenlose Version nutzt, oder weil er nicht manuell ein intelligenteres Modell ausgewählt hat.

Claude Opus 4.6 von Anthropic, Gemini 3.0 Pro von Google und ChatGPT 5.2 Thinking von OpenAI sind derzeit die drei fortschrittlichsten Modelle. Welches Unternehmen Sie auch wählen, Sie erhalten ein erstklassiges KI-Erlebnis, einschließlich Sprachmodus, Bild- und Dokumentenerkennung, Codeausführung, ausgezeichnete Mobile Apps sowie die Fähigkeit, Bilder und Videos zu generieren (Claude hat jedoch noch Defizite bei der Videogenerierung). Sie haben unterschiedliche Charaktere und Stärken, aber für die meisten Menschen reicht es, eines auszuwählen, das ihnen gefällt. Derzeit liegen andere Unternehmen in diesem Bereich sowohl bei den Modellen als auch bei den Anwendungsarchitekturen hinterher, obwohl einige Benutzer dennoch Gründe haben können, sie zu wählen.

Das ist keine Übertreibung - wenn es um einfachen Plausch geht und es auf die Richtigkeit nicht ankommt, können Sie ein kleines Modell verwenden. Andernfalls wählen Sie unbedingt ein hochwertiges Modell! Bei der Verwendung jeder KI-Anwendung (die ich später ausführlicher beschreibe), einschließlich Mobil-Apps oder Websites, ist es am wichtigsten, das richtige Modell auszuwählen. Die KI-Unternehmen machen diesen Schritt jedoch oft sehr kompliziert. Wenn Sie nur chatten möchten, ist das Standardmodell in Ordnung. Wenn Sie jedoch ernsthafte Arbeit erledigen möchten, reicht das Standardmodell nicht aus. In ChatGPT wird unabhängig davon, ob Sie die kostenlose oder die bezahlte Version nutzen, standardmäßig "ChatGPT 5.2" angeboten. Das Problem ist, dass GPT-5.2 kein einzelnes Modell ist, sondern eine Serie, die von dem sehr schwachen GPT-5.2 mini bis zum ausgezeichneten GPT-5.2 Thinking und schließlich zum äußerst leistungsstarken GPT-5.2 Pro reicht. Wenn Sie GPT-5.2 auswählen, verwenden Sie tatsächlich "Automatikmodus", und die KI entscheidet selbst, welches Modell aufgerufen wird, und normalerweise wählt sie das schwächere. Bezahlte Benutzer können das Modell selbst auswählen, und es wird noch komplizierter: Sie können auch die "Denkintensität" des Modells für die Antwort auswählen. Bei der Bearbeitung komplexer Aufgaben wähle ich immer manuell GPT-5.2 Thinking Extended (20-US-Dollar-Paket) oder GPT-5.2 Thinking Heavy (teureres Paket). Für wirklich schwierige Aufgaben, die tiefe Überlegungen erfordern, können Sie GPT-5.2 Pro wählen, das das stärkste Modell ist und nur in höheren Abonnementebenen angeboten wird.

Bei Gemini gibt es drei Optionen: Gemini 3 Flash, Gemini 3 Thinking und in einigen bezahlten Paketen 3 Pro. Wenn Sie das Ultra-Paket abonnieren, können Sie auch Gemini Deep Think verwenden, das für die Bearbeitung extrem schwieriger Fragen geeignet ist (es versteckt sich in einem anderen Menü). Bei der Bearbeitung ernster Fragen wählen Sie unbedingt Gemini 3 Pro oder Thinking. Bei Claude müssen Sie Opus 4.6 auswählen (obwohl das neue Sonnet 4.6 auch sehr stark ist, ist es dennoch etwas hinterher), und Sie müssen den "extended thinking" (tiefe Überlegung) -Schalter aktivieren.

Wiederholungshalber: Für die meisten Menschen sind die Unterschiede zwischen den Modellen so gering geworden, dass die Anwendungen und Antriebsarchitekturen wichtiger sind als die Modelle selbst. Dies führt zu einem größeren Thema.

Chatbot-Schnittstelle

Die meisten Menschen greifen über Chatbots (d. h. die Hauptseiten oder Mobile Apps von ChatGPT, Claude und Gemini) auf KI-Modelle zu. Tatsächlich kann man Chatbots als die wichtigste und am weitesten verbreitete KI-Anwendung betrachten. In den letzten Monaten haben sich jedoch große Unterschiede zwischen diesen Anwendungen ergeben.

Einige Unterschiede zeigen sich in den Funktionen, die mit der KI verknüpft sind:

Der Gemini-Chatbot (zugänglich über die kleine Plus-Schaltfläche) ist mit folgenden Funktionen verknüpft: nano banana (der derzeit stärkste KI-Bildgenerierungs-Tool), Veo 3.1 (ein führender KI-Videoerstellungstool), Guided Learning (geleitetes Lernen, das die KI wie ein Tutor agieren lässt) und Deep Research (tiefe Suche).
Die Funktionen, die mit ChatGPT verknüpft sind, sind eher ein Mix. Auch hier ist der Zugang über die Plus-Schaltfläche möglich. Sie können Bilder generieren (der Generator ist fast so gut wie nano banana, aber Sie können über den Chatbot nicht auf den Sora-Video-Generator zugreifen), lernen und forschen (entspricht dem Guided Learning von Gemini, aber aus irgendeinem Grund gibt es auch einen separaten Test-Generator), Deep Research und Shopping Research (erstaunlich gut, aber oft übersehen) sowie eine Reihe anderer Funktionen, die normale Menschen weniger häufig nutzen, und ich werde hier nicht weiter darauf eingehen.
Claude hat derzeit nur die Deep Research-Funktion, aber Sie können durch die Erstellung eines "Projekts" und die Auswahl eines Lernprojekts in den Lernmodus wechseln.
Alle KI-Modelle ermöglichen es Ihnen, Daten zu verbinden, z. B. die KI kann Ihre E-Mails und Kalender lesen, auf Ihre Dateien zugreifen oder andere Anwendungen verbinden. Dies kann die Nützlichkeit der KI erheblich erhöhen, aber auch hier unterscheiden sich die unterstützten Verbinder bei den verschiedenen KI-Tools.

Diese Funktionen sind wirklich überwältigend! Für die meisten Menschen, die praktische Arbeit verrichten, sind die wichtigsten zusätzlichen Funktionen die tiefe Suche (Deep Research) und die Verbindung der KI mit Ihrem persönlichen Inhalt. Sie möchten aber vielleicht auch die anderen Funktionen ausprobieren. Die zunehmende Wichtigkeit liegt jedoch in der "Architektur" - d. h. den Tools, die die KI aufrufen kann. In diesem Bereich liegen OpenAI und Anthropic deutlich vor Google. Claude.ai und ChatGPT verfügen beide über die Fähigkeit, Code zu schreiben und auszuführen, Dateien zu liefern und tiefe Recherchen durchzuführen. Im Vergleich dazu ist die Webseite von Google Gemini deutlich schwächer (obwohl das Modell selbst ebenfalls ausgezeichnet ist).

Wie Sie sehen können, können ChatGPT und Claude bei ähnlichen Fragen brauchbare Tabellen und Präsentationen erstellen und liefern klare Referenzen, die zurückverfolgt werden können. Gemini kann jedoch keine dieser beiden Dokumentarten generieren und bietet auch keine Referenzen oder Rechercheunterstützung. Ich erwarte jedoch, dass Google bald aufholen wird.

Ein letzter Punkt zum Chatbot: GPT-5.2 Pro in Kombination mit seiner eigenen Architektur ist ein sehr intelligentes Modell. Es hat kürzlich geholfen, eine neue Entdeckung in der Physik zu machen, und ich halte es für das stärkste Modell bei der Bearbeitung komplexer statistischer und analytischer Aufgaben. Dieses Modell wird nur in teureren Paketen angeboten. Google's Gemini 3 Deep Think scheint auch sehr leistungsfähig zu sein, aber es ist ebenfalls an Architekturprobleme gebunden.

Hinweis: "Sie sind ein Wirtschaftssoziologe. Ich möchte, dass Sie anhand dieser Daten einige neue, testbare Hypothesen entwickeln, komplexe Experimente durchführen und mir die Forschungsergebnisse mitteilen." Dann habe ich ihm einen großen Excel-Datensatz gegeben.

Andere Anwendungen und Architekturen

Die Chatbot-Webseiten sind der Ort, an dem die meisten Menschen mit KI interagieren, aber es ist nicht mehr der Ort, an dem die beeindruckendsten Arbeiten erledigt werden. Immer mehr andere Anwendungen kapseln die gleichen Modelle in stärkeren Antriebsarchitekturen, und diese Anwendungen sind von großer Bedeutung.

Claude Code, OpenAI Codex und Google Antigravity sind die am besten entwickelten Anwendungen, die sich an Entwickler

本文来自翻译, 如若转载请注明出处。

Anwenderhandbuch für die Auswahl von KI in der Agentenzeit

Aktuelle Modellübersicht

Chatbot-Schnittstelle

Andere Anwendungen und Architekturen