OpenAI und Anthropic: Ihre Lehren könnten fehlerhaft sein

Im vergangenen Jahr ist das Multi-Agenten-System zu einer der heißesten Trends in der Welt der Künstlichen Intelligenz geworden. Das Problem ist, dass die beliebtesten Dinge möglicherweise falsch sind.

In den letzten 12 Monaten ist das "Multi-Agent-System (MAS)" zu einer der heißesten Themengebiete in der Welt der Künstlichen Intelligenz geworden.

Eine Vielzahl von Frameworks und Produkten sind auf einmal aufgetaucht, wobei die bekanntesten sicherlich Claude Code und Codex sind. Ja, man kann damit Geld verdienen, aber der Weg ist möglicherweise nicht der richtige!

Im frühen Internet waren Portale die Hauptsache, aber das ist nicht mehr der Fall!

Wir sollten zumindest wissen, dass es noch einen anderen, parallelen Weg gibt.

Heute wollen wir darüber sprechen, welche anderen Wege es neben der Frage "Wie können mehrere KI-Agenten zusammenarbeiten, um komplexe Aufgaben zu bewältigen" gibt.

Lassen Sie uns zunächst einen Überblick über den Weg geben, der den meisten Menschen vertraut und beliebt ist.

Wir können in der Live-Übertragung ein wenig über dieses Thema sprechen, aber ich möchte nicht vollständig darauf eingehen. Es sind sowieso nicht viele Zuschauer da, und ich befürchte, dass ich alle vertreibe...

Erster Weg: Harness-ähnliches MAS

Dies ist die derzeit vorherrschende Richtung des MAS. Seine Essenz besteht darin, dass "mehrere KI-Rollen zusammenarbeiten, um Aufgaben zu bewältigen". Beispielsweise:

Ein Agent schreibt Code.
Ein Agent führt Tests durch.
Ein Agent plant die Arbeit.
Ein Agent führt Suchvorgänge durch.
Ein Agent überprüft die Arbeit.

Sie arbeiten zusammen und bilden einen automatisierten Arbeitsablauf. Die Kernmerkmale dieser Systeme sind:

Teilen des Kontexts
Teilen des Ziels
Zentralisierte Planung
Temporäre Rollen
Keine dauerhafte Identität
Keine kontinuierlichen Interessen
Keine echte Eigentumsrechte

Im Wesentlichen ist es eher wie ein Workflow-Engine. Die Hinzufügung von Ontologien macht den Arbeitsablauf nur flexibler und komplexer, ändert aber nicht die Essenz.

Es ist keine "Gesellschaft", daher ist das meiste von heutigen MAS im Wesentlichen eine "LLM Orchestration", d. h. ein großes Modell, das mehrere Unterrollen koordiniert, um komplexe Schlussfolgerungen zu ziehen.

Die Agenten hier sind eher wie:

Funktionen, die aufgerufen werden können
Werkzeuge mit Perspektive
Aufgabenpunkte

Ihre Existenz dient dazu, die Effizienz bei der Bewältigung einzelner Aufgaben zu verbessern. Daher sind die Schlüsselwörter für Harness MAS (jedes von ihnen war einmal populär und könnte wieder in Mode kommen):

Prompt Engineering
Context Management
Task Routing
Tool Calling
Planning
Memory
Workflow

Ich denke, dass es im Wesentlichen ein Problem der Softwareentwicklung ist. Deshalb haben die alten Programmierer, die gut im Programmieren sind, wieder eine Chance. Ohne gute Programmierkenntnisse und ausreichende Abstraktionsfähigkeiten ist es schwierig, diese Dinge zu kontrollieren.

Wenn man es nicht schafft, wird die KI wie der Große Sage Sun Wukong aus der chinesischen Mythologie plötzlich auftauchen und einen mit einem Stab schlagen.

Die Verwendung des Wortes "Harness" ist falsch

Der Frühling der alten Programmierer

Zweiter Weg: Protokoll-native Agentensysteme

Es gibt aber noch einen anderen Weg, der fast nie erwähnt wird. Ich habe in meinem kommenden Buch ein wenig darüber geschrieben. Dieser Ansatz setzt jedoch eine Personalagenten oder Personalunternehmen voraus. Ohne ein tiefes Verständnis von Personalunternehmen ist es schwer, ihn zu verstehen.

Der Kern dieses Weges liegt nicht darin, dass mehrere Agenten Aufgaben bewältigen, sondern dass "jeder seine eigene Personalagent" oder "jeder sein eigenes Personalunternehmen" hat.

Dies ist eine enorme Veränderung. Denn wenn ein Agent tatsächlich "personenbezogen" ist, ändert sich seine Natur grundlegend.

Er ist nicht mehr "task-scoped" (Aufgabeninstanz), sondern wird "identity-scoped" (Identitätsentität). Das sind zwei Begriffe, die ich mir mit Hilfe des Modells ausgedacht habe, aber ich weiß nicht, wie man sie auf Englisch sagt.

Der Kernpunkt hier ist die Entscheidungsherrschaft. Der größte Unterschied zwischen Personalagenten und Personalunternehmen und anderen Systemen besteht darin, dass sie eine gewisse Herrschaft haben müssen, sonst stimmt das, was ich später sage, nicht. Der Unterschied zwischen Personalunternehmen und Personalagentensystemen liegt auch in der Herrschaft über die Cashflows.

Dies bedeutet, dass zukünftige Personalagenten oder Personalunternehmen die folgenden Merkmale haben müssen:

Langfristiges Gedächtnis
Beständige Identität
Präferenzen
Ressourcen
Berechtigungen
Historie
Beziehungsnetzwerk
Interessensgrenzen
Repräsentativität (repräsentiert "Sie")

Es ist nicht mehr ein einmaliges KI-Werkzeug, sondern eine dauerhaft existierende Agentenperspektive mit gewisser Herrschaft.

Das doppelt-native Konzept, der Schlüssel zur richtigen Verwendung von KI

Von "Softwaremodulen" zu einer "digitalen Gesellschaft"

Sobald man in die Welt von Personalagenten und echten Personalunternehmen eintritt, ändert sich die gesamte Systemphilosophie grundlegend. Denn die Agenten sind nicht mehr:

Teil desselben Modells
Teil desselben Unternehmens
Teilen desselben Kontexts
Haben dasselbe Ziel

Deshalb kann die Zusammenarbeit zwischen Systemen nicht mehr auf (die Liste der aktuellen Schlagwörter kann noch länger sein):

Prompt
Workflow
Shared Context

sondern nur auf Protokolle (Protocol) basieren. Dies bedeutet, dass der Kern der KI-Welt von Prompt Engineering zu Protocol Engineering wechseln wird. Es bedeutet auch, dass die aktuellen Schlagwörter nicht mehr viel Bedeutung haben.

Warum werden Protokolle zum Kern? Weil, wenn eine Vielzahl von Agenten unabhängig voneinander existiert, müssen zwischen ihnen die folgenden Probleme gelöst werden:

Identitätsbestätigung
Berechtigungsgrenzen
Vertrauensmechanismus
Auftragsbeziehung
Verhandlungsmechanismus
Anreizmechanismus
Rufsystem
Werttausch
Fähigkeitserklärung
Langfristiges Vertragssystem

Diese Anforderungen unterscheiden sich von denen der gegenwärtigen aufgabenorientierten Multi-Agentensysteme. Die Interaktion zwischen Agenten ist nicht mehr wie ein API-Aufruf, sondern eher wie eine "institutionelle Interaktion". Wenn es eine Herrschaft gibt, gibt es ein komplexes System von Rechten und Pflichten. Für Menschen sind dies Verträge, Gesetze usw. Was ist es für Agenten?

Deshalb habe ich vorher gesagt, dass dies ein völlig anderes Multi-Agentensystem aufbauen wird. Hier wird die Essenz des MAS von einem verteilten Softwaresystem zu einem digitalen Gesellschaftssystem.

Philosophische Notizen (7)

"Protokoll als Organisation"

In der traditionellen Internetwelt dient das Protokoll der Datenkommunikation. Sender und Empfänger vereinbaren das Format ihrer Kommunikation. Beispielsweise:

TCP/IP
HTTP
SMTP

Sie definieren, wie Daten übertragen werden. In der Blockchain-Welt hat sich das Protokoll weiter entwickelt: Protokoll ist Zustandsberechnung. Beispielsweise ist die Essenz von Ethereum nicht nur die Nachrichtenübertragung, sondern die gemeinsame Ausführung von Zustandsübergangsregeln im gesamten Netzwerk. Somit haben alle Knoten: Gleiche Eingabe → Gleiche Ausführung → Gleicher Zustand. Das Protokoll wird erstmals zu einer gemeinsamen Zustandsmaschine.

Aber im Stadium der Agentengesellschaft wird das Protokoll weiter verbessert. Zukünftige Protokolle definieren nicht nur:

Kommunikation
Berechnung
Sondern auch:
Koordination
Berechtigungen
Anreize
Identität
Organisationsbeziehungen

Dies ist offensichtlich ein neues System von Rechten und Pflichten. Daher wird das Protokoll die Funktion einer "Organisation" übernehmen und schließlich zu "Protocol as Organization" (Protokoll als Organisation) werden.

Wir erstellen eine Tabelle, um die grundlegenden Unterschiede zwischen den beiden Arten von MAS zu vergleichen:

Nach der "Intelligenz"

Viele Menschen glauben heute, dass die größten Probleme der KI sind:

Schlussfolgerungsfähigkeit
Modellfähigkeit
Langer Kontext
Multimodale Fähigkeiten
Agentenausführung

Diese Probleme stellen derzeit eine Herausforderung dar, aber ich bin sicher, dass alle diese Probleme bald gelöst werden können. Wenn wir jedoch in die Agentengesellschaft eintreten, wird das schwierigste Problem möglicherweise die langfristige Zusammenarbeit zwischen autonomen Entitäten sein.

Johannes Kepler wurde wegen seiner drei Gesetze als "Himmlischer Gesetzgeber" gefeiert. Was sind die Gesetze für Agenten? Wenn die Herrschaft teilweise getrennt wird, ist dies ein unausweichliches Problem.

Weil in Zukunft:

Agenten unterschiedliche Ziele haben werden
Agenten unterschiedliche Weltmodelle haben werden
Agenten unterschiedliche Interessen haben werden
Agenten unterschiedliche Erinnerungen haben werden
Agenten unterschiedliche Wertesysteme haben werden

Das eigentliche Schwierige in Zukunft wird nicht sein, dass "Agenten sprechen können", sondern dass "Agenten eine kooperative Interpretation der Welt entwickeln können".

Dies bedeutet, dass Bereiche wie Ontologie und Semantisches Protokoll, die von dem Internet bisher ignoriert wurden, wieder zum Kern werden werden. Es gibt bereits Anzeichen dafür. Das seltsame Wort "Ontologie" wird fast zu einem populären Begriff in der Technikwelt. Das ist wirklich erstaunlich.

Das Geheimnis von Palantir

Unternehmen könnten nur "Agentenverbünde" sein

Wenn man die Zukunft weiter vorausdenkt, ist es möglich, dass zukünftige "Unternehmen" nicht unbedingt menschliche Organisationen sind. (Für diejenigen, die meine Artikel oft lesen, klingt das vielleicht bekannt. Die High-End-Szene von Personalunternehmen ist da.) Stattdessen könnten es vielmehr Verträgsverbünde von zahlreichen Personalagenten sein.

Beispielsweise:

Ihr Agent
Mein Agent
KI-Finanzchef
KI-Anwalt
KI-Verkäufer
KI-Fabrik

Diese bilden dynamisch eine Organisation über Protokolle. Die Organisation ist kein fester Aufbau, sondern ein Agentenverbund, der jederzeit neu zusammengesetzt werden kann.

Deshalb werden viele zukünftige Systeme möglicherweise nicht mehr von Software betrieben, sondern von Organisationen berechnet. Dies könnte vielleicht die wahre "intelligenz-native Zivilisation" sein.

Abschließend möchte ich mit einem von KI generierten Bild den Inhalt des gesamten Artikels zusammenfassen:

(Das Zusammenfassen ist tatsächlich besser als bei Banana.)