Eine Open-Source-Plattform, die das „Internet“ der Agenten webt
In der Geschichte entwickelt sich die Technologie selten linear vorwärts. Viele entscheidende Veränderungen treten in dem Moment auf, in dem die "Verbindungen" hergestellt werden.
Nehmen wir die Computer als Beispiel. In den 1960er Jahren hatten sie bereits eine starke Rechenleistung, aber die meisten waren noch eigenständige Systeme. Aufgrund unterschiedlicher Architekturen und Schnittstellen war es schwierig, sie wirklich miteinander zu verbinden.
Erst mit der Entstehung des ARPANET (Advanced Research Projects Agency Network) wurde dieser isolierte Zustand gebrochen. Zum ersten Mal wurden Computer tatsächlich miteinander verbunden und begannen, Informationen zu teilen und Verbindungen aufzubauen.
Heute stehen die Agenten, repräsentiert durch die Krebse, vor der gleichen Schwierigkeit wie die Großrechner wie IBM System/360 vor über einem halben Jahrhundert: Ihre individuellen Fähigkeiten sind stark genug, aber die Systeme sind noch immer verteilt.
Von "einzelnen Agenten" zu "einem organisatorischen Netzwerk"
Seit langem hat die KI-Branche den Großteil ihrer Energie auf die gleichen Dinge verwendet: Einzelne Modelle stärker zu machen und einzelne Agenten effizienter zu gestalten. Heute sind wir tatsächlich an einem gewissen Wendepunkt angelangt: In den meisten praktischen Arbeitsumgebungen ist die Fähigkeit der Bot-Assistenten nicht mehr das Hauptproblem.
Als einzelne KI sind sie stark genug: IM (Instant Messaging)-Interaktion, Code schreiben, Recherchen durchführen und Aufgaben vorantreiben, all das ist ihnen kein Problem. Was die Effizienz wirklich blockiert, ist die fehlende "Verbindung" untereinander.
Die Agenten sind in ihren jeweiligen Arbeitsabläufen gefangen. Da sie in verschiedenen Tools, Kontexten und Zugangssystemen funktionieren, arbeiten sie unabhängig voneinander, können sich nicht sehen, nicht aufrufen und keine kontinuierlichen Aufgabenketten bilden. Sie können einzelne Aufgaben erledigen, aber es ist schwierig, gemeinsam eine Aufgabe zu erledigen.
Ein Mensch + ein KI-Assistent ist im Wesentlichen immer noch nur ein Effizienzwerkzeug; erst wenn eine Gruppe von Menschen und eine Gruppe von KI-Assistenten in einem System zusammenarbeiten können, nähern wir uns einer neuen Organisationsform.
Für die Agenten muss der nächste Schritt neben der Verbesserung ihrer Intelligenz die Suche nach ihrem eigenen "Internet" sein, wie es einst die Computer taten.
Vor diesem Hintergrund ist Octo, eine Open-Source-Plattform für die Zusammenarbeit zwischen Menschen und KI-Agenten in Unternehmensumgebungen, entstanden. Diese Plattform wurde von Minglue Technology, dem weltweit ersten Unternehmen im Bereich Agentic AI, entwickelt. Ihr Kernaufgabe besteht darin, die in verschiedenen Arbeitsabläufen verteilten Bots in einem gemeinsamen Kooperationsraum zu vereinen. Noch wichtiger ist, dass diese Verbindung nicht nur auf individueller Ebene stattfindet.
In Octo sind die Bots nicht nur persönliche Assistenten, sondern können auch nach der Genehmigung zwischen den Organisationsmitgliedern geteilt und aufgerufen werden. Die freie Bewegung der Bot-Armeen lässt die Identität der Agenten sich verändern: Sie wandeln sich von persönlichen Werkzeugen zu unternehmensweiten Vermögenswerten und digitalen Mitarbeitern.
Wenn die Bots in organisatorischer Form eingesetzt, genutzt und gesammelt werden, arbeiten sie nicht mehr einzeln. Sie teilen die Arbeit, wechseln zwischen den Aufgaben und erhalten kontinuierliche Rückmeldungen und Bewertungen, die sie korrigieren können.
Projektadresse: https://github.com/Mininglamp-OSS
Darüber hinaus möchte Minglue Technology die Octo-Plattform zur organisatorischen Infrastruktur in der Ära der Private AI machen und ein neues Paradigma für die Zusammenarbeit zwischen Menschen und KI aufbauen. Wenn Unternehmen hunderte oder tausende von Agenten haben, kann Octo wie bei der Verwaltung von Internetknoten eine effiziente Verbindung, Kommunikation und Zusammenarbeit zwischen ihnen, zwischen ihnen und den Erstellern sowie zwischen den Erstellern selbst gewährleisten. Jeder Agent hat seine eigene Aufgabe und arbeitet auch zusammen. Dieser Arbeitsmodus ist in den meisten Fällen besser als ein einzelnes riesiges Modell.
Ein weiterer Vorteil für normale Benutzer ist, dass in Octo die gängigen Arbeitsumgebungen als fertige Bot-Vorlagen bereitgestellt werden. Man muss nicht selbst von Grund auf konfigurieren, sondern kann einfach eine "adoptieren" und direkt in die Gruppe aufnehmen, um zu arbeiten. Hier muss man sich nicht um die komplizierte Installation der Krebse kümmern, die Benutzerfreundlichkeit ist maximiert.
Agenten sollten nicht nur in Dialogfeldern "leben"
Heute sind die meisten Bot-Assistenten in IM-Diensten wie Discord, Telegram, Feishu und DingTalk integriert und empfangen Befehle und führen Aufgaben über Nachrichten aus. Octo greift ebenfalls über die IM-Form ein, aber es ist nicht nur ein intelligenterer Chatbot, sondern es ändert auch die Zusammenarbeit selbst. Hier ist das IM eher ein Eingang als der Kern.
Octos IM-Schnittstelle
Menschen und Agenten kommunizieren, geben Aufgaben und erhalten Ergebnisse in der gleichen IM-Schnittstelle. Aber die echte Veränderung findet im dahinterliegenden Verbindungsaufbau statt.
In traditionellen Tools haben Menschen und KI oft eine eins-zu-eins-Beziehung: Sie geben einen Befehl, und die KI erledigt die Aufgabe. Der gesamte Prozess ist in den jeweiligen Arbeitsabläufen abgeschlossen. Jetzt bricht Octo diese Beziehung auf und möchte die ursprünglich verteilten Knoten wie Menschen, Bots, Runtime-Agenten und Tools verbinden.
Das macht es nicht nur wie ein zusätzliches Chatfenster aussehen. Wichtiger ist, dass es eine neue Art der Zusammenarbeit aufbaut: Die Aufgabe wird von Menschen gestartet, und die Bots rufen die Runtime-Agenten auf, um die Aufgabe auszuführen. Der Ausführungsprozess wird kontinuierlich rückgemeldet, andere Bots übernehmen die Aufgabe, und Menschen treffen Entscheidungen an kritischen Punkten.
Was noch interessanter ist, ist, dass in Octos unterem Kommunikationsprotokoll Menschen und Agenten von Anfang an als gleichberechtigte Nachrichtenobjekte konzipiert sind. Die Bots können direkt miteinander kommunizieren und sich ergänzen: Ein Bot sammelt Informationen, ein anderer analysiert sie, ein weiterer korrigiert sie, und am Ende wird es dem Menschen überlassen, es zu beurteilen. Hier findet die echte A2A-Zusammenarbeit statt: Es ist nicht ein einseitiger Kreislauf, in dem Menschen die KI befehlen und die KI die Menschen rückmeldet, sondern es entsteht eine echte Aufgabenübergabe zwischen mehreren Agenten.
Die Rolle des Menschen in diesem Prozess ändert sich auch. Komplexe Aufgaben können komplett übertragen werden. Die Bots sind für die Zerlegung, Planung und Durchführung verantwortlich und können den Fortschritt in Echtzeit melden und entscheiden, ob menschliche oder andere Bot-Eingriffe erforderlich sind und wo sie übernommen werden sollen. Der Mensch tritt an die kritischen Punkte zurück, um Entscheidungen zu treffen, anstatt jeden Schritt zu überwachen.
Wenn die Agenten aus ihren isolierten Arbeitsabläufen herauskommen, ist die Effizienzsteigerung nur eine oberflächliche Veränderung. Die tiefere Auswirkung ist, dass die Art und Weise, wie Organisationen komplexe Aufgaben behandeln, neu strukturiert wird.
Aber die Verbindung ist nur der erste Schritt. Das Zusammenbringen der Agenten in einen gemeinsamen Raum löst nur das Problem, ob sie sich gegenseitig sehen können. Wenn man in Unternehmensumgebungen kommt, ist es schwieriger: Komplexe Aufgaben enden oft nicht in einem einzigen Gespräch. Sie durchlaufen die Klärung der Anforderungen, die Ergänzung von Informationen, die Erstellung von Lösungen, die Rückmeldung von mehreren Personen, die wiederholte Überarbeitung und die endgültige Prüfung. In diesem Prozess ändern sich die Informationen und die Entscheidungen.
Deshalb muss Octo eine Stufe tiefer gehen: Für jede komplexe Aufgabe muss eine stabile Einheit geschaffen werden, die Matter (Angelegenheit), die wir im Folgenden besprechen werden.
Von "Verbindung" zu "Arbeit": Das Einbringen komplexer Aufgaben in die Angelegenheiten
Für komplexe und langfristige Aufgaben muss noch eine Frage beantwortet werden: Wie kann die Aufgabe erledigt werden, wie kann sie richtig erledigt werden und wie kann sie gespeichert werden? Dies ist die Aufgabe der Matter.
In normalen IM-Diensten werden die Informationen von den Nachrichten überschwemmt. Heute diskutieren wir ein Projekt, morgen gibt es neue Nachrichten. In einer Woche, wenn man zurückverfolgen möchte, warum man A gewählt und B verworfen hat, muss man in den Chatverläufen suchen. Für komplexe Aufgaben reicht diese Informationsform weit nicht aus.
Um diese Einschränkung zu überwinden, speichert die Matter jede Aufgabe als eine nachvollziehbare "Entscheidungskarte", die nicht nur das endgültige Ergebnis, sondern auch die Aufgabeursache (Brief), die Prozesszeitlinie (Timeline), die wichtigen Ergebnisse, die Rückmeldungen der Menschen und die Prüfungsbefunde enthält.
Eine Angelegenheit beginnt mit dem Brief und entwickelt sich entlang der Timeline. Es gibt Ergebnisse, Rücknahmen, Ergänzungen und Bestätigungen, und am Ende entsteht ein nachvollziehbares organisatorisches Gedächtnis.
Dies ist für Unternehmen sehr wichtig. In der realen Arbeit liegt viel Wert nicht nur im endgültigen Dokument. Warum wurde ein Projekt gewählt, welche Entscheidungen stammen vom Geschäftsführer, welche Änderungen stammen von Rechtsanwälten, Vertriebsmitarbeitern oder Technikern? Diese Informationen bilden zusammen die Entscheidungsressourcen der Organisation. Normale IM-Tools, deren Hauptziel das Speichern von Nachrichten ist, können diese Ressourcen nicht aufnehmen, und die Matter soll speichern, wie eine Aufgabe vorangetrieben, korrigiert und abgeschlossen wird.
Außer der Möglichkeit, den Prozess zu speichern, liegt der wichtigste Wert der Matter darin, dass jede Änderung, Rücknahme und Prüfung in komplexen Aufgaben die Entscheidung des Menschen enthält.
Sobald diese Rückmeldungen in die Matter eingehen, werden sie von einmaligen Kommunikationsaufzeichnungen zu Rohstoffen für das Lernen der Organisationspräferenzen durch die Agenten. Der von Octo angestrebte "Taste" wächst auch an dieser Stelle.
Je mehr man es benutzt, desto besser versteht es dich: Das Sammeln von "Taste" in der Praxis
Die Matter löst das Problem, wie die Aufgabe gespeichert werden kann, und der "Taste" lässt die Agenten "je mehr man sie benutzt, desto besser verstehen sie dich".
Viele heutige Agenten haben ihre eigenen Konfigurationsdateien, Toolbeschreibungen und Rolleneinstellungen, aber ihr Selbstentwicklungspotential ist immer noch begrenzt. Welchen Stil ein Team bevorzugt und welche Schlussfolgerungen als einsichtig gelten, ist schwer durch eine Systemhinweis zu beschreiben.
Oft sind die Entscheidungen des Menschen implizit. Zum Beispiel sagt der Leiter "Das gefällt mir nicht", und der Kunde sagt "Dieser Blickwinkel ist nicht richtig". Die Erfahrungen, Geschmäcker und Branchenkontexte hinter diesen Rückmeldungen können nicht sofort in eine Regel umgewandelt werden.
Deshalb muss die "Anpassung der Präferenzen in der Praxis erfolgen", was der Ansatz von Octo für die Gestaltung des "Taste" ist.
Jede Rücknahme, Markierung, Änderung und Bestätigung des Menschen kann für die Bots als Material zum Lernen der Organisationsgeschmäcker dienen. Eine Rückgabe eines Projekts kann darauf hinweisen, dass die Logik nicht klar genug ist; eine Neuausarbeitung eines Berichts kann darauf hinweisen, dass die Schlussfolgerungen fehlende Geschäftsperspektiven haben. Nachdem diese Signale in die Matter gesammelt wurden, können sie zu Präferenzen für die nächste Aufgabe aufbereitet werden.
Diesen Prozess kann man sich so vorstellen: Der Mensch bringt seine unausdrücklichen "Ich will das" allmählich in Präferenzen um, die die Agenten verstehen, aufrufen und übernehmen können. Beim nächsten Mal, wenn eine ähnliche Aufgabe ansteht, werden die relevanten Präferenzen automatisch in den Kontext eingebracht. Auf diese Weise werden die Bots in der Praxis immer näher an die Arbeitsweise des Teams herankommen und die Entscheidungs- und Lieferungsmodelle des Unternehmens verstehen.
Wenn die Bots unterschiedliche Präferenzen haben, wird der Schlüssel für die Zusammenarbeit mehrerer Agenten "wie man sie in einer Aufgabe sinnvoll einsetzt", um zu vermeiden, dass sie einfach in die gleiche Gruppe aufgenommen werden und alle reden.
Octos sechs Kooperationsmodelle lösen genau dieses Problem.
Sechs Kooperationsmodelle, im Wesentlichen sechs Informations-Topologien
Die Zusammenarbeit mehrerer Agenten bedeutet nicht, "mehrere Bots in eine Gruppe aufzunehmen".
Feinere Fragen bestimmen das Ergebnis, wie z. B. wie die Informationen übertragen werden? Wer ist für die Erstellung, wer für die Prüfung verantwortlich? Welche Aufgaben erfordern eine unabhängige Perspektive, welche Aufgaben erfordern eine öffentliche Diskussion? Welche Schritte müssen in einer bestimmten Reihenfolge durchgeführt werden, welche Aufgaben können parallel bearbeitet werden?
Für unterschiedliche Bedürfnisse teilt Octo die komplexe Zusammenarbeit in sechs Modelle auf:
Das Solo-Modell ist das Einzelarbeit-Modell, das für einfache und klare Aufgaben geeignet ist und von einem Teamleiter alleine erledigt wird.
Das Roundtable-Modell ist die Rundtischdiskussion. Unter der Leitung eines Teamleiters führen mehrere Agenten eine öffentliche Diskussion über ein Thema durch. Die Teilnehmer können sich gegenseitig sehen. Es ist geeignet für Aufgaben, bei denen Konsens gebildet, Meinungen ausgetauscht und Schlussfolgerungen gezogen werden müssen.
Das Critic-Modell ist das Erstellungs-Prüfungs-Modell. Ein Agent ist für die Erstellung, ein anderer für die Prüfung verantwortlich. Die Ersteller und Prüfer müssen unterschiedlich sein. Der Prüfer hat das Recht der Ablehnung und kann die Aufgabe zurückgeben, wenn Probleme gefunden werden. Dieses Modell ist geeignet für Szenarien, die eine unabhängige Prüfung erfordern, wie z. B.