AI-Agent dringt in das Büro ein
Vor kurzem auf der Shanghai World Artificial Intelligence Conference (WAIC) war der Stand „AI Productivity Wonder House“ wie an die Wände gedrängt.
Ein Unternehmensmanager beschrieb seine Anforderung nur mit einem Satz: „Du spielst die Rolle eines intelligenten Kundendienstassistenten, der auf Grundlage von Dokumenten auf Kundenfragen antwortet.“ Dann ließ er ein Produkt-Dokument hochladen.
In weniger als einer Minute war ein AI-Kundendienst, der spezielle Beratungen bearbeiten kann, fertig aufgebaut und konnte binnen Sekunden auf Kundenfragen antworten.
Dieses Szenario zeigt lebendig die revolutionäre Penetration von AI Agenten im Bürokontext – es geht nicht mehr nur um Konzeptdemonstrationen, sondern es werden „digitale Mitarbeiter“ geschaffen, die KPIs übernehmen und in die Kernprozesse integriert werden können.
01 Von der „Show des Könnens“ zur „Praktikabilität“
Tatsächlich war die Implementierung von KI im Bürobereich kein Einmalkurs, sondern es war ein schrittweiser Entwicklungsprozess von der Oberfläche zur Tiefe.
Wenn wir die Zeit um zwei Jahre zurückdrehen, ist das genau der Zeitpunkt, als ChatGPT auf den Markt kam. Die Branche ging einerseits weiter in die technische Tiefe der großen Modelle vor, andererseits suchte sie nach Möglichkeiten, die großen Modelle in verschiedenen Bereichen umzusetzen und anzuwenden. Mit Microsoft Office Copilot und WPS AI 1.0 trat die KI offiziell in den Bürokontext ein.
Zu dieser Zeit war die KI im Bürobereich erst im Anfangsstadium. Die KI war als Funktions-Plugin vorhanden und bot Unterstützung bei der Textgenerierung, Formatoptimierung und grundlegenden Datenanalysen. Ihr Merkmal war die „passive Reaktion“ – der Benutzer gab einen Befehl und die KI führte eine einzelne Aktion aus. Es bestand noch kein vollständiger Aufgabenzyklus. Wir können diesen Abschnitt als Copilot-Unterstützungsphase bezeichnen.
Mit der zunehmenden Nutzung der Fähigkeiten großer Modelle wie DingTalk AI und BetterYeah-Platform zeigten AI Agenten im Bürokontext zunehmend die Eigenschaften der Aufgabenautomatisierung und einer ersten Autonomie. Mitte 2024 trat die KI im Bürobereich in die Agent-Aufgabenphase ein.
In dieser Phase kann die KI auf Grundlage von Befehlen den Kontext verstehen und mehrere Schritte miteinander verbinden, um Aufgaben zu erfüllen. Ein typisches Beispiel sind die 3.300 AI-Assistenten, die von Anfängermitarbeitern erstellt wurden und 80 % der HR-Beratungen automatisch bearbeiten können. Der „Business Travel Question AI“ kann in 3 - 5 Sekunden einen maßgeschneiderten Bericht erstellen und pro Jahr tausende von Arbeitszeiten sparen. In dieser Phase beginnt die KI zwar, standardisierte Prozesse zu übernehmen, ist aber immer noch stark auf die manuelle Definition von Regeln angewiesen.
Wenn wir uns die vor kurzem beendete WAIC ansehen, können wir feststellen, dass der AI Agent im Bürokontext eine neue Evolution erfahren hat. Die KI wird zur „digitalen Mitarbeiterin“ und wird tief in die Geschäftsprozesse integriert und übernimmt Verantwortung.
Das von EHGO entwickelte LuminaSphere nutzt die „Assistant/Bag“-Architektur und kann je nach Abteilung (Finanzen, HR, Recht) spezielle AI-Assistenten bereitstellen und Rollenrechte festlegen, um direkt mit DingTalk/WeChat zu verbinden und Ergebnisse zu senden. Der Real Agent übernimmt in der Hebei Telekom mehr als 20 Finanzszenarien und reduziert die Bearbeitungszeit pro Szenario von 2 Stunden auf 10 Minuten. Die Yongsheng Property nutzt DingTalk AI, um den Inhalt der Morgenbesprechungen von über tausend Projekten im ganzen Land zu analysieren und reduziert so die Verwaltungsmitarbeiter von 15 auf 3 Personen.
Aus den obigen Beispielen kann man erkennen, dass der AI Agent bereits über Fachwissen, Bewusstsein für Rechte und die Fähigkeit zur Ausführung und Rückmeldung verfügt.
Es ist erwähnenswert, dass in der großen Umstellung, in der Büroplatformen wie DingTalk und Enterprise WeChat vollständig die Agent-Fähigkeiten integrieren, die plattformbasierte Ökosystem des AI Agenten bereits geformt ist.
Nehmen wir das DingTalk-Ökosystem als Beispiel. Die Mitarbeiter der Cainiao Group haben in DingTalk mehr als 3.300 AI-Assistenten erstellt. Der „Cainiao Xiaomi AI“ löst 80 % der HR-Beratungen mit einer Genauigkeit von fast 90 % und reduziert die Anzahl der Wissensbasis-Verwalter um 30 %. Das „Bailian AI“ von Belle Fashion basiert auf DingTalk und simuliert Szenarien, um die Verkäufer zu trainieren. In der Pilotphase in Tianjin stieg der Umsatz der Marke. Das Modell der Vernetzung von Tausenden von Gruppen verbessert die Nachbestellungseffizienz. Über 8.000 Filialen erreichen eine effiziente Zusammenarbeit über DingTalk.
02 Drei Treiber und der Schlüssel zum Durchbruch
Der Grund, warum die KI im Bürobereich kontinuierlich evolviert und in diesem Jahr einen Ausbruch erlebt hat, liegt in drei Treibern dahinter.
Erstens ist auf der Nachfrageseite die Steigerung der Arbeitskosten und die Lösung der Schmerzpunkte der „drei Höhen“ (häufige Operationen, hohe Fehlerrate, hoher Wiederholungsgrad) in der konkreten Arbeit ein Anreiz, dass AI Agenten aus dem Labor in das Büro kommen.
Zweitens hat auf der technischen Seite die Fusion von LLM + RPA + Low-Code die Engpässe des Aufgabenzyklus überwunden. Beispielsweise hat die ISSUT-Bildschirmsemantik-Analysetechnologie des Real Agent die Verständnisfähigkeit um das Zehnfache verbessert.
Drittens ist auf der Ökosystemseite die DingTalk/Enterprise WeChat-Platform ein natürlicher Testplatz. Die Low-Code-Entwicklungstools ermöglichen es den Fachkräften, Agenten selbst zu erstellen.
In der konkreten Praxis, wie löst der AI Agent die tatsächlichen Probleme der Angestellten? Durch die Analyse der oben genannten Beispiele können wir feststellen, dass die Umsetzung der KI im Bürobereich von der lokalen Effizienzsteigerung zur Neuformung der Kerngeschäftsprozesse übergegangen ist. Der Schlüssel zum Durchbruch liegt in der „präzisen Bekämpfung der Schmerzpunkte + tiefe technische Fusion“.
Als der Real Agent als digitaler Mitarbeiter in mehr als 20 Finanzszenarien der Hebei Telekom umgesetzt wurde, trat er direkt auf die Schmerzpunkte der Finanzarbeit (häufige Operationen, hohe Fehlerrate, hohe Arbeitskosten) zu. Seine Kerntechnologie kombiniert die generative KI und die traditionelle RPA. Das vollständig eigenentwickelte vertikale Prozessmodell TARS ermöglicht ein intelligentes Verständnis. In Kombination mit der Bildschirmsemantik-Analysetechnologie (ISSUT) wird die Effizienz der automatisierten Szenarien um das Zehnfache gesteigert. Bei Szenarien wie der Datenbeschaffung für Einkäufe wird eine „Sekundenreaktion“ erreicht und die Arbeitskräftefreisetzung beträgt 90 %.
Das „Modell der Vernetzung von Tausenden von Gruppen“ der Belle Group setzt über 800 Geschäft-AI-Knoten auf der BetterYeah-Platform ein und bricht die Dateninseln zwischen den verschiedenen Intelligenzsystemen auf und formt die Geschäftsprozesse neu.
Der Kerngedanke des „Modells der Vernetzung von Tausenden von Gruppen“ ist die Low-Code-Technologie + die nahtlose Integration der Systeme. Die Fachkräfte können schnell AI-Assistenten erstellen und über die MCP (Tool-Protokollschicht) Systeme wie ERP und CRM verbinden, um einen geschlossenen Zyklus von der automatischen Überwachung und Warnung des Lagerbestands bis zur automatischen Nachbestellung zu erreichen.
Ähnlich wie das „Modell der Vernetzung von Tausenden von Gruppen“ der Belle Group realisiert auch der privat genutzte AI-Assistent „Zhao Xiaoju“ der China Merchants Securities die einheitliche Bearbeitung von mehreren Büroszenarien durch die Systemintegration.
Die höchste Stufe der Umsetzung des AI Agenten ist die Vertiefung in die Richtung der komplexen Entscheidungen und der gemeinsamen Schaffung zwischen Mensch und Maschine.
Beispielsweise hat der Shangtang Office Xiaohuanxiong auf Grundlage des großen Modells Rixin 6.5 die Technologie der „Grafik-Text-verwechslten Denkkette“ überwunden. Er kann komplexe multimodale Eingaben verarbeiten, tiefgehende Fusion und Analyse durchführen und die Ergebnisse in multimodaler Form ausgeben. In der tatsächlichen Büroarbeit kann der Shangtang Xiaohuanxiong komplexe Excel-Tabellen analysieren, eine globale Analyse durch die multimodale Denkkette durchführen und schließlich einen strukturierten Bericht erstellen.
Seine technische Grundlage ist die frühe Ausrichtung der visuellen und sprachlichen Repräsentationen, um die Wahrnehmungseffizienz und die Tiefe der Modalitätsfusion zu verbessern und die KI von einem „Ausführenden“ zu einem „Analysepartner“ zu machen. Das „Bailian AI“ von Belle trainiert die Verkäufer durch die Simulation von Szenarien und hat den Umsatz der Pilotmarke in Tianjin deutlich gesteigert, was die Entscheidungsunterstützung der KI in unstrukturierten Szenarien zeigt.
03 Mängelbehebung und Ökosystem-Neugestaltung
Aus der obigen Analyse ist es nicht schwer zu erkennen, dass die Umsetzung des AI Agenten erfolgreich war. Aber aus der tatsächlichen Erfahrung und Rückmeldung der Benutzer gibt es immer noch ungelöste Mängel bei der Büro-Umsetzung des AI Agenten.
Zunächst besteht das Widerspruch zwischen der Entwicklungsgeschwindigkeit und der Tiefe der Umsetzung. Viele Unternehmen stehen vor der Schwierigkeit, dass es eine Woche dauert, ein Demo zu erstellen, aber es braucht sechs Monate, es richtig zu nutzen.
Zu Beginn der Entwicklung braucht es viel Zeit, die Arbeitsabläufe und Anforderungen zu klären. Später, weil die KI das Geschäft nicht versteht, muss der Mensch wie ein „Ausbilder für Praktikanten“ die KI mit Daten füttern und trainieren, was in gewissem Maße eine zusätzliche Arbeitslast darstellt. Plattformen wie BetterYeah versuchen zwar, die Schwelle durch die „Einsatz von einem Satz zur Erstellung eines Agenten“ zu senken, aber die Anpassung komplexer Geschäftsprozesse hängt immer noch von der professionellen Entwicklung ab.
Zweitens besteht das Widerspruch zwischen der Datenfusion und der Systemisolation. Wir wissen, dass die Unternehmensdaten normalerweise in den Inseln von ERP, CRM, IoT und anderen Systemen verteilt sind. Das LLM kann die Schlüsselinformationen nicht in Echtzeit abrufen, und die Entwicklungskosten traditioneller Schnittstellen sind relativ hoch. Dies führt dazu, dass die KI-Entscheidungen fehlenden Kontextstützung leiden. Einige Hersteller von AI Agenten-Produkten versuchen, dieses Problem durch die private Bereitstellung zu lösen. Aber das neue Problem ist, dass der Arbeitsablauf dieser Lösung das Potenzial für die Cloud-Zusammenarbeit verliert.
Drittens besteht das Widerspruch zwischen dem Aufgabenzyklus und den Ausführungslücken. Derzeit können die meisten LLM nur Vorschläge generieren, aber keine endgültigen Operationen wie Genehmigungen oder Auftragserteilung ausführen. Ein Automobilhersteller musste einmal eine Charge von Produkten wiederholen, weil die KI die Compliance-Prüfung übersehen hatte. Erst durch die Fixierung des „ISO-Standardprüfungs-Knotens“ wurde der geschlossene Zyklus erreicht.
Probleme wie unklare Aufgabenaufteilung und verzögerte Ausführungsrückmeldung hindern die KI daran, von einem „Vorschläger“ zu einem echten „Verantwortlichen“ zu werden.
Durch das Fenster der WAIC können wir auch die Entwicklungstrends der KI im Bürobereich erkennen.
Beim technischen Aufbau wird das „Goldene Dreieck“ von MCP + LLM + Agent zum neuen Standard.
Der MCP dient als „Universalstecker“ und verbindet standardisiert Tools und Daten. Das LLM ist für die Aufgabenplanung zuständig, und der Agent führt die Aufgaben aus und gibt den Status zurück. Das Datenflussmodul des HiAgent 2.0 von Volcengine ist genau so konzipiert und unterstützt die vollständige Automatisierung des Prozesses von der Datenbereinigung bis zur Optimierung.
Die Interaktion sollte nicht einseitig sein, sondern multimodal. Die Interaktion über Bilder, Text, Sprache und Video sollte nicht nur der Standard werden, sondern auch nahtlos miteinander verbunden sein.
Das Rixin 6.5 von Shangtang hat durch die „Optimierung des visuellen Encoders + tiefes und schmales Hauptmodell“ die Grafik-Text-verwechslte Inferenz erreicht. Sein humanoides Robotermodell kann PPTs flüssig erklären und in Echtzeit interagieren. Die Verbreitung des DingTalk Flash Notes in der Branche der Konferenzen zeigt, dass die Bürointeraktion sich vom Textabhängigkeit befreit.
Beim Einsatz der KI sollte die KI von einem „Werkzeug“ zu einem „Organisationsmitglied“ aufgewertet werden. Das Nova Agent von BetterYeah unterstützt die Koordination und Zusammenarbeit der Agenten wie in einem menschlichen Team. Die „Digital Employee Dispatch Station“ des HiAgent 2.0 kann die Leistung der KI anpassen, verwalten und bewerten.
Man kann sich vorstellen, dass in Zukunft Unternehmen möglicherweise nach dem Modell „menschlicher Direktor + KI-Ausführungsteam“ funktionieren. Es könnte sogar „Ein-Personen-Unternehmen“ geben, bei denen Gründer die Kernaktivitäten mit einem KI-Team unterstützen lassen.
04 Fazit
Im Finanzzentrum der Hebei Telekom trägt ein digitaler Mitarbeiter auf dem Bildschirm automatisch die Informationen von Rechnungen in das System ein – eine Arbeit, die früher menschlichen Mitarbeitern Stunden gekostet hat und jetzt nur noch einen Klick erfordert. Dieses scheinbar kleine Szenario ist ein Abbild der dramatischen Veränderung der Bürologik. Wenn der AI Agent von der Tabellenbearbeitung zu den KPIs übergeht und von der Befolgung von Befehlen zur aktiven Zusammenarbeit kommt, ist die „Beziehung zwischen Mensch und Maschine“ im Büro für immer verändert.
Genau wie die DingTalk AI in der Immobilien-, Einzelhandels- und Bildungsbranche wurzelt oder der Real Agent in der Telekommunikationsbranche Arbeitskräfte spart, besteht die Essenz der KI-Bürorevolution nicht in der Überlagerung von Werkzeugen, sondern in der Neuformung der Produktionsbeziehungen. Die zukünftige Wettbewerbsfähigkeit von Unternehmen wird davon abhängen, ob sie das „Gehirn“ des LLM, die „Hände und Füße“ des Agenten und die „Nerven“ des MCP zu einem Organismus integrieren können – dort gibt es keine Grenze zwischen Mensch und Maschine, nur die symbiotische Evolution der Agentengesellschaft.
Dieser Artikel stammt aus dem WeChat-Account „Dongjian Xinyanshe“ (ID: DJXYS - 0309). Verfasser: Ein interessierter Beobachter der Künstlichen Intelligenz. Veröffentlicht von 36Kr mit Genehmigung.