Beschweren sich Mitarbeiter darüber, dass es anstrengender sei, "nach der KI aufzuräumen"? Enthüllung der "Paradoxie" und des echten Wendepunkts bei der Effizienzsteigerung durch KI in Unternehmen
In der heutigen Zeit, in der die digitale Welle die Welt erobert, integriert sich KI mit bisher unbekannter Tiefe und Breite in die Entwicklung von Unternehmen und wird zur zentralen Antriebskraft für Innovation und Wachstum. Wie kann man nun mit KI-Technologie neue Geschäftsmöglichkeiten und Wachstumschancen entdecken? Und wie kann man KI nutzen, um effizienter neue Benutzer zu gewinnen, diese zu halten und zu konvertieren?
Kürzlich hat die Live-Sendung "Geek Time" von InfoQ in Zusammenarbeit mit AICon speziell Wang Yunfeng, CTO von Smzdm Technology als Moderator eingeladen. Zusammen mit Liang Xiaowu, Senior Technologieexperte von Alibaba, und Zou Panxiang, Leiter der KI-Forschung und -Entwicklung bei CaiXun Co., Ltd. werden sie kurz vor der bevorstehenden AICon Global Artificial Intelligence Development and Application Conference 2025 in Peking über die praktische Umsetzung und Nachbereitung der Effizienzsteigerung von Unternehmens-KI diskutieren.
Einige Highlights sind wie folgt:
- Ohne Halluzinationen gibt es keine Kreativität. Wir müssen diese Abweichungen akzeptieren und gleichzeitig mit engineeringmäßigen Mitteln sicherstellen, dass sie in einem vertretbaren Rahmen bleiben, um die gewünschten Ergebnisse zu erzielen.
- Bei allen Arten von Agenten ist die Datenverwaltung immer ein entscheidender Vorabschritt bei der Arbeit mit Large Language Models.
- Der Leiter eines Projekts muss in der Lage sein, die unterliegenden KI-Fähigkeiten in Produktfunktionen zu verpacken, die für Benutzer wahrnehmbar, verständlich und nutzbar sind. Er muss auch in der Lage sein, mit den Geschäftsabteilungen zu kommunizieren, die Kundenszenarien und Geschäftsprozesse zu verstehen und daraus KI-Anforderungen abzuleiten.
Der folgende Text basiert auf der Live-Transkription und wurde von InfoQ gekürzt.
Wenn der "Schüler" auf den "Doktoranden" trifft
Wang Yunfeng: Lassen Sie uns zunächst über die "Modellnutzung" sprechen. Wang Xiaochuan von Baichuan hat einmal einen Vergleich angestellt und gesagt, dass die Intelligenz der heutigen Spitzenmodelle (wie GPT-4, Gemini 3) bereits auf dem Niveau eines "Doktoranden" liegt. Meine persönliche Erfahrung ist jedoch, dass das engineeringmäßige Umfeld, das wir für das Modell aufbauen, und sogar die Prompts, die wir schreiben, möglicherweise noch auf dem Niveau eines "Schülers" bleiben. Diese "Unterschiede in den Fähigkeiten" führen dazu, dass wir oft das Gefühl haben, dass die KI nicht gehorcht. Wie haben Sie in diesem Jahr in der Praxis die Fähigkeiten dieses "Doktoranden" wirklich effektiv genutzt? Gibt es hierbei einige allgemeingültige Erfahrungen?
Liang Xiaowu: Aufgrund meiner langjährigen Erfahrung in der GUI-Automatisierung und meiner gegenwärtigen Versuche, die GUI-Fähigkeiten mit KI zu verbessern, habe ich drei Aspekte erarbeitet.
Erstens muss man das Basis-Modell entsprechend dem konkreten Szenario auswählen. GUI-Betrieb ist im Wesentlichen ähnlicher wie RPA, und seine visuelle Grounding- und Inferenzmethode unterscheidet sich deutlich von der bei Sprach- oder Texttasks. Daher haben wir bei der Auswahl und Kombination von Basis-Modellen intensive Forschungen betrieben und verschiedene Modelle aus China und aus dem Ausland getestet. Schließlich haben wir festgestellt, dass Qianwen 3 in unserem GUI-Szenario bei der Inferenz besonders gut abschneidet.
Zweitens ist das Design der Agent-Architektur wichtig. Die Architektur eines KI-Agents unterscheidet sich von der traditionellen Microservices-Engineering-Architektur. Sie muss von Ungewissheit zu Gewissheit führen, anstatt einem festen Ablauf zu folgen. Daher ist die Kernaufgabe des Architekturdesigns, engineeringmäßig sicherzustellen, dass die Ausgabe des KI-Modells kontrollierbar ist und dass der "Doktorand" in der Lage ist, auf kontrollierte und effektive Weise mit unserem System zu interagieren.
Bei unserem GUI-Agent haben wir die Rolle eines "Richters" eingeführt und bei jeder Aktion eine Richterentscheidung vorgenommen. Dies ist ein wichtiger Mechanismus außerhalb des Modells.
Drittens ist die Kontext-Engineering, früher als Prompt-Engineering bekannt, wichtig. Da wir keine Basis-Modelle entwickeln und höchstens einige vertikale Kleinmodelle, wie Analysemodelle oder lokale Bilderkennungsmodelle, entwickeln, wird die Kontext-Engineering zur Kernkompetenz für die Umsetzung von KI-Engineering.
Wang Yunfeng: Vor kurzem hat unser Unternehmen einen Hackathon veranstaltet. Viele Kollegen haben berichtet, dass man erst dann das eigentliche Wesen der Kontext-Engineering versteht, wenn man einen Agent von Grund auf aufgebaut hat. Wir können dem Modell nicht alle Kenntnisse auf einmal vermitteln, aber die Aufgaben erfordern oft eine große Menge an Informationen. Wenn die Kontext-Engineering nicht gut funktioniert, kann das Modell nur einen kleinen Teil seiner Fähigkeiten entfalten.
Frau Zou, die Anforderungen von B2B-Kunden sind oft sehr starre. Wie stellen Sie es mit engineeringmäßigen Mitteln (z. B. Chain of Thought, CoT) her, dass das Modell sowohl die Intelligenz eines "Doktoranden" entfaltet als auch die Disziplin eines "Schülers" beibehält?
Zou Panxiang: Im B2B-Szenario gibt es große Unterschiede in der KI-Anwendung zwischen B2C und B2B. Lassen Sie uns zunächst das oft erwähnte Problem der "Halluzinationen" von Large Language Models besprechen. Viele Menschen halten Halluzinationen für negativ, aber tatsächlich ist es gerade diese Eigenschaft, die es dem Modell ermöglicht, Inhalte zu generieren. Wenn ein Modell keine Halluzinationen hat, kann es nur Wissen auswendig lernen, aber keine neuen Inhalte schaffen.
Daher entscheiden wir je nach Szenario, ob Halluzinationen erforderlich sind. Eine absolute Beseitigung von Halluzinationen ist unmöglich, aber wir können entscheiden, wann die Halluzinationsrate gesenkt werden muss. In kreativen Szenarien, wie bei der Video-Marketing für verschiedene Zielgruppen, helfen Halluzinationen, kreativere und vielfältigere Inhalte zu generieren. In B2B-Geschäftsszenarien möchten wir jedoch in der Regel die Halluzinationsrate so niedrig wie möglich halten.
Um die Halluzinationsrate zu senken, müssen wir klare Methoden festlegen: wann, wie und wie wir gleichzeitig die "Doktoranden-Intelligenz" des Modells aufrechterhalten können. Die Kontext-Engineering spielt hierbei eine entscheidende Rolle. Wir müssen Expertenwissen, die Ausführungsergebnisse von Tool-APIs, die Ergebnisse von Plug-ins und die Inferenzketten in das Modell einfügen, um Abweichungen zu reduzieren. Dennoch reicht die Kontext-Engineering allein nicht aus, da das Problem der Halluzinationen aus verschiedenen Schritten stammen kann, wie Wissenssuche, Inferenzplanung, Tool-Aufruf oder Intentionenerkennung. Im B2B-Bereich können wir keine schwarze Kasten-Prozesse akzeptieren. Daher haben wir eine Methode entwickelt, die den gesamten Prozess beobachtbar und kontrollierbar macht.
Die Beobachtung lässt sich in drei Phasen unterteilen. Die erste Phase ist das Verständnis der Intention. Da die Klarheit der Fragen von verschiedenen Benutzern unterschiedlich ist, müssen wir den Prozess der Intentionenklärung durchführen, um die echten Anforderungen zu erfassen. Nach der Klärung geht es in die Aufgabeplanungsphase über. Der gesamte Denkprozess, einschließlich des verwendeten Wissens und des aufgerufenen Tools, muss protokolliert werden, damit der Benutzer den Inferenzpfad des Modells sehen kann. Beispielsweise bei der Reiseplanung muss das Modell wiederholt nach Zeit, Anzahl der Personen, Verkehrsmittel, Unterkunftsvorlieben usw. fragen, um sicherzustellen, dass der Plan den Anforderungen entspricht.
Vor dem Start des Systems stellen wir sicher, dass der Prozess beobachtbar ist, indem wir jeden Inferenzschritt protokollieren und Kontextinformationen einfügen, damit das Modell möglichst dem erwarteten Pfad folgt. Nach dem Start unterscheidet sich die KI-Anwendung von der traditionellen IT-Anwendung vor allem dadurch, dass die Grenzen nicht klar definiert sind. Die Ausgabe eines IT-Systems ist vorhersagbar, während KI nur eine "Schätzung" liefern kann. Wir können die Leistung beim Start von 60 auf 80 Punkte verbessern, aber nie 100 Punkte erreichen. Nach dem Start müssen wir ständig iterieren, um von 80 auf 90, 95 oder sogar 99 Punkte zu steigern, aber es wird nie perfekt sein.
Daher müssen wir engineeringmäßig inhaltliche Informationen vorab einfügen, manuell eingreifen oder Ergänzungen vornehmen, um die Bereiche zu behandeln, die das Modell nicht abdecken kann.
Das KI-Modell ist nur ein Teil des gesamten Systems, nicht das Ganze. Daher fügen wir viele unterstützende Module und Verwaltungstools hinzu. In einigen Szenarien reduzieren wir sogar die Größe des Modells, um seine Generalisierungsfähigkeit zu senken und die Kontrollierbarkeit zu erhöhen. Manchmal lassen wir das Modell zunächst einen Plan erstellen und lassen ihn dann von Menschen prüfen. Schließlich wandeln wir den Plan in einen kontrollierbaren Pfadsuchprozess um. Wir haben in der Branche viele Fehler gemacht, als wir Agenten entwickelt haben. Daher haben wir festgestellt, dass die Umsetzung von KI die Anforderungen an Beobachtbarkeit, Iterierbarkeit, Kontrollierbarkeit, Vertrauenswürdigkeit und Integrationsfähigkeit erfüllen muss. Diese Anforderungen treiben auch das Lieferteam und das Forschungs- und Entwicklungsteam an, entsprechende Tools und Engineering-Fähigkeiten zu entwickeln, um die Gesamtumsetzung zu unterstützen.
Wang Yunfeng: Sowohl im B2C- als auch im B2B-Bereich herrscht letztendlich eine Übereinstimmung: Die "Intelligenz" von Large Language Models ist bereits sehr hoch, aber ein hochintelligentes Gehirn alleine löst die Probleme nicht. Es bedarf immer noch einer großen Menge an Wissen und engineeringmäßigen Fähigkeiten, und vieles Wissen befindet sich nicht im Modell selbst. Daher können wir nicht erwarten, dass das Modell direkt die endgültige Antwort liefert. Stattdessen müssen wir engineeringmäßig sicherstellen, dass die Ausgabe kontrollierbar ist.
Die Kreativität und die emergenten Fähigkeiten des Modells stammen von der Vielfalt, die heute als "Halluzination" bezeichnet wird. Ohne Halluzinationen gibt es keine Kreativität. Wir müssen diese Abweichungen akzeptieren und gleichzeitig mit engineeringmäßigen Mitteln sicherstellen, dass sie in einem vertretbaren Rahmen bleiben, um die gewünschten Ergebnisse zu erzielen.
Das Fehlen des "Kontexts" in den Daten
Wang Yunfeng: Nachdem wir über die Modelle gesprochen haben, wollen wir nun über die "Daten" sprechen, die der Treibstoff für KI sind. Bei Smzdm müssen wir dem KI-System eine große Menge an Benutzerverhalten und Community-Inhalten zeigen, damit es bei Konsumentenentscheidungen helfen kann. Dies war auch der Hauptgrund, warum ich die MCP (Model Context Protocol) initiiert habe: Ich möchte das Problem der "Kontextverbindung" zwischen KI und Unternehmensdaten lösen. Aber ehrlich gesagt, war dieser Prozess schwieriger als erwartet. In Ihrer Praxis, was ist das größte Hindernis, wenn die KI die interne Geschäftlogik eines Unternehmens verstehen soll? Frau Zou, müssen Sie bei der Lieferung an B2B-Kunden viel Zeit damit verbringen, die Daten der Kunden zu "bereinigen"? Wenn die Daten eines Kunden in einem schrecklichen Zustand sind, sollten wir die KI trotzdem einführen oder den Kunden bitten, die Digitalisierung von Grund auf neu zu machen?
Zou Panxiang: Bei der praktischen Umsetzung stellen viele Kunden die Frage: Warum brauchen wir immer noch Daten, wenn die Modelle so stark sind? Welche Art von Daten brauchen wir? Und wie führen wir die Datenverwaltung durch? Um diese Fragen zu beantworten, müssen wir zunächst von der Frage "Warum Datenverwaltung?" ausgehen.
Erstens versteht das Modell oft nicht die Geschäftsszenarien, Prozesse und vertikalen Fachbegriffe eines Unternehmens. Beispielsweise bedeutet im Telekommunikationsszenario "Tarif" ein Mobilfunktarif. Wenn man das Modell jedoch direkt fragt: "Buchen Sie mir einen Tarif", könnte das Modell es als McDonald's- oder KFC-Tarif verstehen. Daher müssen wir in konkreten Geschäftsszenarien das private Wissen des Unternehmens an das Modell weitergeben, damit es die echte Bedeutung bestimmter Begriffe versteht.
Zweitens ist die Datenverwaltung auch mit der Offenlegung und Weitergabe von Expertenwissen verbunden. Expertenwissen manifestiert sich normalerweise in Problemanalyse-Methoden und Bearbeitungsprozessen, während das Modell auf allgemeines Wissen angewiesen ist. Ohne die Eingabe von Fachwissen kann das Modell viele szenariospezifische Probleme nicht lösen.
Beispielsweise im Kundenservice von 10086 bei China Mobile können Kunden Fragen zu Tarifen, Nummernportierung usw. stellen. Die Nummernportierung hat strenge Prozess- und Bedingungsanforderungen und kann nicht beliebig durchgeführt werden. Früher konnten die Online-Kundendienstmitarbeiter solche Probleme oft nicht lösen, während es offline in wenigen Minuten erledigt werden konnte. Der Grund dafür ist, dass es um die Anrufe von Geschäftssystemen und die Überprüfung von Bedingungen geht. Wenn diese Informationen nicht an das Modell weitergegeben werden, kann das Modell die Geschäftsprozesse nicht richtig verstehen.
Wir müssen klären, welche Daten verwaltet werden müssen. Dies lässt sich in zwei Kategorien unterteilen: Einerseits sind es die Wissensdaten, einschließlich Expertenwissen, Dokumentenmaterialien, Lösungsinhalten und strukturierten Analysedaten. Diese Daten müssen offen gelegt und gespeichert werden, normalerweise in Form von PPT, Word oder anderen Formaten. Die Wissensdaten können auf zwei Arten mit dem Modell kombiniert werden: Entweder werden sie in ein Wissensrepository aufgenommen, oder sie werden für das Modelltraining verwendet. Wenn sie für das Training verwendet werden, müssen wir den Modelltyp (z. B. Multimodal-Modell oder Sprachmodell) und die Trainingsstufe (z. B. SFT, verstärkte Feinabstimmung oder Ausrichtungs-Training) festlegen. Entsprechend sind die Datenformate, die Datenmenge und die Verarbeitungstools unterschiedlich, und es müssen Reinigungs-, Duplikatentfernungs-, Anmerkungs- und Datenschutzmaßnahmen ergriffen werden.
Wenn das Wissen in das Wissensrepository aufgenommen wird, müssen wir die Datenquelle, den Datentyp, das Aktualisierungsverfahren, die Konfliktbehandlung und die Zeitnahmemanagement berücksichtigen. Der Schwerpunkt der Verwaltung liegt auf der Analyse und Einlagerung in die Datenbank, der Indizierung und Rückruf, um sicherzustellen, dass das Wissen bei der Suche konsistent, effektiv und genau ist.
Andererseits sind es die Daten aus dem Produktionsprozess, einschließlich API-Aufrufprotokollen, Systemprotokollen und Aufgabenausführungslinks. Diese Daten werden manchmal als Material für das verstärkte Lernen des Modells verwendet, aber in den meisten Fällen werden sie als Kontextinformationen während der Echtzeit-Inferenz an das Modell weitergegeben. Hierbei müssen strenge Beschränkungen festgelegt werden, und nicht alle Daten dürfen direkt an das Modell weitergegeben werden. Insbesondere in einer Multi-Agent-Umgebung können die Daten vom Modell fehlerhaft zwischengespeichert und zwischen verschiedenen Agenten weitergegeben werden, was zu einem Datenschutzrisiko über die Zugangsberechtigungen hinaus führen kann.
Beispielsweise kann ein Finanz-Agent Unternehmensfinanzdaten erhalten und diese im Modell zwischenspeichern. Wenn ein Recruiting-Agent dann ohne Berechtigung auf diese zwischengespeicherten Daten zugreift, kann dies zu einem ernsthaften Sicherheitsrisiko führen. Daher müssen wir bei der Verwaltung der Produktionsdaten auf das Benutzerkonto-System, die Zugangskontrolle, den Datenschutz, die Datenentmischung und die Abwehr von externen Prompt-Poisoning-Angriffen achten.
Nach Abschluss dieser Verwaltungsmaßnahmen müssen wir die Modellleistung evaluieren. Die Evaluierung kann in technische und geschäftliche Indikatoren unterteilt werden. Die technische Evaluierung umfasst Genauigkeit, Rückrufrate, Antwortkonsistenz und -relevanz usw. Die geschäftliche Evaluierung bezieht sich auf Schlüsselindikatoren