Während alle KI-Firmen im Produktbereich in einem harten Wettlauf stehen, denkt diese Firma über Frontier Research nach.
Der große Erfolg von Open Claw hat AI Agent erstmals in eine reale Ingenieursumgebung gebracht.
Diesmal ist Agent nicht mehr nur eine Demo, ein Plugin oder ein dialogfähiges Tool, sondern beginnt, in Unternehmen einzudringen und kontinuierliche, komplexe und überprüfbare Arbeitsaufgaben zu übernehmen. Fast gleichzeitig wird jedoch ein reales Problem deutlich sichtbar: Wenn Agent in einen langfristig laufenden realen Arbeitsablauf eintritt, sind die Herausforderungen, denen er gegenübersteht, weit mehr als nur die Wahl der Anweisungswörter oder die Tool - Nutzung. Es geht auch um die Bereitstellungskosten, die Interaktionseffizienz und ob das zugrunde liegende Modell für die "Dauerhaftigkeit" geeignet ist.
Dies zwingt die Branche auch, sich einem tieferen Problem zu stellen, das früher oder später beantwortet werden muss -
Wenn das Ziel von Agent darin besteht, ein zuverlässiger digitaler Mitarbeiter zu werden, sollte er sich weiterhin auf der vorherigen Generation von Modellen und Interaktionsannahmen aufbauen?
In dieser Phase hat die Branche tatsächlich ein implizites Konsens gebildet: Die Probleme von Agent sollten durch schnellere Produktiterationen gelöst werden.
Kompliziertere Prompts, feinere Prozessplanungen und reichhaltigere Tool - Nutzungen werden von den meisten Teams als Standardrichtung betrachtet.
Aber aus Sicht von FlashLabs umgeht dieser Weg ein grundlegendes Problem: Wenn das zugrunde liegende Modell selbst nicht für die Langzeitlauf und die Echtzeitkooperation geeignet ist, dann ist auch die feinste Produktgestaltung nur eine Verstärkung der strukturellen Obergrenze des Systems.
Die meisten Teams wählen die Beschleunigung der Produktentwicklung auf der Grundlage der bestehenden Modellfähigkeiten, um so schnell wie möglich die Anwendungs - und Geschäftsschleife zu schließen. Einige wenige wählen jedoch einen langsameren und riskanteren Weg - Zurück zur führenden Forschung und zum Modell selbst, um die Grundannahmen von Agent neu zu überprüfen.
FlashLabs gehört zu letzterem.
01
Agent als "digitaler Mitarbeiter", nicht als Tool betrachten
Aus Sicht von FlashLabs sollte AI Agent nicht nur ein passiv agierendes Tool sein, sondern eher ein "digitaler Mitarbeiter", der ein Ziel hat, die Aufgabe selbständig aufteilen und kontinuierlich vorantreiben kann.
Diese Einschätzung basiert nicht auf kurzfristigen technologischen Trends, sondern auf der langjährigen Beobachtung des Betriebs von realen Organisationen durch den Gründer Shi Yi. In seinen jüngsten Interviews betonte er wiederholt eine Ansicht: Die Kernherausforderungen, denen kleine und mittlere Unternehmen heute gegenüberstehen, bestehen nicht mehr in der Kostensenkung an einzelnen Punkten, sondern darin, wie man die Produktivität von Schlüsselpositionen unter der Beschränkung der Organisationsgröße kontinuierlich erhöhen kann.
Unter diesen realen Umständen ist die Leistungsgrenze von AI klar erkennbar, wenn es nur die von Menschen aufgeteilten Aufgaben ausführt. Wenn Agent jedoch OKR und KPI verstehen und um das Ziel herum die Aufgabe selbständig aufteilen, ausführen und verbessern kann, dann hat es die Möglichkeit, wirklich Teil der Organisationsfähigkeit zu werden.
"Viele Agenten auf dem Markt sind im Wesentlichen immer noch passiv", sagte Shi Yi in einem Gespräch. "Sie führen Aufgaben aus, die der Benutzer bereits klar definiert und aufgeteilt hat. Wenn man Agent als Mitarbeiter betrachtet, sollte er nicht nur auf Anweisungen reagieren, sondern um das Ziel herum die Dinge selbständig vorantreiben."
Nach seiner Meinung ist die übermäßige Zurückhaltung gegenüber der Fähigkeit von Agent im Wesentlichen eine Unterschätzung des technologischen Potenzials. Wenn die Technologie bereits die Möglichkeit hat, einem "digitalen Mitarbeiter" nahe zu kommen, wird die Verzögerung der Umsetzung dieser Fähigkeit die Organisation nicht sicherer machen, sondern nur die Effizienzverluste dauerhaft festigen.
02
SuperAgent: Ein für die Langzeitlauf konzipierter Agent
Diese Einschätzung hat direkt die Gestaltungsrichtung des Kernprodukts SuperAgent von FlashLabs geprägt.
Funktionsmäßig gesehen ist SuperAgent ein unternehmensorientierter AI Agent, dessen Ziel die kontinuierliche Erfüllung komplexer Aufgaben ist, und er richtet sich an reale Arbeitsstellen wie Vertrieb, Marketing und Betrieb. Anders als die meisten Agenten wird SuperAgent von Anfang an als ein langfristig laufendes System angenommen, nicht als ein einmaliger Aufgabenausführer.
Mechanistisch betrachtet nimmt SuperAgent die Benutzereingabe nicht als einmalige Anweisung auf, sondern versteht zunächst die Absicht und beurteilt sie als ein zusammengesetztes Ziel, das möglicherweise mehrere Phasen enthält. Anschließend tritt das System automatisch in den Aufgabenplanungsprozess ein, teilt das Gesamtziel in mehrere Schritte auf und behält den Kontextstatus während der Ausführung aufrecht, um so das häufige Problem früherer Agentprodukte, dass die Aufgabe mitten im Weg abgebrochen wird, zu vermeiden.
Die Initiative ist ein weiteres Kernmerkmal von SuperAgent. Wenn das Ziel unklar oder die Schlüsselbedingungen nicht definiert sind, fragt er den Benutzer wie ein echter Kollege nach Bestätigung, anstatt basierend auf Annahmen fortzufahren. Nach Abschluss der Aufgabe gibt er auch automatisch Vorschläge für den nächsten Schritt, anstatt einfach das Gespräch zu beenden.
Der gesamte Prozess der Aufgabenaufteilung, - planung, - suche und - ausführung bleibt dem Benutzer sichtbar. Diese Gestaltung bringt SuperAgent von einem "Anweisungsausführer" zu einer Rolle, die eher einem Organisationskollegen entspricht.
Bei der Bereitstellungsmethode hat SuperAgent den Weg der Cloud - Bereitstellung gewählt, die sofort einsatzbereit ist. Dies ist in gewissem Maße auch eine direkte Reaktion auf die Branchenrealität: Wenn die Nutzung und Bereitstellungskosten von Agent zu hoch sind, ist es oft schwierig, seinen Wert in realen Geschäftsszenarien kontinuierlich zu überprüfen.
In der praktischen Nutzung hat SuperAgent seine Fähigkeiten in mehreren Arbeitsplatzszenarien bestätigt:
Im Vertriebs - und Wachstumsszenario kann er die Suche nach Leads, die Ergänzung von Daten, die Analyse des Verkaufsrohrs und die selbständige Nachverfolgung übernehmen. Im Inhalts - und Präsentationsszenario deckt er den gesamten Prozess von der Recherche, der Strukturplanung bis zur PPT - Erstellung ab. Im GTM - und Betriebsebene unterstützt er die Datenbereinigung, die Erstellung von Kundenprofilen, die Marktsegmentierung und die Trendanalyse usw.
03
Wenn Agent in den Arbeitsalltag eintritt, darf die Sprache nicht auf der vorherigen Architektur bleiben
In der gesamten Gestaltung von SuperAgent durch FlashLabs wird Sprache als eine unvermeidliche Interaktionsform betrachtet.
Shi Yi meint, dass, wenn Agent wirklich in einen realen Arbeitsablauf integriert werden soll, er nicht nur auf der Textebene bleiben darf. Vor allem in Positionen wie Kundendienst, Vertrieb und Support, bei denen die Echtzeitkommunikation im Mittelpunkt steht, ist Sprache selbst eine natürliche Arbeitschnittstelle.
Aber in der Spracherkennungsrichtung wählt die Branche weiterhin die "schnelle Route": Durch die kaskadierende Architektur von ASR - Spracherkennung, LLM - Textmodell und TTS - Sprachsynthese wird die Produktentwicklung priorisiert. Dieses Verfahren hat deutliche Vorteile in der technologischen Reife und der Inbetriebnahmeeffizienz und ist auch die Umsetzungsmethode der meisten derzeitigen Sprach - AI - Produkte.
FlashLabs hat jedoch eine gegen das Konsens gerichtete Entscheidung getroffen:
Anstatt die vorhandenen Modelle zu verpacken, sind sie zurück zum Modell selbst gegangen und haben versucht, die Grundarchitektur der Sprachinteraktion neu zu definieren.
Nach Ansicht des Teams ist das Problem der kaskadierenden Architektur nicht, dass sie "noch nicht optimal ist", sondern dass die Designannahmen selbst nicht für die Echtzeit - und Langzeit - Mensch - Maschine - Kooperation geeignet sind. Wenn Sprache am Systemeingang zwangsweise in Text umgewandelt wird, gehen Emotion, Tonfall, Pause und andere parasprachliche Informationen unvermeidlich verloren. Auch die kaskadierende Ausführung mehrerer Modelle bringt eine nicht zu komprimierende kumulative Verzögerung mit sich.
04
Chroma: Ein end - to - end - Sprachenmodell für die Agent - Ära
Basierend auf dieser Einschätzung hat das Team von FlashLabs etwa ein Jahr Zeit investiert, um das end - to - end - Sprachenmodell Chroma selbst zu entwickeln.
Chroma kann in einem einzigen Modellsystem die Sprachverstehen, die semantische Inferenz und die Sprachgenerierung durchführen, wodurch die Informationsverluste und die mehrfachen Verzögerungen, die bei der traditionellen kaskadierenden Lösung durch die Zwischentextumwandlung verursacht werden, vermieden werden. Die von ihm verwendete alternierende Scheduling - Strategie ermöglicht es dem Modell, in einer Echtzeit - Streaming - Konversation gleichzeitig Sprache und Textmarkierungen zu verarbeiten und eine end - to - end - Reaktion im Subsekundenbereich zu erzielen.
In praktischen Tests bringt diese Gestaltung mehrere deutliche Vorteile:
Zunächst kann das Modell direkt die parasprachlichen Informationen in der Sprache wahrnehmen und ausdrücken, wie Emotion, Tonfall und Pause. Zweitens kann es mit nur wenigen Sekunden Referenzaudio eine hochwertige individuelle Sprachklonierung durchführen und in mehrfachen Gesprächen konsistent bleiben. Am wichtigsten ist, dass in realen Gesprächsszenarien die end - to - end - Verzögerung von Chroma deutlich geringer ist als bei traditionellen kaskadierenden Systemen, wodurch die Sprachinteraktion näher an den natürlichen Gesprächsrhythmus herankommt.
Von dieser Perspektive aus ist Chroma kein "schnelleres Sprachenmodell", sondern eine neue Generation von Sprachinfrastruktur, die für die Langzeitlauf und die Echtzeitkooperation von Agent konzipiert ist.
05
Open Source ist die Arbeitsweise der Frontier - Forschung
Für FlashLabs bedeutet das Erreichen dieses Stadiums nicht das Ende der Forschungsstufe, sondern eher eine klarere Einschätzung:
Wenn Agent als ein Problem der Frontier - Forschung betrachtet wird, nicht als ein geschlossenes Produkt, sollten seine Kernfähigkeiten nicht nur innerhalb des Unternehmens existieren.
Innerhalb des Teams wird Chroma von Anfang an als eine "überprüfbare Forschungsannahme" betrachtet, nicht als ein Produktmodul. Die Gültigkeit des Modells hängt nicht von seiner Leistung in einem einzelnen Geschäftsszenario ab, sondern von seiner Anpassungsfähigkeit in einer komplexeren und offeneren Umgebung.
Bei der Veröffentlichung von Chroma hat FlashLabs die Modellgewichte und den Inferenzcode gleichzeitig auf den Plattformen Huggingface und Github offen gemacht.
Nach Ansicht von Shi Yi ist bei einem noch nicht festgelegten Forschungsgegenstand die Abgeschlossenheit oft eine zu frühe Festlegung von Annahmen.
Für die Frontier - Richtungen wie Agent und end - to - end - Sprachenmodell muss nicht ein einzelner Indikator überprüft werden, sondern ob die gesamte Architektur erweiterbar und langfristig gültig ist.
"Wenn Sie glauben, dass dies ein Problem der Frontier - Forschung ist, sollte es nicht nur in einem Team und unter einer Datenverteilung überprüft werden", sagte Shi Yi. "Open Source dient nicht dazu, zu beweisen, dass wir etwas richtig gemacht haben, sondern um schneller die Teile zu finden, die wir noch nicht klar verstehen."
Nach der Veröffentlichung von Chroma als Open - Source - Projekt hat die Anzahl der Downloads in der Community schnell die 10.000 Marke überschritten. Im Vergleich zu den Leistungstests konzentrieren sich die Entwickler eher auf die end - to - end - Sprachroute selbst:
- Ist diese Architektur besser für die Echtzeitinteraktion geeignet?
- Hat sie die Stabilität für die Langzeitlauf?
- Kann sie die allgemeine Sprachinfrastruktur für Agent werden?
Nach Ansicht von FlashLabs sind diese Rückmeldungen aus der realen Nutzungsumgebung selbst ein Teil der Frontier - Forschung.
Deshalb hat FlashLabs die Veröffentlichung von Chroma nicht als einmalige Aktion betrachtet.
Nach dem Plan des Teams ist die Open - Source - Strategie ein langfristiges Projekt, nicht ein vorübergehendes Ereignis.
Mit der Iteration von Chroma zur Version 2.0 plant FlashLabs, die Modellfähigkeiten, die Trainingsideen und einige Datenaufbaumethoden kontinuierlich zu öffnen und einen Plan zur gemeinsamen Erstellung eines Sprachendatensatzes in der Open - Source - Community zu starten, um so den Forschungsfortschritt des end - to - end - Sprachenmodells auf systematischerer Weise voranzubringen.
06
Eine Wahl, die auf die langfristige Obergrenze setzt
Von SuperAgent bis Chroma kann man die gemeinsame Ausrichtung von FlashLabs in Bezug auf Unternehmensstrategie und Produkt erkennen:
Im Vergleich zur kurzfristigen Monetarisierung setzt man lieber auf die Grundfähigkeiten, die die langfristige Obergrenze bestimmen.
Shi Yi definiert sich als "nativer effizienter Akzelerationsist" - er glaubt, dass der technologische Fortschritt an sich langfristigen Wert hat und dass man sich weiterhin auf die Frontier - Fähigkeiten konzentrieren sollte, anstatt zu früh von bestehenden Geschäftsmöglichkeiten oder anderen Formen eingeschränkt zu werden.
In der Phase, in der Agent noch keine einheitliche Paradigma gebildet hat, gehen die technologischen Wege, die Produktformen und die Geschäftsmodelle schnell auseinander. Einige wählen die schnelle Umsetzung auf der Grundlage bestehender Fähigkeiten, andere nehmen höhere Unsicherheiten in Kauf, um zu überprüfen, ob die nächste Generation von Grundannahmen gültig ist.
Die Wahl von FlashLabs besteht darin, die Fähigkeiten, die die zukünftige Obergrenze bestimmen, so bald wie möglich zu entwickeln, bevor Agent festgelegt ist.
Dies bedeutet einen längeren Rücklaufzeitraum, aber auch, dass man bei der endgültigen Formung der Paradigma mehr Macht hat.