Eine Start-up-Firma hat ein bahnbrechendes Modell entwickelt, das mit GPT-4o vergleichbar ist.
"Hallo, ich bin Arki."
Auf der Bund-Konferenz im September dieses Jahres war der Ausstellungssaal "Wohnzimmer der Zukunft" zeitweise dicht gedrängt, insbesondere vor einem AI-Begleitroboter namens "Arki", bei dem die Kinder immer wieder die Kante des Standes streichelten und den Namen Arki riefen. Die Kinder waren so fasziniert, weil die Interaktion mit Arki sehr reibungslos verlief.
Obwohl Arki ein AI-Roboter ist, verfügt er über eine "hohe emotionale Intelligenz", kann Benutzer "sehen" und reagiert schnell, wodurch die Interaktion so einfach und geschmeidig ist wie das Gespräch mit einem echten Menschen. Dies stellt eine vollständige Innovation im Vergleich zu bisherigen AI-Anwendungen im Inland dar. Der Grund dafür ist das integrierte ArkModel 2.0 mit Audio-Video-Multimodalität.
Vor dem diesjährigen Nationalfeiertag wurde GPT-4o offiziell eingeführt, und seine erweiterten Sprachfunktionen wurden lange erwartet. Derzeit sind sie jedoch nur für Plus- und Team-Nutzer verfügbar, kostenlose Nutzer haben keinen Zugriff. Die Realtime API von GPT-4o wurde während des Feiertags veröffentlicht, aber die Einschränkungen sind offensichtlich: keine Video-Dialogfähigkeit, hohe Kosten (7 RMB/min), keine anpassbare Stimme, viele sprachliche Illusionen.
Aus Sicht der Erfahrung kann das ArkModel von Wujie Fangzhou bereits die extrem niedrige Latenz der AI-Audio-Video-Interaktion von GPT-4o problemlos erreichen. Neben der Möglichkeit, Benutzer zu sehen und schnell auf emotionale Anfragen zu reagieren, haben wir auf Basis des ArkModel auch Fähigkeiten gesehen, die GPT-4o noch nicht besitzt, wie: das Modell kann 3D-virtuelle Avatare steuern und die Bewegungen von Hardware-Robotern, was in der Interaktion weitere Innovationen bietet.
Wer steckt hinter dem Entwicklungsteam? Welche Überraschungen bietet das ArkModel?
01 Nur ein Jahr nach Gründung, gleich ein Volltreffer
36Kr hat erfahren, dass das Entwicklungsteam hinter dem ArkModel eine aufstrebende Firma ist, die erst seit einem Jahr existiert — Wujie Fangzhou Intelligent Technology Co., Ltd. (nachfolgend "Wujie Fangzhou" genannt).
Der Gründer und CEO Dr. Zeng Xiaodong ist ein erfahrener Experte im Bereich der NLP-Verarbeitung natürlicher Sprache, mit über 15 Jahren Erfahrung in der Algorithmusforschung und Anwendung. Er war Gutachter und Vorsitzender mehrerer Konferenzen und Zeitschriften in den Bereichen maschinelles Lernen, natürliche Sprachverarbeitung und künstliche Intelligenz. Er war zudem der leitende algorithmische Wissenschaftler des ersten maschinellen Übersetzungssystems von Alibaba und Mitbegründer des Ant Technology Lab. Nach Angaben wurde Dr. Zeng Xiaodong bereits 2017 während seiner Tätigkeit bei der Ant Group als einer der MIT TR35 unter 35-jährige Technologie-Innovatoren ausgezeichnet. Bemerkenswert ist auch, dass Yang Zhilin, Gründer und CEO von Dark Side of the Moon, in diesem Jahr ebenfalls in die Liste aufgenommen wurde.
Die Gründungsmitglieder des Teams von Wujie Fangzhou stammen alle aus der ersten Reihe der AI-Geschäftsbereiche namhafter Unternehmen im In- und Ausland. 80 % des Technik-Teams sind Doktoranden im Bereich NLP mit langjähriger Erfahrung in NLP, maschineller Übersetzung und IoT-Hardware. Die Verantwortlichen für Produkt und Design sind erfahrene Strategen für Benutzererfahrung, die zahlreiche internationale Auszeichnungen wie den Red Dot Award, den iF Award und den Global Gold Trend Award gewonnen haben.
Unter den vielen AI-Startup-Unternehmen hat sich Wujie Fangzhou, obwohl es erst etwas über ein Jahr alt ist, in vielen Bereichen selbst bewiesen und Anerkennung bei erstklassigen Wettbewerben und Ranglisten erhalten.
Auf der diesjährigen WAIC schaffte es Wujie Fangzhou unter über 200 weltweit führenden AI-Unternehmen ins Finale des Global Innovation Contest und belegte schließlich den fünften Platz weltweit. Anschließend wurde Wujie Fangzhou in die Liste der 200 potenziellen Unternehmen des "Hurun Future Star 2024" aufgenommen.
Was für Produkte und Technologien sind erforderlich, um solch ein Maß an Anerkennung und Aufmerksamkeit auf dem Markt zu erreichen?
Wie bei einigen öffentlichen Veranstaltungen zu sehen, sind die Produkteffekte des ArkModel von Wujie Fangzhou bereits sehr beeindruckend.
Mit dem Update auf Version 2.0 hat das ArkModel von Wujie Fangzhou jetzt noch stärkere Fähigkeiten — es bietet extrem niedrige Latenz + Audio-Video-Multimodalität + emotionale Ausdrucksmöglichkeiten + Mehrsprachigkeit + Ansteuerung von Hardware. Wie Desktop-Roboter Arki demonstriert, kann es Benutzer in Echtzeit sehen, Älteren helfen, die medikamentöse Anwendung zu verstehen, und sich mit Kindern in der Sprachentwicklungsphase unterhalten.
Aus mehreren Perspektiven lässt das ArkModel von Wujie Fangzhou AI intelligenter erscheinen wie echte Menschen.
02 ArkModel von Wujie Fangzhou, lässt AI-Interaktion menschlicher wirken
GPT-4o hat eine Welle von Echtzeit-Multimodalität ausgelöst, die von Modellherstellern weltweit weiterentwickelt wird.
Doch derzeit ist es den großen Unternehmen noch nicht gelungen, die Interaktion vollständig zu revolutionieren, da einige technische Herausforderungen wie extrem niedrige Latenz, abrupte Dialogunterbrechung, Sichtbarkeit des Benutzers im Video-Chat und emotionaler Ausdruck noch ungelöst sind. Dies bedeutet, dass die in der Entwicklung befindlichen multimodalen Modelle nach dem Vorbild von GPT-4o nach wie vor unvollständig sind und momentan noch keine API- oder SDK-Dienste angeboten werden können.
Ein Brancheninsider sagte zu 36Kr: "Die großen Unternehmen konzentrieren sich mehr darauf, die niedrig hängenden Früchte der Fähigkeiten generischer Modelle zu pflücken, wie ASR-Spracherkennung, LLM-Sprachmodelle, TTS-Sprachausgabe etc. Start-ups müssen jedoch über eigene Forschungs- und Entwicklungsfähigkeiten verfügen, um Durchbrüche in vertikalen Bereichen und Szenarien zu erzielen," erklärte er.
Wenn die großen Unternehmen darauf abzielen, dass das Fass des Modells keine groben Mängel aufweist, will Wujie Fangzhou als eine lange Planke oder ein dringend benötigtes Teil fungieren.
Durch die Nutzung des ArkModel von Wujie Fangzhou entdeckten wir, dass es eine Reihe bemerkenswerter Vorteile bietet, darunter echte Audio-Video-Multimodalität, extrem niedrige Latenz, emotionalen Ausdruck und Personalisierung. Diese Eigenschaften führen zu einem herausragenden Nutzererlebnis, ohne Kosten und Barrieren, da die Interaktion fast wie ein Gespräch mit echten Menschen ist.
Um die Vorteile des ArkModel von Wujie Fangzhou klar zu veranschaulichen, haben wir ein Diagramm erstellt:
Das ArkModel 2.0 von Wujie Fangzhou ist ein multimodales Ende-zu-Ende-Modell, das gleichzeitig Text-, Audio- und Bilddaten verarbeiten und die Umwandlung von Aufgaben zwischen verschiedenen Modalitäten ermöglichen kann. Konkret empfängt das Modell verschiedene Eingabeformate, wobei Audio durch einen Audio-Encoder und Bilder durch einen Bild-Encoder kodiert werden, die kodierten Informationen werden im ArkModel einheitlich verarbeitet. Das Modell sagt den nächsten Token voraus, um den Output zu generieren, was eine Echtzeitausgabe von Text oder Audio ermöglicht.
Ein bemerkenswertes Merkmal des Modells ist sein Ende-zu-Ende-Optimierungsansatz, der der direkten Lernverarbeitung vom Eingang bis zum Ausgang betont. Die synthetisierten Daten sind der kritische Faktor im Optimierungsprozess, hauptsächlich zur Generierung von großangelegten Trainingsdaten, wie Text- und Sprachgenerierung aus Bildern oder Tönen, Sprachausgabe von Text etc. Diese Methode verbessert die Generalisierungsfähigkeit und die Aufgabenanpassung des Modells erheblich.
In mehreren multimodalen Bewertungen übertrifft es GPT-4o und weitere bekannte Modelle der Branche:
Wie im Diagramm zu sehen, weist das ArkModel von Wujie Fangzhou 5 signifikante Vorteile auf: (Die folgenden Videos sind Echtaufnahmen, ohne Nachbearbeitung)
• Vorteil 1:
300 ms ultraniedrige Latenzreaktion, nicht nur bei stimmlichen, sondern auch bei audio-visuellen Interaktionen. In der aktuellen Marktlandschaft in China gibt es praktisch keine Konkurrenz;
• Vorteil 2:
Fähigkeit zur Audio-Video-Multimodalität, kann Benutzer "sehen", Konversationen jederzeit unterbrechen und verfügt über Schlussfolgerungsvermögen;
• Vorteil 3:
Reiches Emotionssystem, natürliche Interaktion ohne KI-Gefühl, besonders geeignet für Begleitungsszenarien;
• Vorteil 4:
Mehrsprachige Fähigkeiten, derzeit in 21 Sprachen verfügbar, einschließlich Portugiesisch, Japanisch, Arabisch, Kantonesisch etc.;
• Vorteil 5:
Kann virtuelle Avatare und Bewegungen von Hardware steuern, um eine inkorporierte Intelligenz zu erreichen.
03 Auf den AI-Begleitbereich abzielend, ArkModel von Wujie Fangzhou offen für Zusammenarbeit
Der 2013 erschienene Science-Fiction-Film "Her" brachte die Geschichte der Liebe zwischen Mensch und KI auf die Leinwand, eine damals noch verrückte Idee, die durch das Aufkommen der großen Modelle fast Wirklichkeit wird.
Als die Sprachfunktion von GPT-4o im August dieses Jahres erstmals vorgestellt wurde, riefen einige Leute erstaunt, dass die GPT-Version von "Her" angekommen sei, und die ersten Testanwender waren begeistert über die Möglichkeit einer in Echtzeit emotional reichen Interaktion. Danach jedoch fiel der Markt in eine kurze Stille.
Ein Branchenexperte äußerte: "Solange die Technologie von GPT-4o-ähnlichen Modellen nicht für alle verfügbar ist, ist der Markt weit von einem echten Ausbruch entfernt."
Dr. Zeng Xiaodong wurde eingeladen, auf der diesjährigen Bund-Konferenz über die Kommerzialisierung von AI-Agents zu sprechen. Solche Agents, die tiefes Verständnis für Benutzerbedürfnisse zeigen, können AI wirklich in jedes Zuhause bringen.
In den Augen der Nutzer kann es ein intelligenter Lautsprecher, eine sprechende Spielzeugfigur, ein interaktiver Spielzeughund für Kinder oder ein fahrzeugbegleitender Roboter sein.
Dies ist die Vielfalt an Szenarien, die Wujie Fangzhou anstrebt. Das ArkModel ist bereits in der Lage, die Interaktionsfähigkeiten von GPT-4o zu erreichen und weitere einzigartige Vorteile zu entwickeln, wie: gleichzeitig eine extrem niedrige Latenz bei Audio-Video-Interaktionen zu bieten und virtuelle Avatare sowie physische Hardware-Bewegungen in Echtzeit steuern zu können. Dies bedeutet, dass die Modellfähigkeiten in den Szenarien verkörperter Intelligenz, virtueller digitaler Menschen oder IP-Avatare freundlicher und leistungsfähiger sind.
Laut 36Kr ist das ArkModel von Wujie Fangzhou nun für externe Kooperationen offen und derzeit das einzige Unternehmen in der Branche, das Interaktion auf Basis von Audio- und Video-Modellen anbietet. Die wichtigsten Anwendungsbereiche sind Bildungsinteraktion, intelligente Spielzeuge, Fahrzeugbegleitung, verkörperte Intelligenz, kulturelle und touristische Präsentationen sowie individuelle Lösungen für Kinder, Senioren, Studenten und Büroangestellte.
Zum Beispiel, im derzeit beliebten Bereich der Bildungsbegleitung kann AI die traditionelle Lernweise verändern. Laut 36Kr erkunden mehrere Bildungseinrichtungen die Kombination von AI in ihrer Arbeit. Beispielsweise kann AI das Erleben eines realen Offline-Unterrichts simulieren und eine sehr realistische 1-zu-1 Lehrer-Student-Beziehung schaffen. Ein Hauch von Interaktion ermutigt Lernende dazu, effizienter zu kommunizieren und Wissen zu absorbieren. Darüber hinaus konzentrieren sich derzeitige frühe Lernprodukte für Kinder auf Geschichtenerzähler, aber über das Vorlesen von Geschichten und Büchern hinaus müssen sie eine Fragedialog-Interaktion ermöglichen, die keine Verzögerung kennt und den Kindern hilft, ihre Sprachfähigkeiten während ihrer entscheidenden Entwicklungsphase zu fördern. In diesem Sinne stellt das ArkModel von Wujie Fangzhou eine perfekte Anpassung dar.
Eine weitere beliebte Anwendungskategorie sind intelligente Spielzeuge. Bisherige Produkte, basierend auf alter AI-Technologie, waren oft schwierig zu bedienen (z.B. erforderte jede Interaktion einen Knopfdruck), reagierten langsam und erlaubten keine natürliche Konversation, was zu kurzen Nutzungszeiten und schlechter Bindung führte. Daher sind intelligente Spielzeuge, IP-Kreationen, Star-Merchandising, Boxen für digitale Menschen und virtuelle Haustiere eine ausgezeichnete Kombination mit dem ArkModel von Wujie Fangzhou.
Darüber hinaus können auch Fahrzeugbegleitung, verkörperte intelligente Roboter, kulturelle und touristische Präsentationen auf Basis des ArkModel von Wujie Fangzhou in Echtzeit Audio-Video-Interaktionen erreichen und die Benutzererfahrung grundlegend modernisieren, was zu einem Wachstum des Geschäfts führen kann.
04 Ist das Ende des AI der AI-Agent?
Obwohl viele Modellanbieter zu Beginn des Jahres Aussage gemacht haben, dass dies das Jahr des AI-Anwendungsbooms in China sei, kam die Entwicklung aufgrund der begrenzten Kapazität der Modelle ins Stocken und befindet sich momentan in einer Durststrecke. Auch auf dem nordamerikanischen Markt überlegen Investoren derzeit, inwieweit sich die Investition in AI lohnt.
Die Research-Abteilung von Everbright Securities betont, dass AI-Agents der Schlüssel sind, den Flaschenhals in der Entwicklung von AI-Anwendungen zu durchbrechen. Die neuen Scaling Laws, RL+CoT sind entscheidend, um AI-Agents mit Planungsfähigkeiten zu realisieren.
Das Team von Wujie Fangzhou verfolgt unermüdlich AI-Agent-Technologien und Produkte, weshalb sie zwei Hauptwege gewählt haben: einerseits die B2B-Lösung für ernsthafte vertikale Industrien wie die Bio-Pharmazie, andererseits die Entwicklung von Consumer-orientierten Begleiter-Agents.
Was ist die wahre Grundlage der Zugangsschranke zur allgemeinen Intelligenz, die menschliche Nutzung von AI zu senken? Ein Bericht von Huatai Securities geht davon aus, dass GPT-4o bereits erste Agentenfähigkeiten aufweist und AI-Agenten das Fundament sind, um den Zugang zu allgemeiner Intelligenz zu schaffen und die Mensch-Maschine-Schnittstelle wirklich zu revolutionieren. Dies ist tatsächlich auch die größte Fähigkeit, den Unterschied von Big Models einzuführen.
Vielleicht träumt jeder Entrepreneur, der in das Gebiet der AI eintritt, davon, die Welt mit AI zu verändern. Aber alle Träume müssen verwirklicht werden, um ihren Wert zu zeigen und zu materialisieren.
Dies ist auch der entscheidende Punkt des Teams von Wujie Fangzhou - sie verließen große Unternehmen, verließen ihre Komfortzonen, um in einem Konkurrenz neuen, aber auch aussichtsreichen Bereich voranzukommen. Dr. Zeng Xiaodongs ultimative Vision ist, im Bereich der Lebenswissenschaften und der Menschheit einen bedeutenden Beitrag zu leisten. "Er wollte mit seiner Expertise im Bereich AI seine Technologien den menschlichen Belangen zur Verfügung stellen, und deshalb entschloss er sich, als die AI-Welle auftauchte, zu gründen," so ein Geschäftspartner von Dr. Zeng Xiaodong gegenüber 36Kr. Im Moment ist der Wettbewerb um die führende Rolle im Bereich der großen Modelle bereits in einer weiterentwickelten Phase angelangt, wo nur die wirklichen Wertschöpfer den Weg zu den Finale machen werden.
Dieser Artikel stammt vom offiziellen WeChat-Account von "36Kr" , veröffentlicht mit Genehmigung von 36Kr.