StartseiteArtikel

Frühprojekt | Produktexperte mit dreifacher Hintergrunderfahrung bei ByteDance, OPPO und OnePlus, integriert Hard- und Software auf unterster Ebene, um es KI zu ermöglichen, die Welt zu verstehen

欧雪2026-04-10 09:06
Sein Visual Agent belegte den ersten Platz in der MMMU-Pro (Multimodal Understanding and Reasoning)-Evaluierung.

Autor/in | Ou Xue

Redakteur/in | Yuan Silai

In den letzten zwei Jahren war die Interaktion mit Mainstream-KI auf Eingabefelder angewiesen – die Nutzer formulierten zunächst ihre Fragen in Textform, und die KI gab dann Antworten.

Diese Art der "dialogförmigen" Interaktion ist äußerst effizient, widerspricht jedoch dem natürlichsten kognitiven Weg des Menschen. Wir lernen die Welt nicht mit "Fragen", sondern mit "Sehen" kennen.

Ein junges Unternehmen namens Chance AI, das 2025 gegründet wurde, versucht, dieses Problem zu lösen. Es hat eine andere Form von KI-Produkten vorgeschlagen – den Visual Agent (visueller Intelligenzagent), der die KI von einem "Fragen beantwortenden" Werkzeug zu einem "Welt verstehenden" System evolvieren lassen soll.

Zeng Xi, der Gründer von Chance AI, hat sowohl akademische als auch industrielle Erfahrungen gesammelt. Er hat an der Universität von Barcelona einen Doktortitel in Kognitionswissenschaft und zeitgenössischer Kunst erworben und sich mit der Frage beschäftigt, wie Menschen die Welt durch das Sehen verstehen. Nach seinem Studium ist er in die Konsumelektronikbranche gewechselt und bei OnePlus und OPPO für Produktentwicklung und Design verantwortlich gewesen. Anschließend ist er bei ByteDance eingetreten und hat im Flow-Bereich an der Entwicklung von KI-Produkten wie Doubao von Grund auf beteiligt.

Seine bisherigen Berufserfahrungen haben ihn zu der Erkenntnis gebracht, dass es ein strukturelles Problem gibt: Große Sprachmodelle sind gut darin, "Sprache zu generieren" und "Fragen zu beantworten", aber die Unterstützung, die die KI für die visuelle Urteilsbildung des Menschen in der realen Welt bietet, ist immer noch sehr begrenzt.

Im Januar 2025 verließ er ByteDance, gründete im März das Unternehmen und startete im Juli mit der offiziellen Betriebstätigkeit. Im September wurde das erste Produkt, Chance AI, ins Leben gerufen.

Chance AI nutzt die Kamera als zentralen Interaktionsanschluss. Die Nutzer können einfach die Kamera öffnen und die Gegenstände vor sich filmen, und die KI führt dann in Echtzeit visuelle Schlussfolgerungen durch.

In der praktischen Anwendung wird es häufig verwendet, um Kunstwerke bei Ausstellungen zu interpretieren, Outfits beim Einkaufen zu analysieren, Karten und Trendspielzeugversionen zu erkennen, den Hautzustand zu überprüfen sowie Menüs zu fotografieren, Pflanzen zu identifizieren und Haustiere zu beobachten. Zeng Xi hat Hard Krähe mitgeteilt, dass die meisten Anwendungsfälle von den Nutzern selbst entdeckt wurden, nicht von dem Team vorgegeben.

Chance AI wird zur Interpretation von Kunstwerken bei Ausstellungen verwendet (Bildquelle/Unternehmen)

Technisch gesehen hat sein Visual Agent in der autoritativen MMMU-Pro-Testung, die die visuelle Schlussfolgerungsfähigkeit von multimodalen Modellen misst, 86,07 Punkte erzielt und sich weltweit an erster Stelle platziert.

Im März dieses Jahres wurde Chance AI der offizielle KI-Partner von Art Central. Dies war das erste Mal, dass KI in den "Betrachtungsprozess" einer internationalen großen Kunstausstellung eingegangen ist. Vor Ort richteten die Besucher die Kamera auf die Kunstwerke, und die KI nahm in Echtzeit an der Betrachtung teil und wechselte währenddessen Gedanken.

Erstes Mal, dass KI in den "Betrachtungsprozess" einer globalen großen Kunstausstellung eingegangen ist (Bildquelle/Unternehmen)

Die Grundlage für diese Erfahrung ist das neu eingeführte "Live-Modus" – ein Echtzeit-Visuelle-Interaktionssystem. Im Gegensatz zu den bereits existierenden Echtzeit-Erkennungssystemen in der Branche kann der Live-Modus in Echtzeit-visuellen Szenarien verschiedene visuelle Intelligenzfähigkeiten wie Wissenssuche, Inhaltsvergleich, Kontextverstehen und Multifunktionssteuerung zu einem vollständigen, Echtzeit-Reaktionsfähigen Intelligenzagenten integrieren.

Anwendungsfälle des Live-Modus von Chance AI (Bildquelle/Unternehmen)

Bis jetzt hat Chance AI weltweit über 20.000 Downloads erreicht.

Zeng Xi hat angegeben, dass das Unternehmen bisher fast keine Marktplatzierungen vorgenommen hat und das Wachstum alleine durch natürliche Verbreitung erfolgt. Seine Kernnutzer sind junge Menschen unter 25 Jahren.

Bei der Erörterung der zukünftigen Pläne hat Zeng Xi gesagt, dass das wichtigste Ziel für 2026 eine größere Expansion unter der Studentenbevölkerung in Nordamerika ist. Dies ist jedoch keine traditionelle Marktforschung, sondern eine Tiefeinbindung in die Nutzergemeinschaft, um die echten Anwendungsfälle der Jugendlichen zu entdecken.

Im Gegensatz zu reinen KI-Anwendungs-Entrepreneuren hat dieser aufeinanderfolgende Unternehmer mit Hintergrund in der Hardware-Branche von Anfang an "Hardware-Software-Integration" in seinen Produktplan aufgenommen. Zeng Xi ist der Meinung, dass die zukünftige Hardware-Form für ihr Produkt eine Kamera sein sollte, die alle visuellen Informationen eines Menschen aufnimmt.

Wir haben Zeng Xi interviewt und über seine Ansichten zur Branchenentwicklung und Technologie-Richtung gesprochen.

Im Folgenden einige Auszüge aus dem Interview:

Hard Krähe: Viele KI-Produkte haben derzeit visuelle Fähigkeiten. Wo liegt der unterschiedliche Vorteil von Chance AI?

Zeng Xi: Ich denke, es wird in Zukunft schwer sein, dass ein einziges KI-Unternehmen dominiert. Die Branche wird sich aufteilen. Wir haben uns entschieden, uns auf die visuelle Domäne zu spezialisieren, weil es noch nicht viel Aufmerksamkeit darauf gibt, aber es wird in Zukunft zum Mainstream werden.

Unsere Wettbewerbsvorteile liegen nicht in der Stärke des Modells, sondern in der Geschwindigkeit der Interaktion mit den echten Nutzern. Heute machen die von uns selbst entwickelten Funktionen weniger als 20 - 30 % aus, der Rest wurde uns von den Nutzern mitgeteilt – Hautanalyse, Menüerkennung, Kartenidentifizierung, Kritik... Um dies zu erreichen, müssen Sie sich den Nutzern so nahe wie möglich nähern. Wir haben einmal in sechs Stunden die Anforderungen einer New Yorker Universitäts-Club für Trendkultur erfüllt, damit sie bestimmte Karten identifizieren konnten. Das können Google oder OpenAI nicht.

Hard Krähe: Derzeit gibt es keine bezahlten Inhalte in der APP. Wie sieht das zukünftige Geschäftsmodell aus?

Zeng Xi: Wir haben derzeit drei Richtungen. Erstens, die Abonnement von Premium-Funktionen, das ist unser Plan für dieses Jahr. Wir haben gute technische Fähigkeiten und können die Kosten niedrig halten, also haben wir keine dringende Notwendigkeit, zu bezahlen. Zweitens, die Hardware-Lizenzierung. Wir unterhalten uns mit einigen Hardware-Herstellern. Sie haben es schwer, Zeit für die Entwicklung von Produkten über der Modellschicht aufzuwenden, das ist unser Spezialgebiet. Drittens, die Werbung, aber wir werden sehr vorsichtig sein. Für uns hat die Priorität, die Nutzergewohnheiten zu bilden, die höchste Priorität – die Nutzer sollen es sich angewöhnen, alles, was sie sehen, zu fotografieren. Wenn Sie ein Einstiegsprodukt werden, werden sich die Geschäftsmöglichkeiten von selbst ergeben.

Hard Krähe: Werden Sie selbst Hardware herstellen? Wann ungefähr?

Zeng Xi: Das hängt von der Branchenlage ab. Wenn wir feststellen, dass die Lieferkette reif ist, werden wir unbedingt hineinspringen. Aber wichtiger ist, dass wir nicht einfach nur aus dem Grund Hardware herstellen, um Hardware zu haben.

Unser Kern ist die visuelle Schlussfolgerungsfähigkeit, und der Live-Modus ist nur eine Darstellung dieser Fähigkeit. Wir glauben, dass die zukünftige tragbare KI-Hardware eine Kamera sein muss, die alles aufnehmen kann, was Sie gerade sehen, und Ihnen dann die nächsten wertvollen Aktionen vorschlägt. Dies ist der wesentliche Unterschied zu allen bestehenden Produkten – unser Ausgangspunkt ist nicht ein Eingabefeld, sondern das "Sehen".