StartseiteArtikel

vivo: Wie oft muss man sich selbst infrage stellen, um ein AI-Smartphone zu entwickeln?

36氪品牌2024-10-11 18:26
AI-Handy, vivo ebnet den Weg.

Obwohl sie sich drei Jahre in Folge den ersten Platz auf dem Markt für inländische Mobiltelefone gesichert hat, kann vivo immer noch nicht das Gefühl des "Nichtdazugehörens" abschütteln.

Zum Beispiel, während alle dachten, dass Smartphones kein attraktives Geschäft mehr sind und sich stattdessen auf die Entwicklung von Ökosystemen oder auf die Automobilindustrie konzentrierten, blieb vivo weiterhin auf dem Gebiet der Smartphones: Von der Bildoptimierung über das Betriebssystem bis hin zur Rückwärtsentwicklung des Chips, um AI-Fähigkeiten zu integrieren.

Erst im Oktober dieses Jahres begann vivo plötzlich, über das Thema großer KI-Modelle sowie Betriebssysteme und AI-Handys zu sprechen.

Wie definiert man ein AI-Smartphone?

Diese Geschichte hat keine großangelegte Erzählung. Auf den ersten Blick ist es eine weitere Umarmung und Erkundung neuer Technologien durch ein traditionelles Unternehmen; im Grunde genommen jedoch das beste Analysemuster eines Vorreiters, wenn es keine "Referenzantworten" mehr gibt, die zur Selbstumwälzung einladen. 

Bereits 2017 richtete vivo intern ein spezielles AI-Forschungsteam ein; "Blue Heart Xiao V" basierend auf großen Modelltechnologien und die von vivo selbst entwickelte "Blue Heart Big Model" Matrix wurden bereits 2023 eingeführt. Aber besteht die gesamte Vorstellungskraft eines AI-Handys nur darin, einen AI-Assistenten auf dem Gerät zu haben und intelligente Effekte auf Fotos hinzuzufügen, um unerwünschte Objekte zu entfernen? 

Diese Definition wäre zu opportunistisch. 

Um über diese Frage nachzudenken, durchlebte vivo eine lange Zeit des Schmerzes. 

Unter der Leitung des Vizepräsidenten Zhou Wei, verbrachte vivo im vergangenen Jahr elf Monate mit der Überlegung, was ein AI-Smartphone eigentlich darstellt. 

Probleme traten völlig unerwartet auf. Die ansonsten erfolgreiche "benutzerorientierte" Forschung brachte kaum Ergebnisse zur Frage, was ein "AI-Smartphone" eigentlich ist: Wenn Sie jemanden vor 200 Jahren gefragt hätten, wie man ein Auto schneller machen kann, hätte die Antwort wahrscheinlich einfach "kaufen Sie ein teureres Pferd" gelautet... Eine ähnliche Situation spielt sich im Zeitalter der großen Modelle erneut ab. 

Wo es keinen Weg gibt, bahne dir einen eigenen. In den sechs Monaten der Stille entschied vivo, "ein Auto von Grund auf neu zu bauen, das niemand zuvor gesehen hat".

Anfang Oktober, auf der vivo-Entwicklerkonferenz, kündigte vivo offiziell seine neue AI-Strategie – Blue Heart Intelligence – an, die eine tiefgehende Integration von großem Modell und Smartphone-Betriebssystem zu einer persönlichen Intelligenz führt. Ziel ist es, den Nutzern eine natürlichere und intuitivere Interaktion zu bieten, die eine intelligentere und herzlichere Erfahrung ermöglicht. 

Wie unterscheidet sich dieses AI + Betriebssystem von vergangenen Generationen intelligenter Alben oder Notizen? Vivo hat diesen Weg der tiefen Integration in drei Schritte unterteilt: 

Der erste Schritt ist die Erneuerung von ganz unten, um die Interaktion zu optimieren.

Intern erfolgt bei vivo vor jeder Produkteinführung eine gründliche Überprüfung und Simulation der Branchenlogik. Zhou Wei stellte dem Team die Frage: Warum konnte der Touchscreen die klassische Tastatureingabe von Nokia-Handys ablösen? 

Ein grundlegendes Logikstück lautet: Die Interaktionslogik des Touchscreens ist im Vergleich zu unterschiedlichen Tastenbedienungen auf jeden Fall einfacher; das Wischen ist flexibler und bietet mehr Möglichkeiten als die Tasten. Daraufhin entwickelte sich die Verwendung von Touchscreens von der ursprünglichen Bedienung mit den Nägeln zu einer einfacheren Interaktion mit den Fingerspitzen, um die Nutzung natürlicher und intuitiver zu gestalten. 

Von diesem Punkt aus kann das Problem weitergedacht werden: Was könnte effizienter als eine Berührung sein? Ohne Frage ist es die Stimme. Diese scheinbar abgedroschene Technologie wird, einmal in das Betriebssystem integriert, enorme Durchbrüche im Produkterlebnis bringen. 

Sprache ist jedoch anders als die weltweit einheitlichen Standards für Gestensteuerung; sie erfordert Anpassungen an unterschiedliche Sprachen und Dialekte in verschiedenen Ländern und Regionen. Dafür hat vivos Sprachmodell Kantonesisch, Sichuan-Dialekt, Nordost-Dialekt, Henan-Dialekt und sogar Miao-Sprachen angepasst, um die Mensch-Maschine-Kommunikation natürlicher und emotionaler zu gestalten. 

Nachdem die Interaktionskette verkürzt wurde, richtete vivo die zweite Initiative auf das Service-Erlebnis von Menschen und der digitalen Welt: Ein AI-Smartphone muss die Fähigkeit meistern, vom passiven zum proaktiven Handeln überzugehen. Einfacher ausgedrückt sollte ein Smartphone, das den Nutzer als digitale Begleitung am besten kennt, nicht nur passiv reagieren. 

Dieser Übergang von passiv zu proaktiv lässt sich in drei Richtungen aufdröseln: Erstens, umfassende Aufrüstung der Basisfunktionen eines Telefons mit AI-Technologie, Neugestaltung von 15 wesentlichen Funktionen wie Tastatureingabe, Telefonie, Notizen und Scannen, und Aufbau einer Plattform für öffentliche AI-Fähigkeiten; zweitens Entwurf eines verbindenden Servicestruktur und -plattform, die intelligente Plattformen für Entwickler, integrierende Entwicklung und Verteilung, sowie ein vollständiges Framework für leichtgewichtige, atomisierte Services beinhalten, so dass der Service nicht nur vom Nutzer gefunden wird, sondern gezielt auf die Nutzerbedürfnisse abgestimmt. Drittens Aufbau eines persönlichen intelligenten Systems, das das Smartphone zu einem persönlichen Assistenten macht. 

Ein Beispiel ist das "Xiao V‘s Empfehlungen", welche in Form eines Desktop-Widgets 24-Stunden proaktive Dienstleistungen bieten. Bei Reisen in eine neue Stadt, von Reiseempfehlungen bei der Abreise über Check-in-Erinnerungen beim Eintreffen im Hotel bis hin zu Stadttipps, liefert Xiao V die besten Vorschläge. 

Ein weiteres Beispiel ist "Xiao V Memory", das nicht nur die Gedanken der Benutzer versteht, sondern auch schweigend die gemeinsamen Momente speichert. Bei den täglichen Sammlungen von Artikeln und Videos ordnet Xiao V diese sorgfältig. Auf einigen Flaggschiff-Modellen verwendet Xiao V lokale Analysemöglichkeiten um die gesammelten Inhalte in einer logischeren Weise zu präsentieren. 

Darüber hinaus, kann das Handy nur die digitale Welt verbinden? Lebt nicht noch ein Verständnis dafür, dass es auch seine Verbindung zur physischen Welt durch das große Modell erweitern sollte?

Zum Beispiel die "vivo Blue Heart erweiterte Version", mit der Unterstützung von drahtlosen Kopfhörern und angepassten Kameras, die Blinden sagen kann, wo sich Shampoo, Conditioner und Duschgel befinden und wie sie ein Fahrzeug besteigen können. Zudem kann es beschreiben, was in einem Museum ausgestellt ist, was sehbehinderte Menschen dazu befähigt, die Welt um sie besser zu sehen und hören, und die Schönheit der Welt zu entdecken.

Die Technologieklinge des Drachenbekämpfers und das Schlachtfeld der alten Anwendungen

Nachdem vivov herausgefunden hat, was es tun will und was möglich ist, geht die Geschichte mit einer doppelten Erzählung weiter, die Technologie zu perfektionieren und ein Einsatzgebiet zu finden.

Auf technologischer Ebene machte vivo während der Entwicklerkonferenz 2024 vier große Bekanntmachungen bezüglich AI-Features:

Punkt eins, [Upgrade des Sprachmodells]: Die offizielle Einführung der billionenparametrischen SkyHeart-Modelle auf Cloud-Ebene zur Optimierung des Verstehens von Absichten und der Aufgabenplanung. Im Vergleich zum Vorjahr hat sich die Gesamtfähigkeit um 30% gesteigert und führt weiterhin die Top-Platzierungen der Ranglisten von CMMLU und SuperCLUE in China an. 

Punkt zwei, [Veröffentlichung des SkyHeart Stand-alone Modell 3B]: In Beantwortung des dreifachen Dilemmas der Branche "kleine Modelle mit großer Fähigkeit und geringem Energieverbrauch" veröffentlicht vivo das neue 3B-Modell mit 30 Millionen Parametern, welches auf Dialogverarbeitung, Zusammenfassung und Informationsextraktion ausgerichtet ist. Im Vergleich zum SkyHeart 7B Modell, bietet es 300% gesteigerte Spitzenleistung, Energieoptimierung im Balance-Modus um 46% und Reduzierung des Speichers um 63%, mit extremer Ausgabegeschwindigkeit von 80 Wörtern/s und Systemverbrauch von nur 450mA, sowie nur 1.4GB Speicherbelegung. 

Punkt drei, [Veröffentlichung des SkyHeart Sprachmodells]: vivo's entwickeltes Sprachmodell kann nun natürliche Sprachbedeutungen genau verstehen, Stimmungen wahrnehmen, menschliche Stimmen simulieren und bietet simultane Übersetzungen in über 15 Sprachen, darunter Chinesisch, Englisch, Koreanisch, Japanisch und Thai. 

Punkt vier, [Veröffentlichung des SkyHeart Bildmodells und des multimodalen Modells]: vivos Bildmodell wurde für chinesische Eigenheiten und orientalische Ästhetik erweitert; das multimodale Modell hat in diesem Jahr seine Kontextverständnis- und Erinnerungsfähigkeiten verbessert und kann Bildschirminhalte besser verstehen, was zu einer natürlicheren Echtzeitkommunikation bei Videostreams führt. 

Nun, wo vivo das Drachenbekämpferschwert in der Hand hält, wo sollte es einsetzen?

Vivo zieht es vor, dies als Optimierung bestehender Funktionen zu betrachten, anstatt die Handys neu zu definieren: Mehrere Jahre Produkterfahrung zeigen, dass wir heute vielleicht gewohnt und fähig an die Funktionen eines Handys sind, wie Anrufe, Nachrichten, Bildbearbeitung und Taschenrechner, aber der Weg zur Perfektion ist noch lang. 

Es ist ein neuer Kampf auf einem alten Schlachtfeld, und jetzt ist die wichtigste Arbeit, zu verstehen, auf welchen Märkten es noch großes Potenzial gibt. 

Zhou Wei erinnert sich daran, dass er jedes Jahr drei Monate zur völligen Konzentration einplant, "Wir haben über 130 Bereiche, die mit über 130 leitenden Direktoren technischer Teams korrespondieren. Jede Woche verbringe ich viereinhalb Tage in Sitzungen, um zu beantworten, wie die Kommunikation voranbringen kann, was ihre Mission ist und welche Ziele verfolgt werden sollen. Jeder Bereich wurde auf diese Weise durchgearbeitet.” 

Ein typisches Beispiel für die Optimierung existierender Funktionen ist die Suchfunktion. Das neu eingeführte Xiao V Kreis-Suchsystem ermöglicht nicht nur das Aufrufen durch ein langes Drücken der Navigationsleiste, sondern auch das direkte Herunterziehen von Bildern, Dateien und Texten für die Bearbeitung. Zusätzlich zur Sprach- und Texteingabe können Benutzer nun Inhalte, die sie erfahren möchten, durch einfaches Zeichnen mit den Fingerspitzen an Xiao V senden, um lokale Dokumente oder Dienstleistungen schnell zu finden. Ein Klick auf die Vorschau wird die Inhalte direkt öffnen. 

In puncto systemseitigen Optimierung ist das Ledger Memory-Mechanismus-Update von OriginOS 5 erwähnenswert. Da Anwendungen wie WeChat und Mobile Games zunehmend mehr Speicher belegen, wird die gängige Problemstellung vieler Nutzer, dass der Speicher knapp wird und das Gerät ins Stocken gerät, immer drängender. Herkömmliche Lösungen, wie Hardware-Erweiterungen, waren der Standard, doch nun bietet vivo als erstes im Android-Bereich das Ledger Memory-Mechanismus und hat die unfairen Scheduling-Mechanismen 3.0 sowie virtuelle Grafikkarte 2.0 weiterentwickelt. Die umfassende Optimierung der Speichernutzung, der Berechnungseffizienz und der Anzeige ermöglicht eine durchgängig flüssige Nutzung auch in schwereren Einsatzszenarien wie anspruchsvollen Mobile Games.

Nachdem wir verstanden haben, wie man beim Optimieren reduzieren kann, stellt sich die Frage, wer dies tun wird und was gestrichen werden sollte.

Ein projektbezogener Ansatz für große Modelle

Bei der Reduzierung betrachtete vivo sich selbst als einen Vorarbeiter in einem riesigen Projekt. Die Hauptaufgaben eines Vorarbeiters sind die Kommunikation und die Erstellung von Prototypen.

Der Fokus der Prototypenerstellung liegt auf dem intelligenten Körper. Zum Beispiel war die Vernetzung von Smart-Home-Geräten in der Vergangenheit mühsam und oft scheiterten due an Inkompatibilität. Um dieses Problem zu lösen, hat vivo einen intelligenten Körper trainiert, der über 4000 Klimaanlagentypen bedienen kann. So wurde die Kompatibilität und die Steuerung bei Smart Home enorm verbessert. 

Unter Verwendung dieser Proof-of-Concept wollte vivo als nächstes das Ökosystem erweitern und partnerschaftliche Kooperationen angehen. Vivos Ansatz war, sich nicht auf die Entwicklung von Anwendungen mit eingebetteten intelligenten Körpern zu beschränken, sondern auf dem Telefon eine universelle intelligente Plattform zu etablieren. 

Zwischen den Aufgaben sollte vivo sich auf Schnittstellenstandards, Kopplung und den Aufbau von Benutzungsparadigmen konzentrieren. Einfache gesagt, soll das Betriebssystem anhand einer Vorabnutzung des Nutzerintents die Anwendungen im intelligenten Marktplatz zu optimieren und mit den Benutzerwünschen zu verknüpfen, um Benutzerprobleme zu lösen und den Anwendungen helfen, Nutzer zu gewinnen.

Vivo zieht sich dabei zurück, wenn es in einem App-Bereich bereits 50 Teams gibt, die das gleiche tun: Wenn Nutzer einen musikalischen Wunsch haben, dann sollte der aufgerufene intelligente Körper nicht von vivo stammen, sondern von Musikplattformen wie QQ Musik, die etas professionelles content bieten. 

Basierend auf dieser Nutzerfrage-direktiven Partnerökosystem-freundlichen Ausrichtung hat vivo bereits gelernt, über eine Million Apps zu betreiben. 

Und wenn Quantität qualitative Änderungen fördert, passiert etwas Magisches; künstliche Intelligenz lernt verborgene App-Funktionen und Tricks, bevor der menschliche Benutzer überhaupt versteht, was die App kann, nachdem sie auf dem Telefon installiert wurde. 

Seitdem Steve Jobs die Neudefinition des Handys ausrief, sind viele Jahre vergangen. In dieser Zeit hat die globale Handybranche fortgesetzt Steves Vorstellung von "Software-Ecosystem zuerst" und "vereinfachter Berührungsinteraktion" weiterentwickelt. In diesem Prozess gab es sicherlich Wettbewerb zwischen den Unternehmen, jedoch erfolgte ein unausgesprochener karitativer Fortschritt in dieselbe Richtung.

Und an diesem Punkt, modellieren große Modelle Handys neu.

Wo früher Berührung die einzige Interaktionsmöglichkeit war und Funktionen wie der Taschenrechner unabhängig und Alben nur einfache Fotoverzeichnisse waren...all diese eingefleischten Standardpraktiken werden plötzlich umgeworfen.

Vivos Definition begann, sich selbst und den alten Verdienst zu überdenken.

Es ist unausweichlich ein langer und beschwerlicher Weg, aber Ehrlichkeit ist das einzige Ticket in die Zukunft.