Den 3B-End-Seiten-Großmodell ins Handy packen, vivo veröffentlicht auch ein intelligentes System, das an das Handy angepasst ist | Frontline
Autor丨Qiu Xiaofen
Redaktion丨Su Jianxun
Am 10. Oktober fand die Vivo Entwicklerkonferenz 2024 (ODC) im Shenzhen International Convention and Exhibition Center statt. Diesmal zeigte Vivo ihre neuen Fortschritte im Bereich der großen Modelle.
In den letzten zwei Jahren lag der Schwerpunkt der Vivo Entwicklerkonferenz stark auf KI. Der Direktor des Vivo AI Global Research Institute, Zhou Wei, sagte gegenüber den Medien, darunter 36Kr, dass Vivo in den sechs Jahren, in denen sie in KI investierten, über 23 Milliarden RMB in KI investiert hat.
Auf der Entwicklerkonferenz im letzten Jahr stellte Vivo die BlueMind-Modellmatrix vor, bestehend aus fünf Sprachmodellen mit Parametern im Bereich von Milliarden, Dutzend Milliarden und Hundert Milliarden. Wenn Vivo im letzten Jahr bei großen Modellen noch das Streben nach "groß und umfassend" verfolgte, lag der Schwerpunkt von Vivo in diesem Jahr nach einem Jahr der Konsolidierung mehr auf der Implementierung von KI und ihrer Kombination mit realen Szenarien.
BlueMind Modellmatrix
Edge-Side-Modelle passen natürlich zu Mobilgerätesituationen und sind der Schwerpunkt des KI-Teils dieser Entwicklerkonferenz. Diesmal stellte Vivo das BlueMind Edge-Side-Modell mit 3 Milliarden Parametern (nachfolgend "BlueMind 3B") vor, während Mobiltelefonhersteller normalerweise Modelle mit 6B, 7B Parametern verwenden.
Zhou Wei erklärte, dass in der Vergangenheit die Branche eine obsessive Bestrebung nach einer Größenobergrenze bei großen Modellen hatte. Jedoch ist das übermäßige Streben nach großen Endparametern bedeutungslos, da es den begrenzten Speicherplatz und Batterie von Mobiltelefonen beansprucht und keinen echten Nutzen bringt. Das Vivo-Team fand heraus, dass ein 3B-Modell die geeignetste Parametergröße für Anwendungen auf Mobiltelefonen ist.
Laut der Präsentation sind die Fähigkeiten von "BlueMind 3B" in den Bereichen Gespräch, Schreiberstellung, Zusammenfassungen und Informationsentnahme fast mit 7B-9B-Modellen der Branche vergleichbar. Vivo präsentierte eine Reihe von Parametervergleichen – im Vergleich zu BlueMind 7B hat BlueMind 3B eine um 300% gesteigerte Leistung, eine um 46% verbesserte Energieeffizienz und nur 1.4 GB Speicherverbrauch.
Allerdings besteht die "BlueMind-Modellmatrix" von Vivo nicht nur aus Edge-Side-Modellen. Vivo präsentierte auch Upgrades für andere Modelltypen (Sprache, Bild, Multimodal).
Zum Beispiel basiert das neue Sprachmodell von Vivo nun auf einem Cloud-basierten Modell im Bereich von Hunderten von Milliarden. Vivo hat die Fähigkeiten zur Intentionserkennung und Aufgabenplanung im Vergleich zum letzten Jahr stark verbessert, mit einer gesamtfähigkeitssteigerung um 30%;
Vivos neues BlueMind-Sprachmodell stärkt die Fähigkeit, natürliche Sprache präzise zu verstehen und menschliche Stimmen zu simulieren;
Vivos BlueMind-Bildmodell fokussiert sich in diesem Jahr auf die Stärkung der orientalischen Ästhetik und chinesischen Besonderheiten;
Das BlueMind-Multimodal-Modell verbessert seine visuellen Verständnisfähigkeiten.
Zhou Wei erklärte, dass die Kosten für die Nutzung der Cloud-basierten Modelle auf Mobiltelefonen jetzt auf "weniger als einen Cent pro Abruf" gesunken sind.
Kostenreduktion ergibt sich nicht nur aus sinkenden Cloud-Kosten, sondern auch durch Vivos andauernde Förderung der weitverbreiteten Nutzung auf Endgeräten. "In diesem Jahr haben wir mehrere Dutzend Funktionen auf Endgeräte übertragen, und in Zukunft könnten alle Funktionen wie Chatten, Erkennen, Entscheiden und Ausführen komplett auf Endgeräte verlagert werden."
Bis jetzt deckt Vivos KI-Fähigkeit über 60 Länder und Regionen weltweit ab, bedient über 500 Millionen Mobilgerätenutzer und hat über 3 Billionen Modell-Tokens ausgegeben.
Doch all diese Upgrades bei großen Modellen legen die Grundtechnologie fest, aber um Benutzer das wahrnehmen zu lassen, ist eine weitere Produktisierung erforderlich. Auf dieser Entwicklerkonferenz setzte Vivo die BlueMind-Modelltechnik als Basis für die Entwicklung des intelligenten Mobilgeräts "PhoneGPT" um.
PhoneGPT
In der Demonstration zeigte dieses intelligente Gerät eine neue Art der Interaktion zwischen Benutzer und Mobilgerät. Basierend auf Vivos Sprachinteraktion "BlueMind XiaoV" können Benutzer Bildschirminterfaces erkennen und Audiodaten direkt übernehmen, um autonome Dialoge zu führen und die vom Benutzer festgelegten Aufgaben wie Tischreservierungen oder Kaffee-Bestellungen auszuführen.
Die Umsetzung von KI auf Mobilgeräten benötigt die Unterstützung leistungsstarker Betriebssysteme. Vivo erkundet auch die Tiefenintegration von KI und OS basierend auf der BlueMind-Modelltechnik. Auf dieser Entwicklerkonferenz stellte Vivo das neue Betriebssystem "OriginOS 5" vor.
Zhou Wei erklärte, dass die Neugestaltung des Betriebssystems eine komplette Neugestaltung der Interaktion und digitalen Serviceerfahrung umfasst.
In der Interaktionserfahrung können Benutzer mit "OriginOS 5" durch einfaches Drücken Kopier- oder Drag-and-Drop-Funktionen ausführen, um ihren Multi-Tasking-Bedarf zu erfüllen. Das System unterstützt auch neue Dialekte wie die der Miao- und Zhuang-Ethnien.
Im Bereich der digitalen Serviceerfahrung führte Vivo die neue "XiaoV-Kreis-Suchfunktion" mit Unterstützung durch die BlueMind-Multimodal-Modelltechnik ein.
Laut Vivo können Benutzer auf Grundlage der vorhandenen Textsuchfunktionen durch die Kombination von Bilderkennung und Kreisinteraktionen Objekte präzise suchen und eine bequemere "Kreis-und-Suchen" Methode bieten.
OriginOS 5 hat auch die "atomic island" Funktion neu gestaltet. Abgesehen von Benachrichtigungsfunktionen kann die Intentionsdetektionsfähigkeit von "XiaoV" Benutzeranforderungen analysieren, identifizieren und proaktiv nachfolgende Dienste anbieten.
Ende