Kann Jeder auf Lokalen KI Zugreifen? Smartphone-Test im Unteren Preissegment Liefert Enttäuschendes Ergebnis

Das Generieren dauert fünf Minuten. Lokale KI wird bestimmt nur für Flaggschiffprodukte reserviert.

Im April dieses Jahres hat Google das neue Open-Source-Großmodell Gemma 4 vorgestellt. Diesmal wurden auf einmal vier Versionen in verschiedenen Spezifikationen herausgebracht, die von Mobiltelefonen bis hin zu Workstations vollständig abdecken. Die zwei kleinsten Versionen sind speziell für Mobilgeräte konzipiert und zeichnen sich durch die Möglichkeit aus, vollständig offline zu funktionieren. Eigentlich ist das nicht sonderlich bemerkenswert, aber das Wichtigste ist, dass Google dieses Mal daran interessiert ist, lokale Modelle auf Mobiltelefonen laufen zu lassen.

Vielleicht habt ihr bereits viele Inhalte über die Tests der Implementierung von Gemma 4 gesehen. Die meisten der vorhandenen Online-Tests wurden jedoch auf den neuesten iPhone-Modellen oder High-End-Smartphones durchgeführt. Diese High-End-Smartphones sind sowieso die neuesten Modelle, und ihre Leistung und Rechenkapazität gehören zur Spitzengruppe. Es ist also nur logisch, dass sie gute Ergebnisse erzielen.

Da frage ich mich natürlich sofort: Wenn man ein gewöhnliches Android-Smartphone im Preisbereich von einigen hundert bis etwa tausend Yuan benutzt, das über einen Mittelklasse-Prozessor und keine Spitzenrechenkapazität verfügt, kann man das lokale Modell dann noch ordnungsgemäß nutzen? Wie groß ist der Unterschied im Vergleich zu diesen High-End-Smartphones?

(Bildquelle: Aufnahme von Lei Technology)

Wenn man tiefer in die Materie eindringt, ist die lokale KI vielleicht nur ein exklusives Feature für High-End-Smartphones? Wir wollten diese Frage klären und haben daher ein Android-Smartphone im Preisbereich von etwa tausend Yuan mit einem Mittelklasse-Chip genommen, um Gemma 4 zu testen und zu sehen, wie es sich verhält.

Ein Smartphone im Preisbereich von etwa tausend Yuan und ein lokales Modell? Ein Desaster!

Das Smartphone, das wir für diesen Test benutzt haben, ist das vivo Y500 Pro, ein typisches Android-Smartphone im Preisbereich von etwa tausend Yuan. Obwohl es kein altes Modell ist, ist die Gesamtleistung des SoC eher durchschnittlich. Das liegt natürlich am Preis, und es gibt da nicht viel zu sagen. Es ist mit einem MediaTek Dimensity 7400 ausgestattet, einem Prozessor in 4-nm-Technologie von TSMC, mit einer CPU-Konfiguration von 4 Großkernen mit 2,6 GHz und 4 Kleinkernen mit 2,0 GHz. Die GPU ist eine Mali - G615 MC2.

Diese Konfiguration ist für den Preisbereich von etwa tausend Yuan durchschnittlich gut. Es gibt keine Probleme im täglichen Gebrauch. Aber wenn man die Rechenkapazität mit den aktuellen High-End-Chips vergleicht, ist es einfach kein Vergleich. Im Bereich KI verwendet der Dimensity 7400 die MediaTek NPU 655, die laut Hersteller um 15 % leistungsstärker als die Vorgängerversion ist.

Google hat für die Mobilversion von Gemma 4 eine App namens Google AI Edge Gallery entwickelt. Man kann sie einfach im App-Store suchen und herunterladen. Nachdem man die App heruntergeladen und geöffnet hat, wählt man Gemma 4 E4B aus und wartet, bis die Modell-Datei heruntergeladen ist. Dann kann man direkt loslegen. Der gesamte Prozess läuft offline. Man braucht kein Internet und muss keine Konfigurationen vornehmen. Google hat sich bei der Installation wirklich Mühe gegeben. Also los geht's mit dem Test.

(Bildquelle: Grafik von Lei Technology)

Als erste Frage haben wir eine sehr alltägliche gestellt: Empfehle drei Filme, die man gut auf einer langen Hochgeschwindigkeitszugfahrt anschauen kann, und begründe deine Empfehlungen. Gemma 4 hat "Forrest Gump", "Inception" und "La La Land" empfohlen. Die Filmauswahl ist an sich in Ordnung, alle drei Filme sind Klassiker, und die Begründungen sind auch plausibel. Das Problem ist jedoch, dass es eine Antwort von fast 500 Wörtern gegeben hat und zusätzlich noch einen "Tipp" beigefügt hat, wie etwa, beim Anschauen von Filmen im Zug Ohrenhörer zu benutzen.

(Bildquelle: Grafik von Lei Technology)

Auf dem vivo Y500 Pro hat es 2,8 Minuten gedauert, um diese 500 Wörter auszugeben. Ehrlich gesagt, habe ich erst am Ende bemerkt, dass der zweite Teil der Antwort eigentlich überflüssig war.

Dies ist ein häufiges Problem bei Modellen mit wenigen Parametern. Sie wissen oft nicht, wann sie aufhören sollen, und fügen manchmal "Ratschläge" hinzu, um die Anzahl der Wörter zu erhöhen. Wenn man die Antworten genauer liest, merkt man, dass man eigentlich alles in ein paar Sätzen zusammenfassen könnte.

Als nächstes haben wir eine klassische mehrstufige logische Rätselfrage gestellt: Fünf Personen sitzen in einer Reihe. A sitzt nicht ganz links. B sitzt rechts von C. D sitzt links von E. E sitzt nicht ganz rechts. Wer sitzt in der Mitte? Obwohl das Modell sehr eifrig die Bedingungen Schritt für Schritt aufgeschrieben und verschiedene Kombinationen ausprobiert hat, konnte es keine richtige Antwort geben. Es hat sogar 3,3 Minuten gedauert, und währenddessen konnte man die App nicht im Hintergrund laufen lassen. Das Bildschirmlicht musste ständig eingeschaltet bleiben. Das heißt, dass diese 3,3 Minuten komplett verschwendet wurden.

(Bildquelle: Grafik von Lei Technology)

Natürlich kann man dem Y500 Pro nicht die mangelnde Leistung verdenken. Wir haben das gleiche Problem auch auf dem High-End-Smartphone X300 Pro nicht lösen können. Aber das X300 Pro hat die Antwort in nur 1,6 Minuten gegeben, auch wenn sie falsch war. Es war zumindest schnell.

(Bildquelle: Grafik von Lei Technology)

Ich (hier der Autor "kleiner Lei") habe auch die berühmte, viele KI-Großmodelle in die Enge bringende Frage gestellt: Soll man zum Autowaschen mit dem Auto fahren oder zu Fuß gehen? Überraschenderweise haben die beiden Smartphones unter demselben Modell unterschiedliche Denkansätze gezeigt. Das Y500 Pro hat 2,5 Minuten gebraucht und uns gesagt: "Wenn du zum 'Autowaschen' gehst, solltest du zu Fuß gehen." Eine ziemlich lächerliche Antwort.

(Bildquelle: Grafik von Lei Technology)

Das X300 Pro hat sich zunächst etwas herumgedrückt. Es schien sich wiederholt zu überlegen, ob das 'Autowaschen' das Auto erfordert. Am Ende hat es jedoch gesagt: Wenn man sein Auto waschen will, sollte man mit dem Auto fahren.

Nach diesen drei Tests hat uns das Gemma 4 E4B auf dem Y500 Pro das Gefühl vermittelt, dass es langsam und geschwätzig ist. Aber es erwärmt sich nicht sehr stark.

Die Langsamkeit ist das am stärksten spürbare Problem. Man muss durchschnittlich zwei bis drei Minuten warten, um die vollständige Antwort zu lesen. Diese Geschwindigkeit ist im täglichen Gebrauch wirklich unangenehm. Ehrlich gesagt, wird sich niemand drei Minuten lang an den Bildschirm kleben und auf eine Antwort warten. Hier ist jedoch ein Detail, das erwähnt werden sollte: Die Langsamkeit liegt nicht daran, dass das Modell nicht läuft, sondern daran, dass die Rechenkapazität der NPU des Dimensity 7400 begrenzt ist. Es kann nur eine begrenzte Anzahl von Tokens pro Sekunde verarbeiten, und es kann nicht schneller werden.

Auch die Fehlerrate ist recht hoch. Das ist jedoch verständlich. Wenn das Modell komplexe logische Probleme löst, muss es in den Zwischenschritten wiederholt "nachdenken". Je größer die Rechenkapazität ist, desto vollständiger ist dieser Prozess. Auf einem Smartphone im Preisbereich von etwa tausend Yuan wird dieser Prozess möglicherweise vorzeitig abgebrochen, weil die Rechenkapazität begrenzt ist. Wenn zu viele Ressourcen für die Berechnungen verwendet werden, kann es später kaum noch weiterarbeiten. Deshalb treten auch häufiger Halluzinationen auf.

Gemma 4 E4B ist ein multimodales Modell. Deshalb wollten wir auch testen, wie gut das Y500 Pro bei der Bilderkennung ist. Wir haben zunächst ein Foto eines Einkaufszentrums bei Nacht hochgeladen und gefragt, was auf dem Bild zu sehen ist.

Ihre Antwort war ehrlich gesagt noch akzeptabel. Sie hat die Größe des Gebäudes, die Dachstruktur und die Atmosphäre der Nachtbeschreibung. Die Richtung war richtig, aber es gab ein offensichtliches Problem. Das riesige Schild des Apple Stores auf dem Bild wurde überhaupt nicht erwähnt. Es wurde nur von einem "modernen großen Einkaufszentrum" die Rede. Die Markenidentifikation erfordert hohe Anforderungen an das Modell. Es muss die visuellen Informationen mit dem hinterlegten Markenwissen verbinden. Die Anzahl der Parameter von E4B reicht offensichtlich nicht aus. Es kann die Kontur erkennen, aber nicht sagen, was es ist.

(Bildquelle: Grafik von Lei Technology)

Als nächstes haben wir ein Foto einer Graspflanze hochgeladen und gefragt, was das sei. Dann hat sich der Bildlauf gestartet. Fünf Minuten lang kam keine Antwort, nur die sich drehende Ladeanimation. Was noch schlimmer ist, war die gesamte App während dieser Zeit nicht bedienbar. Man konnte die Aktion nicht abbrechen und musste einfach warten. Eigentlich war es nur ein ganz einfacher Boden-Sprinkler für das Gießen von Blumen, kein sonderlich seltsames Gerät.

(Bildquelle: Grafik von Lei Technology)

Kann das X300 Pro es richtig erkennen? Ja, es kann. Das X300 Pro hat diese Frage, die das Y500 Pro nicht lösen konnte, in nur 32 Sekunden beantwortet. Leider konnte es nicht genau sagen, was das Gerät war, sondern hat nur vermutet, dass es ein kleiner Sensor sei.

(Bildquelle: Grafik von Lei Technology)

Nach diesen drei Testrunden hat das Gemma 4 E4B auf dem Y500 Pro uns nicht wie erwartet total enttäuscht. Im Gegenteil, es gab sogar ein paar kleine Überraschungen. Zum Beispiel erwärmt es sich nicht sehr, ist nicht sehr ruckelig und kann einige einfache Fragen richtig beantworten. Das Problem ist jedoch, dass es als lokales Modell viel zu langsam ist. Die Rechte der Google AI Edge Gallery sind auch noch begrenzt. Außer dem Ein - und Ausschalten der Taschenlampe kann man keine anderen System - Funktionen nutzen.

Das ist ziemlich peinlich. Wenn es nur so gut ist, so langsam antwortet und leicht Fehler macht, warum sollte der Benutzer es noch weiter nutzen? Eher gesagt, es ist besser, ein Online - Großmodell zu benutzen, es sei denn, man ist wirklich offline.

Kann man lokale Modelle auf gewöhnlichen Smartphones wirklich nutzen?

Aus den vorherigen Tests geht hervor, dass Gemma 4 derzeit nur auf High-End-Smartphones einen "Mindeststandard" erreichen kann. Obwohl es immer noch Fehler gibt, ist es zumindest nicht so langsam wie auf einem Smartphone im Preisbereich von etwa tausend Yuan.

Aber wenn man darüber nachdenkt, was Google mit dieser App vorhat?

In der Google AI Edge Gallery gibt es eine Funktion namens Mobile Actions, die deine natürlichen Sprachbefehle direkt in Aktionen für das Android-System umwandeln kann. Zum Beispiel "Erstelle für mich einen Kalendereintrag" kann direkt in einen Kalendereintrag umgewandelt werden.

Das ist eine sehr praktische

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kann jeder auf lokalen KI zugreifen? Wir haben es mit einem Smartphone im unteren Preissegment getestet, und das Ergebnis war enttäuschend.

Ein Smartphone im Preisbereich von etwa tausend Yuan und ein lokales Modell? Ein Desaster!

Kann man lokale Modelle auf gewöhnlichen Smartphones wirklich nutzen?