Offline-Intelligenz: Wann wird der DeepSeek-Moment eintreffen?
In den letzten zwei Jahren drehten sich fast alle Geschichten über KI-Modelle um zwei Versionen: die allmächtige Cloud und das Endgerät voller Potential.
Früher war ein weit verbreitetes Branchenvisionarium: Mit der ständigen Verbesserung der Fähigkeiten von leichtgewichtigen Modellen scheint es nur eine Frage der Zeit zu sein, dass die KI sich von der Bindung an die Cloud befreit und auf jedem Gerät ein ständig verfügbares, persönliches Intelligenzsystem realisiert wird.
Allerdings steht nach dem Tumult eine peinliche Realität vor uns: Obwohl die jüngst populären KI-Spielzeuge oder die hochbeachteten KI-Brillen sind, hängen ihre Kerninteraktion und Intelligenz immer noch fest an der Cloud. Selbst bei Mobiltelefonen und PCs mit stärkerer Rechenleistung gibt es nur wenige, die tatsächlich offline KI-Fähigkeiten realisieren können.
In den technischen Demonstrationen scheinen die Endgerätemodelle allmächtig zu sein. Aber warum kann die versprochene offline-Intelligenz immer noch nicht ohne Internet auskommen?
Auf der einen Seite besteht ein äußerst hoher Bedarf der Nutzer an einer optimalen Erfahrung: Sofortige Reaktionen, keine Weitergabe sensibler Daten und keine Unterbrechung der Verbindung auch ohne Internet. Auf der anderen Seite gibt es die unausweichlichen "physikalischen Grenzen" der Endgeräte - begrenzte Rechenleistung, Energieverbrauch und Speicher - die wie eine unsichtbare Wand die Umsetzung der meisten Hochleistungsmodelle auf Endgeräten blockieren.
Ein noch tieferes Problem liegt in der kommerziellen Anziehungskraft. Für die Tech-Riesen, die die stärksten Modelle besitzen, ist die Cloud nicht nur ein Symbol für technologische Führerschaft, sondern auch eine lukrative Einnahmequelle. Wenn alle Blicke und Ressourcen auf die Cloud gerichtet sind, wird das Endgerät, das härtere Arbeit erfordert und mit unsichereren kommerziellen Erträgen verbunden ist, natürlich in den Hintergrund gedrängt.
Was tun also die wenigen, die sich wirklich für die Umsetzung von "Offline-Intelligenz" einsetzen? Auf der diesjährigen Weltkongress für Künstliche Intelligenz (WAIC) hat ein Unternehmen namens RockAI seine Antwort gegeben. Sie gehen einen wenig befahrenen Weg und haben den Schlüssel für die Lösung des Problems gefunden.
Mit der Mission, "jedem Gerät eine eigene Intelligenz zu verleihen", hat sich dieses Team in die untersten Ebenen der Technologie vertieft und sogar die herkömmliche Transformer-Architektur aufgegeben, um das als "unmögliche Aufgabe" angesehene Problem der Endgerätebereitstellung zu bewältigen. In der frühen Phase konnte ihr Modell bereits auf einem Raspberry Pi mit begrenzter Rechenleistung vollständig laufen - dieser kartenformatige Computer ist seit jeher ein strenger Prüfstein für die Endgerätebereitstellung, und die meisten ähnlichen Modelle stocken bereits nach wenigen Sätzen.
Das im Rahmen der diesjährigen WAIC vorgestellte Yan 2.0 Preview hat nur 3 Milliarden Parameter, kann jedoch multimodal funktionieren und bietet eine echte "Gedächtnisfunktion" lokal: Das Modell kann die Gewichte dynamisch anpassen und die Nutzerpräferenzen dauerhaft speichern und aktualisieren.
Das Ergebnis dieser "unmöglichen Aufgabe" ist nicht nur auf die Laboratoriumsdemonstration beschränkt. Massenproduktionsaufträge sind bereits aus dem In- und Ausland eingegangen, und die technische Stärke wird schnell in kommerziellen Wert umgewandelt.
Ihre Geschichte könnte die grundlegende Frage beantworten: Warum brauchen wir und wie können wir eine echte Offline-Intelligenz realisieren, wenn die Cloudmodelle so rasant voranschreiten?
GeekPark hat Zou Jiasi, einen Mitbegründer von RockAI, interviewt und über die Geschäftsideen hinter RockAI gesprochen.
01
Warum haben wir noch keine immer verfügbare, persönliche KI?
Frage: Es scheint, dass die gesamte Branche sich für eine Zukunft mit Offline-Intelligenz einsetzt, und Tech-Riesen wie Apple betrachten dies sogar als Kernstrategie. Warum gelingt es jedoch immer noch nicht, die "letzte Meile" von der technischen Demonstration bis in die Hände der Verbraucher zu bewältigen?
Zou Jiasi: Alle reden über Offline-Intelligenz und KI auf Endgeräten, aber zwischen Traum und Realität liegen zwei fast unüberwindbare Berge: die Rechenleistung und der Energieverbrauch.
Um ein Großmodell auf einem Gerät laufen zu lassen, wird eine hohe Rechenleistung benötigt. Viele KI-Unternehmen in der Branche haben zwar Modelle mit relativ wenigen Parametern, aber diese erfordern dennoch leistungsfähigere Chips.
Zum Beispiel wollte einer unserer Kunden ein offline Großmodell auf einem Mobiltelefon installieren. Die Lösungen anderer Anbieter forderten jedoch fast durchweg die neuesten Qualcomm-Flaggschiffchips und mindestens 16 GB Arbeitsspeicher. Tatsächlich verfügen die meisten Smartgeräte nicht über solche leistungsstarken Chips.
Das ist die härteste Rechenleistungslücke: Wenn Ihre KI-Technologie nur für wenige High-End-Geräte geeignet ist, verliert sie die Bedeutung einer allumfassenden KI.
Der andere Berg ist der Energieverbrauch.
Dieses Problem wird besonders deutlich bei Mobiltelefonen. In der Realität wird das Gerät beim Versuch, ein Großmodell zu installieren, sehr heiß, was fast alle Modelle auf Basis der traditionellen Transformer-Architektur betrifft. Fast alle führenden Mobiltelefonhersteller haben uns über dieses Problem gesprochen. Sie wollen in der nächsten Generation von KI-Mobiltelefonen einen Durchbruch erzielen, werden aber von der "Mauer des Energieverbrauchs" aufgehalten.
Warum gelingt es nicht, die letzte Meile zu bewältigen?
Tatsächlich wird die Aktualisierung von Hardware relativ langsam voranschreiten. Viele Geräte wurden bereits vor Jahren verkauft, und die damaligen Chips, Speicher, Mikrofone und Kameras waren nicht für heutige Großmodelle ausgelegt. Wenn man versucht, das Transformer-Modell auf diesen Mittel- und Niedrigleistungsgeräten zu installieren, funktioniert es entweder nicht oder liefert nur schlechte Ergebnisse.
Selbst wenn die Hersteller neue High-End-Chips einführen, dauert es normalerweise 6 - 12 Monate, bis diese in die neuen Produktlinien integriert werden. Und es dauert in der Regel weitere 1 - 2 Jahre, bis die Produkte wirklich erfolgreich sind und in Massen verkauft werden. Dieser Rhythmus ist eine physikalische Realität und kann nicht übersprungen werden.
Frage: Sie haben gerade erwähnt, dass sowohl die Rechenleistung als auch der Energieverbrauch auf die derzeitige herkömmliche Transformer-Architektur zurückzuführen sind. Das Transformer-Modell hat sich in der Cloud als die stärkste KI-Architektur bewiesen. Warum funktioniert es dann auf Endgeräten nicht?
Zou Jiasi: Diese Frage geht wirklich auf den Kern der Herausforderungen bei der Ausführung von Großmodellen auf Endgeräten ein. Die Stärke des Transformer-Modells beruht auf seinem revolutionären Attention-Mechanismus. Aber genau hier liegt auch das Problem.
Ein traditionelles KI-Modell verhält sich wie ein Fließbandarbeiter, der Informationen nacheinander verarbeitet und über eine begrenzte Gedächtnisleistung verfügt. Wenn er weit genug vorgekommen ist, vergisst er die früheren Informationen. Das Transformer-Modell hingegen ist wie ein Superheld, der nicht nacheinander arbeitet, sondern die Informationen in einer Matrix anordnet und jedes Wort in der Matrix dazu auffordert, mit allen anderen Wörtern einmal zu "händeschütteln", um die Beziehung zwischen ihnen zu berechnen.
Diese "globale Händeschüttelung" gibt dem Transformer-Modell eine außergewöhnliche Verständnisleistung. In der Cloud steht Ihnen jedoch unbegrenzte Rechenleistung zur Verfügung, um diese Berechnungen zu unterstützen.
Die Gestaltung von Mobiltelefonchips (CPU/NPU) ist eher wie das oben erwähnte "Fließband". Sie sind gut darin, Aufgaben schnell und nacheinander auszuführen. Wenn Sie plötzlich eine Aufgabe mit "globaler Händeschüttelung" anfordern - mit jedem zusätzlichen Wort steigt der Rechenaufwand exponentiell - wissen sie nicht, was sie tun sollen.
Wir haben dieses Problem von Anfang an erkannt. Es gibt auch einige Verbesserungslösungen in der Branche, wie Flash Attention oder lineare Attention. Unsere Schlussfolgerung ist jedoch, dass diese nur kleine Anpassungen am "Kommandohaus" vornehmen und nicht das energieintensive "globale Händeschütteln" grundlegend ändern.
Wir haben uns schließlich für einen radikaleren Ansatz entschieden: Wir behalten die starke Merkmalsextraktionsfähigkeit des Transformer-Modells bei, entfernen jedoch den Energie-fressenden Attention-Mechanismus und ersetzen ihn durch eine neue Architektur, die besser für die "Fließband"-Arbeit auf Endgeräten geeignet ist. Das zeitgleich entwickelte Mamba-Modell im Ausland hat ähnliche Ansätze verfolgt. Wir reparieren nicht ein F1-Rennwagen, das nicht auf kleinen Straßen fahren kann, sondern entwerfen ein neues Geländewagen, das auf diesen Straßen schnell fahren kann.
Frage: Dies klingt sehr kompliziert. Nur um ein Modell auf Smart-Hardware laufen zu lassen, muss man eine neue Architektur entwerfen. Ist Offline-Intelligenz wirklich so notwendig?
Zou Jiasi: Diese Frage ist sehr interessant. Wir glauben, dass es sehr notwendig ist, und wir haben auch eine starke Marktnachfrage festgestellt.
Die Notwendigkeit ergibt sich aus einigen Werten, die nicht durch die Cloud ersetzt werden können:
Erstens: absolute Datenschutz- und Sicherheit. Dies ist der Kerngrund, warum Unternehmen wie Apple sich für KI auf Endgeräten einsetzen. Die sensibelsten Daten, wie Ihre Fotos, Gesundheitsinformationen und Chatverläufe, sollten überhaupt nicht das Gerät verlassen. Dies ist eine prinzipielle Frage.
Zweitens: optimale Echtzeitinteraktion. In vielen Szenarien ist eine Reaktionszeit im Millisekundenbereich erforderlich. Beispielsweise muss ein Drohne mit Yan-Architektur sofort auf den Befehl "Mache ein Foto, wenn ich springe" reagieren. In solchen Szenarien kann jeder Netzwerkausfall fatal sein, und Sie können sich nicht auf die Cloud verlassen. Ein weiteres Beispiel sind zukünftige Roboter, die auf Basis ihrer eigenen Armlänge und Sensorparameter präzise Bewegungen ausführen müssen. Diese hardwaregebundene Echtzeitsteuerung muss von der lokalen "KI" durchgeführt werden.
Drittens: Kostenfrage. Die Preise für Cloud-APIs scheinen ständig zu sinken und sind teilweise sogar kostenlos, aber es gibt dennoch Kosten. Nehmen wir die Kamera als Beispiel: Die Stückzahl liegt im Milliardenbereich. Selbst wenn die Cloud sehr günstig ist, wird die Gesamtkosten astronomisch hoch, wenn man sie mit Milliarden multipliziert. Bei der Offline-Intelligenz sind die Hardwarekosten bereits aufgewendet, und die anschließende Nutzung verursacht fast keine zusätzlichen Kosten. Vom geschäftlichen Standpunkt aus gesehen ist die lokale Installation auf Massengeräten die kostengünstigste Lösung.
Ein lokales Modell ist wie ein intelligenter Haushaltsangestellter, der vor der Tür steht. Er schützt Ihre Privatsphäre, ist sicher und versteht Sie individuell. Auch wenn er möglicherweise nicht alle komplexesten Probleme lösen kann, sollte er 80 % der alltäglichen Aufgaben - wie das Öffnen von Apps, das Setzen von Erinnerungen, einfache Übersetzungen und Meetingprotokolle - schnell und sicher erledigen können. Die meisten Nutzer benötigen nicht ständig die Lösung komplexer Aufgaben.
So wie Huaqiangbei und Markenprodukte nebeneinander existieren können. Markenprodukte sind sehr wichtig, aber Huaqiangbei hat auch seine Bedeutung. Cloudmodelle können die höheren Anforderungen der Nutzer erfüllen, aber die Modelle auf Endgeräten können die meisten Anforderungen der Nutzer schneller, sicherer und kostengünstiger erfüllen.
02
Wie sollte ein Modell aussehen, das Offline-Intelligenz realisieren kann?
Frage: Sie haben gerade erwähnt, dass Sie den schwierigsten Weg gewählt haben, um Offline-Intelligenz zu realisieren - ein neues "Geländewagen" zu entwerfen. Was ist dann der "Motor" dieses neuen Fahrzeugs, also der Kernmechanismus Ihrer neuen Architektur?
Zou Jiasi: Unsere Kerninnovation besteht darin, dass wir den energieintensiven Attention-Mechanismus des Transformer-Modells, der auf "globaler Händeschüttelung" basiert, aufgegeben haben und uns auf eine leichtere "Merkmals - Hemmung - Aktivierung"-Architektur konzentrieren. Zusammen mit der partitionierten Aktivierung können wir die Anzahl der tatsächlich berechneten Parameter auf ein Zehntel oder sogar weniger reduzieren. Die Rechenleistung wird um mehr als ein Fünftel und der Energieverbrauch um ein Zehntel gesenkt. Wie bereits erwähnt, müssen in der Standard-Transformer-Architektur alle Parameter aktiviert werden, um eine hochintelligente Antwort zu erhalten, unabhängig von der Größe der Aufgabe. Das Gehirn funktioniert jedoch nicht so.
Das menschliche Gehirn hat etwa 80 - 90 Milliarden Neuronen, was wir als ein Modell mit 80 - 90 Milliarden Parametern verstehen können. Wenn das Gehirn vollständig aktiviert wäre, würde der Energieverbrauch möglicherweise auf 3.000 oder sogar 4.000 Watt steigen, aber der tatsächliche Energieverbrauch liegt unter 30 Watt.
Wie gelingt es dem Gehirn, dies so effizient zu tun? Durch die partitionierte Aktivierung. Unser Modell folgt diesem Prinzip.
Außerdem ermöglicht die neue Architektur es uns, in einem 3B-Modell Multimodalität zu realisieren.
Um es unpräzise zu sagen: Wenn Sie einen Vogel sehen, seinen Gesang hören und gleichzeitig das Wort "Vogel" lesen, wird nicht das gesamte Gehirn aktiviert. Stattdessen werden bestimmte, kleine Bereiche der visuellen, auditiven und sprachlichen Regionen aktiviert. Diese unabhängigen und überlappenden Aktivierungen ermöglichen es uns, Form, Klang und Wort präzise auszurichten.
Transformer-Modelle mit weniger als 3 Milliarden Parametern haben Schwierigkeiten, Informationen aus verschiedenen Modalitäten effizient zu verarbeiten und auszurichten, aufgrund ihrer globalen Berechnungseigenschaft. Unsere gehirnähnliche Aktivierungsarchitektur entspricht eher dem partitionierten Verarbeitungsmodell des Gehirns, und die verschiedenen Modalitäten können natürlich unterschiedliche Partitionen aktivieren, was die Ausrichtung einfacher und genauer macht. Daher können wir auch bei einem 3B-Modell eine starke Fähigkeit zur gemeinsamen Verarbeitung von Text, Sprache und Bildern beibehalten.