0,3 Milliarden Parameter: Google's neues Open-Source-Modell läuft offline auf Mobilgeräten mit nur 0,2 GB Arbeitsspeicher

Mit wenig gewinnen viel! Google's 0,3 Milliarden Parameter-Modell erreicht fast die Leistung des 0,6 Milliarden Parameter-Modells, und das mehrsprachige RAG ist immer griffbereit.

Nachrichten von Zhidongxi vom 5. September. Heute hat Google ein brandneues offenes Embedding-Modell namens EmbeddingGemma open source gemacht. Dieses Modell ist ein Kleinriesen, das 308 Millionen Parameter hat und speziell für Edge-AI entwickelt wurde. Es unterstützt die Bereitstellung von Anwendungen wie Retrieval-Augmented Generation (RAG) und semantischer Suche auf Geräten wie Notebooks und Mobiltelefonen.

Eines der Merkmale von EmbeddingGemma ist, dass es hochwertige Embedding-Vektoren mit guter Privatsphäre generieren kann. Es kann auch offline funktionieren, und seine Leistung ist mit der des doppelt so großen Qwen-Embedding-0.6B vergleichbar.

▲Screenshot der Hugging Face Open-Source-Seite

Hugging Face-Adresse: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

Laut Google hat EmbeddingGemma die folgenden Highlights:

1. Best-in-Class: Auf der Massive Text Embedding Benchmark (MTEB) hat EmbeddingGemma die höchste Platzierung unter den offenen mehrsprachigen Text-Embedding-Modellen mit weniger als 500M Parametern. EmbeddingGemma basiert auf der Gemma 3-Architektur und wurde für über 100 Sprachen trainiert. Es ist kompakt und kann nach der Quantisierung mit weniger als 200MB Arbeitsspeicher laufen.

▲MTEB-Bewertung: Die Leistung von EmbeddingGemma ist mit der eines doppelt so großen Spitzenmodells vergleichbar

2. Speziell für flexible Offline-Arbeit entwickelt: Es ist klein, schnell und effizient, bietet anpassbare Ausgabegrößen und ein 2K-Token-Kontextfenster und kann auf alltäglichen Geräten wie Mobiltelefonen, Notebooks und Desktop-Computern laufen. Es ist darauf ausgelegt, zusammen mit Gemma 3n zu arbeiten und neue Anwendungsfälle für mobile RAG-Pipelines, semantische Suche usw. zu eröffnen.

3. Integration mit beliebten Tools: Um den Benutzern das Einstieg in die Verwendung von EmbeddingGemma zu erleichtern, kann es bereits mit den bevorzugten Tools der Benutzer verwendet werden, wie z. B. sentence-transformers, llama.cpp, MLX, Ollama, LiteRT, transformers.js, LMStudio, Weaviate, Cloudflare, LlamaIndex, LangChain usw.

01. Kann hochwertige Embedding-Vektoren generieren, die Antworten bei Edge-RAG genauer machen

EmbeddingGemma generiert Embedding-Vektoren. In diesem Kontext kann es Texte in numerische Vektoren umwandeln, die die Semantik des Textes im hochdimensionalen Raum repräsentieren. Je höher die Qualität der Embedding-Vektoren ist, desto besser ist die Repräsentation von sprachlichen Feinheiten und komplexen Eigenschaften.

▲EmbeddingGemma generiert Embedding-Vektoren

Beim Aufbau eines RAG-Prozesses gibt es zwei kritische Phasen: Erstens die Suche nach relevantem Kontext basierend auf der Benutzereingabe, und zweitens die Generierung von fundierten Antworten auf der Grundlage dieses Kontexts.

Um die Suchfunktion zu realisieren, kann der Benutzer zunächst den Embedding-Vektor des Prompts generieren und dann die Ähnlichkeit zwischen diesem Vektor und den Embedding-Vektoren aller Dokumente im System berechnen. Auf diese Weise kann der am besten passende Textabschnitt für die Benutzeranfrage abgerufen werden.

Anschließend kann der Benutzer diese Textabschnitte zusammen mit der ursprünglichen Anfrage in ein generatives Modell (z. B. Gemma 3) eingeben, um kontextbezogene Antworten zu generieren. Beispielsweise kann das Modell verstehen, dass Sie die Telefonnummer eines Zimmermanns benötigen, um ein defektes Bodenbelagproblem zu lösen.

Für die Effektivität des RAG-Prozesses ist die Qualität des ersten Suchschritts von entscheidender Bedeutung. Schlecht qualityierte Embedding-Vektoren können dazu führen, dass irrelevante Dokumente gefunden werden, was wiederum zu ungenauen oder sinnlosen Antworten führt.

Genau hier zeigt sich der Leistungsvorteil von EmbeddingGemma – es kann hochwertige (Text-)Repräsentationen liefern und somit die Kernunterstützung für präzise und zuverlässige Edge-Anwendungen bieten.

02. Ein Kleinriesen, dessen Leistung der eines doppelt so großen Qwen-Embedding-0.6B nahe kommt

EmbeddingGemma bietet die neuesten Fähigkeiten zur Textverstehen, die seiner Größe entsprechen, und hat besonders starke Leistungen bei der Generierung von mehrsprachigen Embeddings.

Im Vergleich mit anderen beliebten Embedding-Modellen schneidet EmbeddingGemma in Aufgaben wie Suche, Klassifizierung und Clustering hervorragend ab.

EmbeddingGemma hat in Tests wie Mean (Task), Retrieval, Classification, Clustering usw. das gleichgroße gte-multilingual-base-Modell übertroffen. Seine Testergebnisse sind auch dem doppelt so großen Qwen-Embedding-0.6B nahe gekommen.

▲Evaluierung von EmbeddingGemma

Das EmbeddingGemma-Modell hat 308M Parameter, die hauptsächlich aus etwa 100M Modellparametern und 200M Embedding-Parametern bestehen.

Um eine höhere Flexibilität zu erreichen, nutzt EmbeddingGemma das Matryoshka Representation Learning (MRL) und bietet mehrere Embedding-Größen in einem Modell. Entwickler können den vollständigen 768-dimensionalen Vektor verwenden, um die beste Qualität zu erzielen, oder ihn auf kleinere Dimensionen (128, 256 oder 512) kürzen, um die Geschwindigkeit zu erhöhen und die Speicherkosten zu senken.

Google hat die Embedding-Inferenzzeit (256 Eingabetoken) auf EdgeTPU auf <15ms verkürzt und damit die Geschwindigkeitsgrenze überschritten. Dies bedeutet, dass die AI-Funktionen der Benutzer Echtzeitantworten liefern und eine reibungslose und sofortige Interaktion ermöglichen können.

Mit der Quantization-Aware Training (QAT) hat Google die RAM-Nutzung bei gleichbleibender Modellqualität deutlich auf weniger als 200MB reduziert.

03. Kann offline verwendet werden und mit weniger als 200MB Arbeitsspeicher laufen

EmbeddingGemma unterstützt Entwickler bei der Erstellung flexibler und datenschutzbewusster Geräteanwendungen. Es generiert direkt auf der Gerätehardware Dokument-Embeddings und trägt so zur Sicherheit sensibler Benutzerdaten bei.

Es verwendet den gleichen Tokenizer wie Gemma 3n zur Textverarbeitung und reduziert somit den Arbeitsspeicherbedarf von RAG-Anwendungen. Benutzer können mit EmbeddingGemma neue Funktionen freischalten, wie z. B.:

Simultane Suche in persönlichen Dateien, Texten, E-Mails und Benachrichtigungen ohne Internetverbindung.

Personalisierte, branchenspezifische und offline unterstützte Chatbots über RAG und Gemma 3n.

Die Klassifizierung von Benutzeranfragen in relevante Funktionsaufrufe, um mobilen Agenten zu helfen, die Benutzeranforderungen zu verstehen.

Die folgende Abbildung zeigt eine interaktive Demo von EmbeddingGemma, die die Text-Embeddings in einem dreidimensionalen Raum visualisiert. Das Modell läuft vollständig auf dem Gerät.

▲Interaktive Demo von EmbeddingGemma (Quelle: Joshua vom Hugging Face-Team)

Demo-Erfahrungsadresse: https://huggingface.co/spaces/webml-community/semantic-galaxy)

04. Fazit: Kleine Größe, große Fähigkeiten, die die Entwicklung von Edge-Intelligenz beschleunigen

Die Veröffentlichung von EmbeddingGemma markiert einen neuen Durchbruch von Google bei der Miniaturisierung, Mehrsprachigkeit und Edge-AI. Es kommt nicht nur in der Leistung nahe an größere Modelle heran, sondern bietet auch ein Gleichgewicht zwischen Geschwindigkeit, Arbeitsspeicher und Datenschutz.

In Zukunft könnte EmbeddingGemma ein wichtiger Baustein für die Verbreitung von Edge-Intelligenz werden, wenn Anwendungen wie RAG und semantische Suche immer mehr auf persönliche Geräte abwärtsgewandert werden.

Dieser Artikel stammt aus dem WeChat-Account „Zhidongxi“ (ID: zhidxcom), geschrieben von Li Shuiqing und wird von 36 Kr mit Genehmigung veröffentlicht.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

0,3 Milliarden Parameter. Ein neues Open-Source-Modell von Google, das auch offline auf Mobilgeräten läuft und nur 0,2 GB Arbeitsspeicher benötigt.

01. Kann hochwertige Embedding-Vektoren generieren, die Antworten bei Edge-RAG genauer machen

02. Ein Kleinriesen, dessen Leistung der eines doppelt so großen Qwen-Embedding-0.6B nahe kommt

03. Kann offline verwendet werden und mit weniger als 200MB Arbeitsspeicher laufen

04. Fazit: Kleine Größe, große Fähigkeiten, die die Entwicklung von Edge-Intelligenz beschleunigen