StartseiteArtikel

Das 3B-Inferenzmodell, das auf Mobiltelefonen läuft, wird Open Source veröffentlicht. Es ist schneller als Qwen 3-4B und verlangsamt sich bei überlangen Kontexten nicht.

智东西2025-10-09 18:46
Ein israelisches Startup hat ein 3-Milliarden-Parameter-Modell Open-Source gemacht, dessen Leistung das Google Gemma 3-4B übertrifft.

Ein israelisches Startup hat ein 3-Milliarden-Parameter-Modell open source gemacht, dessen Leistung Google's Gemma 3 - 4B übertrifft.

Nach einer Meldung von Zhidongxi am 9. Oktober (gestern) hat das israelische KI-Startup AI21 Labs das lightweight Inferenzmodell Jamba Reasoning 3B open source gemacht. Das Modell verfügt über 3 Milliarden Parameter und kann auf verschiedenen Geräten, einschließlich Mobiltelefonen und Computern, laufen. Seine Leistung übertrifft die von Qwen3 - 4B, Gemma 3 - 4B und anderen Spitzenmodellen der Branche.

Screenshot der Open-Source-Veröffentlichung von Jamba Reasoning 3B

Hugging Face-Adresse: http://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

A21 gibt an, dass Jamba Reasoning 3B auf der neuen SSM-Transformer-Architektur basiert. Die Länge des Kontextfensters beträgt 256.000 Token, und es kann bis zu 1 Million Token verarbeiten. Im Vergleich zu Wettbewerbern wie DeepSeek, Google, Llama und Microsoft ist es 2 - 5 Mal effizienter und hat in Benchmarks Spitzenleistungen erzielt.

Jamba Reasoning 3B übertrifft Modelle wie Qwen 3 - 4B in Tests wie der Humanity's Last Exam

Es fasst die Vorteile von Jamba Reasoning 3B in drei Punkten zusammen:

1. Kein Rückgang der Intelligenzleistung: Dank der hybriden SSM-Transformer-Architektur ist Jamba Reasoning 3B effizienter als reine Transformer-Modelle.

Die meisten Transformer-basierten Modelle zeigen einen deutlichen Leistungsrückgang, wenn die Kontextlänge 32.000 Token überschreitet. Im Gegensatz dazu kann Jamba Reasoning 3B längere Kontextlängen verarbeiten, einschließlich bis zu einer Million Token. Dies macht es in fortschrittlichen Agentensystemen oder multimodalen Anwendungen sehr nützlich, da das Verständnis langer Kontexte für die Ausgabequalität von entscheidender Bedeutung ist.

Die Leistung von Jamba Reasoning 3B nimmt bei wachsendem Kontext nur geringfügig ab

2. Spitzenintelligenz: Jamba Reasoning 3B schneidet besser ab als andere Geräte-basierte Modelle von DeepSeek, Google, Meta und Microsoft.

Es ist besonders gut in Anweisungsverfolgungsaufgaben (IFBench) und allgemeinen Wissensfragen (MMLU - Pro und Humanity's Last Exam). Dies macht Jamba Reasoning 3B zu einem effizienten und intelligenten Modell, das in fortschrittlichen Agenten-Workflows oder Geräte-basierten RAG-Anwendungen eingesetzt werden kann.

Diese Ergebnisse stammen aus dem Post-Trainingsprozess. A21 kombiniert Alignierungs-Trainingstechniken wie RLVR, SFT, DPO und GRPO mit eigenen, patentierten Methoden, um die Modellqualität sicherzustellen.

Jamba Reasoning 3B übertrifft Modelle von Alibaba, Google und anderen in Tests

3. Für sicheren Gerätegebrauch entwickelt: Das Modell ist unter der Apache 2.0-Lizenz verfügbar. Es kann direkt auf den Computer oder das Mobiltelefon des Nutzers heruntergeladen werden und mit den eigenen Dateien auf dem Gerät angepasst werden, um vollständig sichere Anwendungen zu ermöglichen. Selbst ohne Internetverbindung können sie weiterhin funktionieren.

Die hybride SSM-Transformer-Architektur von Jamba Reasoning 3B nutzt einen achtmal kleineren Key-Value-Cache (KV) als die ursprüngliche Transformer-Architektur und kann somit auch bei wachsendem Kontext einen geringen Speicherbedarf aufrechterhalten.

Auf einem M3 MacBook Pro kann es 40 Token pro Sekunde generieren, bei einer Kontextlänge von 32.000. Dies ist besser als die Leistung von Qwen3 - 4B, DeepSeek Distill Qwen 1.5B, Gemma 3 - 4B und anderen Modellen, was es zu einer kompakten Komponente in fortschrittlichen Agentenanwendungen macht.

Auf einem M3 MacBook Pro können 40 Token pro Sekunde generiert werden

Das Modell unterstützt derzeit die folgenden Sprachen: Englisch, Spanisch, Französisch, Portugiesisch, Italienisch, Niederländisch, Deutsch, Arabisch und Hebräisch.

Fazit: Lightweight Modelle beschleunigen die Iteration und eröffnen neue Wege für die Implementierung von Agenten

Mit der Integration von KI in die Unternehmensabläufe haben Cloud-basierte Large Language Models das Problem der geringen Wirtschaftlichkeit aufgedeckt. A21 zitiert eine Forschungsstudie und gibt an, dass 40% - 70% der KI-Aufgaben von kleinen Sprachmodellen bearbeitet werden können, und dass die Kosten durch intelligente Routing um das 10 - 30-fache reduziert werden können.

Lightweight Geräte-basierte Modelle wie Jamba Reasoning 3B ermöglichen eine wirtschaftliche und effiziente Verteilung von heterogenen Rechenaufgaben. Sie können einfache Aufgaben lokal bearbeiten, während Cloud-Ressourcen für komplexe Inferenzen reserviert bleiben. Dies bietet geringe Latenzzeiten für Echtzeitanwendungen in der Fertigungs- und Gesundheitsbranche, ermöglicht Offline-Wiederherstellung für ferngesteuerte Vorgänge und stärkt den Datenschutz. Es eröffnet möglicherweise ein Zeitalter dezentralisierter KI.

Dieser Artikel stammt aus dem offiziellen WeChat-Account "Zhidongxi" (ID: zhidxcom), Autor: Li Shuiqing, Redakteur: Xinyuan. 36Kr hat die Veröffentlichung mit Genehmigung erhalten.