Mysteriöses Modell übertrifft Gemma 4 31B in der Rangliste: Vermeidet direkten Wettlauf mit Qwen und setzt auf "Schnelligkeit" & "Token

In den letzten zwei Tagen hat ein Modell namens "Elephant" von OpenRouter plötzlich die 4 31B von Gemma in der Trending-Liste überholt und sich auf den zweiten Platz in der Rangliste gesetzt.

In den letzten zwei Tagen hat ein Modell namens "Elephant" (Elefant) auf OpenRouter plötzlich die Gemma 4 31B in der Trending-Liste überholt und sich auf den zweiten Platz in der Rangliste gesetzt.

Laut Kilo stammt dieses Modell aus einem renommierten Open-Source-Modelllabor und setzt auf "intelligente Effizienz". Es bietet bei möglichst geringem Token-Verbrauch eine Leistung, die der SOTA-Leistung gleicher Größenordnung nahe kommt.

Elephant ist ein Stealth-Modell mit 100 Milliarden Parametern. Es unterstützt ein Kontextfenster von 256.000 Tokens und kann so ein gesamtes Code-Repository oder einen großen Abhängigkeitsbaum auf einmal laden. Die maximale Ausgabelänge beträgt 32.000 Tokens, was es für die einmalige Generierung ganzer Module oder ganzer Testcodes geeignet macht. Gleichzeitig unterstützt dieses Modell auch die Caching von Prompts, Funktionsaufrufe und strukturierte Ausgaben und ist offensichtlich für Unternehmensentwicklung und die Einbindung von Agent-Tools konzipiert.

Laut Kilo ist Elephant kein einfaches "Großmodell", das nur auf Größe setzt, sondern legt stärker auf Geschwindigkeit, Reaktionsfähigkeit und praktische Entwicklungseffizienz Wert. Elephant ist hauptsächlich für Szenarien wie schnelles Code-Vervollständigen und Debuggen, die Verarbeitung großer Dokumente sowie die Interaktion mit leichten Agenten optimiert und eignet sich für Entwicklungsworkflows, die häufige Aufrufe und geringe Latenzzeiten erfordern. Im Vergleich zu schwereren und langsameren Modellen möchte Elephant das "hochreaktive Hauptmodell" für die tägliche Arbeit von Entwicklern werden.

Konkret haben wir das Elephant-Modell direkt mit anderen Modellen der 100-Milliarden-Parameter-Klasse verglichen, darunter dem NVIDIA Nemotron 3 Super, dem Qwen3.5-122B-A10B und dem OpenAI gpt-oss-120b.

In Bezug auf die Geschwindigkeit war Elephant am schnellsten, mit einer durchschnittlichen Reaktionszeit von etwa 1,27 Sekunden. Das Qwen3.5-122B-A10B war am langsamsten, mit einer durchschnittlichen Reaktionszeit von etwa 31,38 Sekunden. Elephant benötigte für die Datenanalyse und -extraktion durchschnittlich nur 979 Millisekunden und für komplexe Projekte nur 3,70 Sekunden.

Im Vergleich dazu erreichte das Qwen3.5-122B-A10B seine Leistung durch einen höheren Inference-Aufwand. Beispielsweise betrug die durchschnittliche Reaktionszeit für Programmierprojekte 70,98 Sekunden, für komplexe Projekte sogar 107,79 Sekunden, und für Aufgaben wie Datenanalyse und -extraktion wurden 16.558 Inference-Tokens verbraucht.

In Bezug auf den Token-Verbrauch war das Qwen3.5-122B-A10B das "Token-fressendste" Modell in dieser Gruppe, mit einem weit höheren Verbrauch als die anderen drei. Das gpt-oss-120b und das Nemotron-3 Super 120B befanden sich in der Mitte, während Elephant praktisch keine Tokens verbrauchte.

In Bezug auf die Befolgung von Anweisungen war Elephant am stabilsten. Sein Konsistenz-Score lag bei 9,6, was bedeutet, dass seine Ergebnisse bei wiederholten Ausführungen am wenigsten schwankten und es das stabilste Modell in dieser Gruppe war. Das Qwen3.5-122B-A10B führte jedoch weiterhin in Bezug auf die Richtigkeit und die Durchführungsfähigkeit an. Das Nemotron-3 Super 120B A12B zeigte eine ausgewogene Leistung, während das gpt-oss-120b deutliche Schwankungen aufwies.

Das Problem bei Elephant ist, dass es in komplexen Projekten nur 3,0 Punkte und bei der Datenanalyse und -extraktion 6,5 Punkte erreicht. Dies deutet indirekt darauf hin, dass es derzeit Szenarien mit hoher Frequenz, niedrigen Kosten und schnellen Ergebnissen anstrebt, nicht aber komplexe Agent-Workflows oder kritische Entscheidungsszenarien.

Wenn man alle Dimensionen zusammenfasst, hat das Qwen3.5-122B-A10B mit 8,1 Punkten den ersten Platz, das NVIDIA Nemotron-3 Super 120B A12B mit 6,7 Punkten den zweiten Platz, das OpenAI gpt-oss-120b den dritten Platz und das Elephant Alpha den vierten Platz.

Ähnlich wie das Elephant Alpha erreichte das Nemotron-3 Super 120B A12B in komplexen Projekten 10,0 Punkte, bei der Tool-Nutzung ebenfalls 10,0 Punkte und bei der Datenanalyse und -extraktion ebenfalls 10,0 Punkte. Dies zeigt, dass es für Szenarien geeignet ist, in denen der Prozess klar definiert ist, die Aufgabengrenzen eindeutig sind und die Ausführungsreihenfolge und die Tool-Nutzung wichtig sind. Aber es erreichte nur 2,9 Punkte in der Fachspezialisierung, 3,8 Punkte in der allgemeinen Intelligenz und nur 3,5 Punkte beim Lösen von Rätseln. Dies zeigt, dass es deutlich zurückbleibt, wenn die Aufgaben von "strukturierter Ausführung" zu "offener und komplexer Inferenz" wechseln. Das gpt-oss-120b erreichte in Programmierprojekten nur 4,3 Punkte und hatte auch Probleme mit der Befolgung von Anweisungen.

Man kann sehen, dass obwohl alle Modelle in der 100-Milliarden-Parameter-Klasse sind, ihre Schwerpunkte bei der Entwicklung unterschiedlich sind.

Das Qwen3.5-122B-A10B repräsentiert den Weg der starken Inferenz und der hohen Vollständigkeit. Es hat höhere Punktzahlen und Durchführungsraten, erfordert aber mehr Latenzzeit und höhere Inference-Kosten. Das Nemotron-3 Super 120B A12B ist eher ein Workflow-Modell. Es ist möglicherweise nicht am besten für komplexe und offene Probleme geeignet, zeigt aber in Aufgaben wie strukturierter Extraktion, Tool-Nutzung und Ausführungsreihenfolge hervorragende Leistung. Das neu aufgetauchte Elephant repräsentiert dagegen die extreme Leichtgewicht-Strategie und setzt auf "Schnelligkeit" und "niedrige Kosten" als Kernvorteile.

Verwandte Links:

https://aibenchy.com/zh/compare/nvidia-nemotron-3-super-120b-a12b-medium/qwen-qwen3-5-122b-a10b-medium/openrouter-elephant-alpha-medium/openai-gpt-oss-120b-medium/

https://blog.kilo.ai/p/introducing-elephant-a-new-stealth

Dieser Artikel stammt aus dem WeChat-Account "AI Frontline". Zusammenstellung: Chu Xingjuan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mysteriöses Modell übertrifft Gemma 4 31B in der Rangliste: Es vermeidet den direkten Wettlauf mit Qwen und setzt auf "Schnelligkeit" und "Token-Einsparung"