Das anonyme Modell "Elefant" bringt Unruhe bei OpenRouter: Mit 100 Milliarden Parametern erreicht es Platz 1 in den beliebtesten Listen. Wie sind die praktischen Testergebnisse?
Nach einer Meldung von Zhidx am 16. April hat ein anonymes Modell namens Elephant kürzlich auf OpenRouter seinen Debüt gemacht. Innerhalb von weniger als 48 Stunden nach dem Start hat dieses Modell die erste Stelle in der Trending-Liste von OpenRouter erreicht und bisher über 185 Milliarden Token aufgerufen.
Nach der Tagesliste der Aufrufe nimmt Elephant den achten Platz weltweit ein.
Laut der Beschreibung auf OpenRouter ist Elephant ein reines Textmodell mit 100 Milliarden Parametern, das sich durch eine hohe Token-Effizienz auszeichnet. Es unterstützt einen Kontext von 256.000 Token und eine Ausgabe von 32.000 Token und eignet sich für Aufgaben wie Code-Vervollständigung, Debugging, schnelle Dokumentenverarbeitung und Interaktion mit leichten Agenten.
Bis jetzt hat Elephant unter den wiederholten "Prüfungen" der Netizens noch nicht verraten, von welchem Anbieter es stammt. Einige Netizens vermuten, dass es sich möglicherweise um die Flash-Version eines neuen chinesischen Modells oder um ein neues Produkt eines ausländischen Labors handeln könnte.
Viele Entwickler haben ihre Erfahrungen mit Elephant geteilt. Der Autor von Hermes Agent hat es in einem Benchmark getestet und gefunden, dass das Modell in den meisten Aufgaben zur Tool-Aufrufung akzeptabel abgeschnitten hat, aber gelegentlich Halluzinationen und Fehlinterpretationen der Umgebung gezeigt hat, was für ein Modell mit 100 Milliarden Parametern normal ist.
Die Ausgabegeschwindigkeit ist eines der Highlights dieses Modells. Auf OpenRouter erreicht es durchschnittlich 67 Token pro Sekunde, und die Latenz für das erste Token beträgt 0,89 Sekunden, was auf Potenzial in Echtzeit-Interaktionsszenarien hinweist. Einige Netizens haben kommentiert, dass es zwar die Qualität noch nicht sicher ist, aber es das schnellste Modell ist, das sie je benutzt haben, und es sie an die Erfahrung mit Grok Fast 1 erinnert.
Allerdings ist es immer noch besser, selbst zu testen. Im Folgenden werden wir selbst mit verschiedenen Aufgaben wie Programmierung, Dokumentenverarbeitung und Agent-Interaktion beginnen und das Modell in jeder Aufgabe testen.
01. Praxis-Tests in Programmierung, Langtextverarbeitung und Agent-Aufgaben: Schnelle Reaktion in der Frontend-Programmierung und Unterstützung mehrerer Tool-Aufrufe
Auf OpenRouter ist die Programmierfähigkeit von Elephant unter den Modellen gleicher Größe relativ gut. Deshalb haben wir zuerst einige kleine Programmierprojekte getestet, um zu sehen, ob es diese schnell erledigen kann.
Zuerst haben wir es aufgefordert, eine Website zu entwickeln, was hauptsächlich die Frontend-Fähigkeiten des Modells testet. Nachdem es die Aufgabe erhalten hat, hat Elephant die Kernkomponenten der Website geplant und automatisch für diese Website Funktionen wie das Umschalten zwischen hellem und dunklem Modus und die reaktive Gestaltung für mobile Geräte hinzugefügt, die wir nicht explizit verlangt haben. Schließlich hat es die Entwicklung in etwa einer Minute abgeschlossen.
Als wir es aufgefordert haben, die Hauptfarbe der Website in Grün zu ändern, hat Elephant diese Änderung in weniger als 10 Sekunden vorgenommen. Benutzer, die andere Modelle benutzt haben, wissen, dass die meisten Modelle bei der Bearbeitung von Änderungen oft den gesamten Kontext lesen und einzelne Änderungen vornehmen müssen, was für einige Details mehrere Minuten dauern kann. Elephant hingegen kann direkt auf die gewünschten Änderungen reagieren, was für schnelle und häufige Website-Debugging-Anforderungen sehr nützlich ist.
Wir haben auch getestet, ob Elephant in der Lage ist, projektbezogene Aufgaben zu bewältigen. Wir haben es aufgefordert, ein Zahlungsprogramm zu reproduzieren, basierend auf seinen internen Wissen. Wir haben die Modell-Programmierung in der Kilo Code-Erweiterung getestet. Mehrere Sub-Agenten, die von Elephant angetrieben werden, arbeiten parallel, was den Vorteil der Ausgabegeschwindigkeit noch verstärkt. Allerdings war das Endergebnis nur ein Prototyp. Diese Leistung könnte mit der relativ kleinen Anzahl von Parametern zusammenhängen.
Schauen wir uns nun die Leistung von Elephant in Langtext-Szenarien an. Wir haben dem Modell ein mehrere hundert Seiten umfassendes Prospektdokument geschickt und sehr detaillierte Anforderungen für die IPO-Interpretation gestellt, um eine Zusammenfassung der Unternehmensgrundlage zu erhalten. Solche komplexen Prompts stellen eine Herausforderung für die Befolgungsfähigkeit des Modells dar.
Während der Ausführung kann Elephant mehrere Dateilesetools schnell aufrufen und die Interpretation mit hoher Geschwindigkeit ausgeben. Es hat die Komplexität des Dokuments mit 120.000 Token in nur wenigen Sekunden verarbeitet.
Wenn man die Interpretation genauer liest, kann man feststellen, dass das Modell die Kerninformationen exakt nach unseren Anforderungen zusammengefasst hat, ohne etwas zu übersehen. Die Daten und die Schlussfolgerungen sind im Wesentlichen korrekt.
Wir haben auch versucht, Elephant mit Agent-Aufgaben zu betrauen. Wir haben es in ein Produkt der OpenClaw-Sorte integriert und es aufgefordert, einen sieben-tägigen Urlaub in Thailand zu planen, Informationen wie Sehenswürdigkeiten und deren Beschreibungen zu sammeln und schließlich eine Reiseplanungs-Website zu erstellen.
Elephant kann die Tools, die das Agent-Framework bietet, effektiv nutzen und Tools wie Suchmaschinen aufrufen, um Informationen über die Reise nach Thailand zu sammeln.
Insgesamt hat Elephant in dieser offenen Agent-Aufgabe gut abgeschnitten. Der Reiseplan ist vernünftig und deckt die wichtigsten Sehenswürdigkeiten ab. Es hat auch die Standorte der Sehenswürdigkeiten auf Gaode Maps gesucht, und man kann durch Klicken auf die Links direkt zur entsprechenden Seite gelangen.
Nach diesen Tests haben wir festgestellt, dass Elephant in der Ausführung von Aufgaben eine ausgezeichnete Geschwindigkeit und Befolgungsfähigkeit gezeigt hat. Die Effizienz bei der Frontend-Prototypentwicklung und der Langtextverarbeitung ist gut, aber es hat Schwierigkeiten, vollständige Projektanwendungen zu entwickeln. Seine Fähigkeiten bei der Agent-Planung und dem Tool-Aufruf sind bemerkenswert, und es kann autonom einen Reiseplan bis hin zur Website umsetzen. Insgesamt ist es ein effizientes Modell, das in leichten und häufigen Aufgaben Vorteile hat.
02. Dritte-Partie-Bewertung: Vollpunkt in der Befolgung von Anweisungen und Token-Effizienz wie GPT-5.4 Mini
Wie schneidet Elephant in umfassenderen Benchmark-Tests von Dritten ab? Die Bewertung dieses Modells auf AI Benchy ist hilfreich.
AI Benchy ist eine Art "Lügentester" für KI. Wenn Sie ein Entwickler sind oder KI für automatisierte Arbeitsabläufe nutzen, sind die Daten zur "Befolgung von Anweisungen" und "wirklichen Kosteneffektivität" auf AI Benchy oft von höherem Wert als die offiziellen Benchmark-Ergebnisse der großen Unternehmen.
Betrachtet man die absolute Leistung, hat Elephant auf AI Benchy nicht die Spitzengruppe erreicht, aber das war möglicherweise auch nicht sein Ziel. Unter den Modellen mit ähnlicher Parameteranzahl setzt Elephant auf hohe Effizienz und Kosteneffektivität.
Beim Token-Verbrauch benötigt Elephant für die gleichen logischen Schlussfolgerungen oder Code-Audits deutlich weniger Token als andere Modelle und liegt auf einem ähnlichen Niveau wie GPT-5.4 Mini. Diese hohe Token-Effizienz eignet sich besonders für große to-C-Szenarien oder wiederholte alltägliche Aufgaben.
Diese Effizienz ist besonders wichtig in Agent-Szenarien. Da der Agent-Arbeitsablauf im Wesentlichen aus mehreren seriellen oder parallelen Schleifen besteht, muss das Modell wiederholt planen, Tools aufrufen, die Ergebnisse beobachten und erneut planen. Jede Runde verbraucht Token und verursacht Latenz. Eine hohe Token-Effizienz bedeutet, dass das Modell innerhalb des begrenzten Kontextfensters und des Budgets mehr Runden ausführen kann und mit weniger Rechenressourcen längere Agent-Ketten abarbeiten kann.
In Bezug auf die Reaktionszeit kann Elephant in etwa einer Sekunde eine Antwort geben, was eine nahezu verzögerungsfreie Interaktion ermöglicht und so die Unruhe der Benutzer während des Wartens auf die Ergebnisse etwas mindert. Dies verbessert die Benutzererfahrung.
Dieser Effekt der geringen Latenz ist ein Ziel vieler Anbieter. Vor kurzem hat Google-Chef Sundar Pichai einen Gedanken geteilt: "Latenz ist eines der Kernmerkmale eines guten Produkts. Geringe Latenz bedeutet oft, dass die technische Architektur des Produkts ausreichend gut ist. Dies war auch unser Kerngedanke bei der Entwicklung von Gemini, nämlich ein Gleichgewicht zwischen Spitzenleistung und Geschwindigkeit zu finden."
Mit anderen Worten, geringe Latenz ist nicht nur "schnell", sondern steht oft für ein solideres und reiferes technisches System und eine bessere Benutzererfahrung, die schließlich in reale Geschäftswerte umgesetzt werden kann.
Schließlich hat Elephant in der Befolgung von Anweisungen eine perfekte Punktzahl und eine 100%-ige Durchfallquote erreicht, was bedeutet, dass das Modell relativ "gehorsam" ist. Dies kann die Zeit und die Rechenressourcen sparen, die bei der wiederholten Interaktion mit dem Modell und der Kl