Wissenschaftliche Anleitung für die Garnelenzucht
Die "Hummer"-Welle wärmt sich stetig auf. Am Montag, als die Arbeit gerade begann, startete Qclaw (Hummer), ein Produkt von Tencent, die interne Testphase. ArkClaw (Hummer) von ByteDance wurde bereits offiziell auf der Plattform von Huoshan Engine eingeführt. Früher hatte Alibaba Cloud bereits ein ähnliches Produkt namens CoPaw vorgestellt. Gleichzeitig veröffentlichte das Ministerium für Industrie und Informationstechnik umgehend eine entsprechende Ankündigung und gab eine Warnung vor den Sicherheitsrisiken in diesem Bereich aus.
Für normale Benutzer ist diese plötzlich auftauchende Technologiewelle sowohl eine seltene Gelegenheit, mit modernen KI-Anwendungen in Kontakt zu kommen, als auch wie ein Nebel, der es schwer macht, den Wert und die Risiken dahinter zu beurteilen.
Zum Glück wurde in dieser lauten Branche der Open-Source-Benchmarking-Tool PinchBench von Kilo.ai rechtzeitig veröffentlicht. Er bietet allen Benutzern, die sich für diesen Bereich interessieren, einen äußerst wertvollen Ankerpunkt für eine rationale Beurteilung:
Offizielle Website: https://pinchbench.com/
GitHub-Projektadresse: https://github.com/pinchbench/skill
01 Benchmarking: Wie bewertet man KI-Agenten?
Tatsächlich ist OpenClaw bereits ein Produkt, das seit zwei Monaten auf dem Markt ist. Bereits als es noch ClawdBot hieß, hat es heftige Diskussionen in der technologischen Community ausgelöst.
Jetzt hat es ein interessantes Phänomen ausgelöst: Die Pioniere haben es entzaubert und versuchen, durch die Aufklärung seiner Leistungsgrenzen zur rationalen Überlegung aufzurufen; die Nachzügler sind immer noch sehr begeistert, auch wenn sie die Produktpositionierung und die Verwendungsziele noch nicht verstanden haben.
In vorherigen Artikeln haben wir bereits erwähnt, dass OpenClaw selbst nichts tun kann. Tatsächlich ist es das zugrunde liegende Large Language Model, das es antreibt. Mit anderen Worten, das Geld, das die Menschen für OpenClaw ausgeben, sind eigentlich die API-Kosten des Large Language Models.
Seit die KI in die Ära der Agenten eingetreten ist, hängt die Nützlichkeit des als "Gehirn" und zugrunde liegende Infrastruktur dienenden Large Language Models (LLM) immer stärker von subjektiven Empfehlungen ab.
PinchBench versucht jedoch, diese Situation zu ändern. Dieser Benchmark ist speziell für OpenClaw entwickelt und dient dazu, die Leistung des Large Language Models bei der Steuerung von OpenClaw in realen Aufgaben zu testen.
Da die Kernaufgabe eines Agenten darin besteht, Menschen bei der Arbeit zu helfen, unterscheidet sich dieser Benchmark von den herkömmlichen Leistungstests: Er umfasst 23 standardisierte Aufgaben wie Termine planen, Code schreiben und Marktanalysen durchführen.
Die Designlogik ist auch sehr klar: Alle Aufgaben werden in Form von Markdown-Dateien mit YAML-Metadaten im GitHub-Repository pinchbench/skill Open-Source veröffentlicht. Jede Aufgabe enthält fünf Kernbestandteile: Prompt, erwartetes Verhalten, Bewertungsstandard, automatisierte Prüfungsfunktion und LLM-Bewertungsregeln.
Im Vergleich zur Richtigkeit von wissenschaftlichen Aufgaben und der Qualität von Code ist die Bewertung der Erledigung von realen Aufgaben offensichtlich komplexer.
Um die reale Fähigkeit des Large Language Models bei der Steuerung von OpenClaw so objektiv wie möglich widerzuspiegeln, verwendet PinchBench ein dreistufiges Bewertungssystem aus "Automatisierung + LLM-Bewertung + Mischung".
Python-Funktionen können automatisch objektive Indikatoren wie Dateierstellung und Schlüsselwortübereinstimmung überprüfen, während Spitzenmodelle wie Claude Opus für die Bewertung von subjektiven Aspekten wie Inhaltsqualität und Analysentiefe verwendet werden.
Wenn diese Fachbegriffe schwer zu verstehen sind, keine Sorge. Wir erklären es anhand von zwei praktischen Testaufgaben.
Die erste Aufgabe ist Aufgabe Nr. 21 im skills-Repository: OpenClaw-Berichtverständnis.
Bei dieser Aufgabe muss das Large Language Model OpenClaw anweisen, einen Forschungsbericht namens openclaw_report.pdf zu lesen und 8 konkrete Fragen zu beantworten, beispielsweise:
"Wie viele Skills gab es in der Community vor der Filterung? (Richtige Antwort: 5705)"
"Was ist die zweite Kategorie von Skills? (Richtige Antwort: Search & Research: 253)"
Diese Aufgabe kann vollständig von einem Programm automatisiert bewertet werden. Ein Python-Skript überprüft die generierte answer.txt-Datei. Es prüft nicht nur, ob die Zahlen exakt übereinstimmen, sondern auch, ob das Datumsformat korrekt ist und ob die Schlüsselwörter vorhanden sind.
Die Bewertungsstandards sind auch ziemlich streng. Selbst wenn man 7 Fragen richtig beantwortet, bekommt man bei einem einfachen Problem, bei dem man nur eine Ziffer falsch hat, eine Null. Diese Designentscheidung dient dazu, die grundlegenden Fähigkeiten zur Extraktion von strukturierten und unstrukturierten Informationen und die genaue Ausführungskapazität des Agenten zu testen.
Die zweite Aufgabe ist Aufgabe Nr. 16 im skills-Repository: Wettbewerbsmarktanalyse.
Im Vergleich zur vorherigen Aufgabe ist diese Aufgabe näher an der tatsächlichen Anwendungsumgebung der Benutzer. Der Agent muss einen Unternehmensbericht zur Wettbewerbsanalyse des Anwendungsleistungüberwachungsmarktes erstellen.
Um diese Aufgabe zu erfüllen, muss der Agent komplexe Schritte wie die Identifizierung von Spitzenherstellern, die Analyse der differenzierten Positionierung, die Aufarbeitung des Preismodells und die Ausgabe eines strukturierten Markdown-Dokuments durchlaufen. Dies ist auch für Menschen eine Aufgabe mit relativ hohem Arbeitsaufwand.
Daher wird für diese Aufgabe eine Mischbewertung verwendet. Der automatische Teil überprüft Bewertungsstandards wie "ob mindestens 5 Wettbewerber erwähnt werden" und "ob ein Vergleichstableau vorhanden ist". Die Forschungsqualität und die Analyseerkenntnisse werden an Spitzenmodelle zur Bewertung übergeben. Die Bewertungsstandards gehen sogar so weit, dass sie prüfen, "ob der Stil dem eines menschlichen Geschäftsanalysten ähnelt" und "ob die Trends mit den realen Geschäftsentwicklungen übereinstimmen".
02 Bewertungsergebnisse: Chinesische Modelle brechen kraftvoll durch
Nachdem wir uns mit dem Bewertungsmechanismus vertraut gemacht haben, schauen wir uns die Bewertungsergebnisse an.
PinchBench teilt die Bewertungsergebnisse in drei Dimensionen auf: Erfolgsrate, Geschwindigkeit und Kosten.
In Bezug auf die Erfolgsrate führt ein Modell von Google an. Überraschenderweise ist es nicht das am höchsten intelligentisierte Flaggschiffmodell Gemini 3.1 Pro, sondern das kostengünstigste und auf Massenaufgaben für Agenten ausgelegte Gemini 3.1 Flash Lite.
Was noch interessanter ist, haben diesmal die chinesischen Large Language Models nicht hinterhergeblieben. MiniMax-M2.1 von MiniMax und Kimi-K2.5 von Yuezhianmian, zwei chinesische Modelle, die die OpenClaw-API-Aufrufstatistik an der Spitze führen, belegen den zweiten und dritten Platz und liegen nur um ein Haar hinter Google zurück.
In Bezug auf die Geschwindigkeit führt MiniMax-M2.5 direkt an. Qwen3-Max-Thinking von Alibaba und GLM-5 von Zhipu haben ebenfalls die Top Ten erreicht und belegen den sechsten und siebten Platz.
In Bezug auf die Kosten, die die meisten Benutzer am meisten interessieren, haben, wie wir vorher prognostiziert haben, die chinesischen KI-Modelle im Vergleich zu internationalen Spitzenmodellen einen deutlichen Kostenvorteil.
Man kann sehen, dass die neuesten Flaggschiffmodelle von Gemini, GPT, Claude und Grok alle nicht in die Top Ten eingestiegen sind. Leichtgewichtsmodelle und ältere Modelle haben zwar niedrige Kosten, aber keine Garantie für die Erfolgsrate. Die Gesamtkosten sind möglicherweise nicht vorteilhaft.
Außerdem ist es bemerkenswert, dass die Kostendifferenzen zwischen verschiedenen Modellen enorm sind. Die Token-Kosten von Qwen3-Coder-Next, das auf dem zehnten Platz steht, sind bereits mehr als 12-mal höher als die von GPT-5-Nano, das auf dem ersten Platz steht. Und das sind nur die Kosten im besten Fall.
In der praktischen Anwendung brauchen die Benutzer am meisten, dass das Modell die Arbeit gut erledigt. Auf dieser Grundlage sollten die Kosten natürlich so niedrig wie möglich sein.
Wenn man diese kombinierte Grafik, die die Aufgaben-Erfolgsrate und die Kosten berücksichtigt, in vier Bereiche aufteilt, repräsentiert die linke obere Ecke "billig und gut", die rechte obere Ecke "teuer, aber gut".
Die Modelle von MiniMax, Yuezhianmian und Zhipu erscheinen genau in der linken oberen Ecke.
Dies spiegelt auch die technische Realität wider:
Der Beginn der Agenten-Ära hat die Leistungsdifferenz zwischen den zugrunde liegenden Large Language Models effektiv verringert.
Die chinesischen Large Language Models haben nicht nur einen Kostenvorteil bei den Token, sondern auch eine Leistung auf internationalem Spitzenniveau bei Agentenaufgaben.
03 Die kostenlose Falle: versteckte Kosten und Sicherheitsrisiken
Zurück zu den jüngsten Branchenentwicklungen: Diese gemeinnützige Aktion von Tencent hat die Nutzungsbarriere für OpenClaw vollständig entfernt.
Selbst wenn man nicht vor Ort teilnehmen kann, ist die Methode des Scannen des Codes, Anmeldens und Kopierens und Einfügens im Vergleich zu den bisherigen "Einfach-Deploy"-Funktionen der verschiedenen KI-Plattformen keine technische Herausforderung mehr.
Die Stadt Shenzhen plant sogar, entsprechende Politikmaßnahmen zur Förderung von OpenClaw zu erlassen.
Diese Reihe von wichtigen Nachrichten hat einige Menschen verwirrt. Die Leute in der technologischen Community finden es sogar etwas absurd.
Nachdem man den Inhalt von PinchBench gelesen hat, sollte man verstehen:
Die Installation von OpenClaw im Namen der Kostenlosigkeit ist in Wirklichkeit nicht kostenlos.
Denn dahinter verbirgt sich ein technisches Detail, das sehr leicht übersehen wird: Das Ausführen von Agenten und das direkte Aufrufen von Large Language Modellen sind völlig unterschiedliche Konzepte in Bezug auf den Ressourcenverbrauch.
Wir haben in vorherigen Artikeln auch erwähnt, dass der Ressourcenverbrauch beim direkten Aufrufen von Large Language Modellen in einem Chat mit einer Frage und einer Antwort relativ kontrollierbar ist.
Aber das Arbeiten mit einem Agenten ist völlig anders. Das Suchen im Internet, das Lesen von Berichten, das Organisieren von Dateien und das Analysieren und Zusammenfassen - diese alltäglichen Aufgaben für Menschen bedeuten für die KI hunderte oder tausende von API-Aufrufen und Token-Verbrauch.
Was noch schlimmer ist, dieser Verbrauch ist undurchsichtig. Je unklarer die Anweisungen sind, desto mehr Mal muss der Agent Tools aufrufen, den Kontext zurückverfolgen und Fehler wiederholen.
Das lineare Wachstum der Interaktionszahl führt zu einem exponentiellen Anstieg des Token-Verbrauchs.
Diese extrem versteckte Ressourcenverbrauchslogik und die möglichen Sicherheitsrisiken von OpenClaw sind für normale Benutzer, die wegen der "kostenlosen Installation" kommen, tödlich.
Dies erklärt auch, warum die Einstellung der technologischen Community sich von der der normalen Benutzer in letzter Zeit so stark unterscheidet.
Die Nachricht über die Folge der gemeinnützigen Aktion von Tencent spricht auch in gewissem Maße für dieses Problem: Nach der kostenlosen Installation von OpenClaw für Benutzer und der Ausstellung von "Shrimps-Geburtsurkunden" haben einige Internetnutzer bereits nach einigen Stunden gemeldet, dass ihr Konto ständig mit kleinen Beträgen belastet wurde, insgesamt über 200 Yuan.
Obwohl Tencent sofort darauf reagierte und sagte, dass die Kosten auf historische Aktivitäten zurückzuführen seien und nichts mit der OpenClaw-Deployment zu tun hätten, hat dies den Benutzern eine Warnung gesendet: Kostenlose Installation bedeutet keinesfalls kostenlose Nutzung.
Die jüngsten Produkte der chinesischen KI-Unternehmen im Zusammenhang mit dem Coding Plan als kostengünstige Alternative zum direkten Kauf von APIs sind im Wesentlichen auch eine Art, um überschüssige Token und Cloud-Server zu verkaufen.
04 Rückkehr zur Rationalität: Was bleibt nach der Welle übrig?
Ein Benutzer auf dem Linuxdo-Forum kommentierte diese "Hummerzucht"-Welle wie folgt: