StartseiteArtikel

Kimi K2 Thinking-Schnellangriff, Agenten- und Inferenzfähigkeiten übertreffen GPT-5. Internetnutzer: Die Kluft zwischen Open-Source- und Closed-Source-Technologien wird erneut verringert.

量子位2025-11-07 11:03
Das Modell ist der Agent.

Kimi K2 Thinking ist jetzt veröffentlicht und open source!

Es setzt auf das Konzept "Modell als Agent". Es ist nicht nur das "stärkste bisher veröffentlichte Open-Source-Denkmodell von Kimi", sondern verfügt auch über die Fähigkeit, während des Denkens Werkzeuge zu nutzen

Ohne menschliche Intervention kann es 200 - 300 aufeinanderfolgende Werkzeugaufrufe ausführen.

Als eines der am meisten beachteten Open-Source-Modell-Serien dieses Jahres war die Thinking-Version von Kimi K2 sofort ein heiß diskutiertes Thema: Sie verringert erneut die Lücke zwischen Open-Source-Modellen und Closed-Source-Modellen.

Hier ist ein Überblick über weitere technische Details:

1 TB Parameter, 32 B aktive Parameter, Verwendung von INT4 anstelle von FP8.

256K Kontextfenster.

Mehr Experten, weniger Head, mehr Denken.

In Bewertungsstandards wie der Human Last Exam (HLE), BrowseComp zur Prüfung der Fähigkeit zur autonomen Webbrowsing und dem SEAL-0 Benchmark für die Sammlung und Inferenz komplexer Informationen hat Kimi K2 Thinking die State-of-the-Art (SOTA) Werte verbessert und Closed-Source-Modelle wie GPT-5 und Claude Sonnet 4.5 (Thinking) übertroffen.

Der Code und die Gewichte von Kimi K2 Thinking folgen der sehr freizügigen MIT-Lizenz. Das neue Modell ist bereits auf kimi.com und in der neuesten Version der Kimi Mobilanwendung verfügbar und kann sofort getestet werden. Die API ist über die Kimi Open Platform erreichbar.

Technische Details

Die Offizielle Mitteilung besagt, dass K2 Thinking der neueste Fortschritt von Moonshot in der Test-Time Scaling (TTS) -Domäne ist. Durch die gleichzeitige Erweiterung der Denk-Tokens und der Werkzeugaufruf-Runden hat das Modell eine stärkere Agenten- und Inferenzleistung erreicht.

Umfassende Verbesserung der Agenten- und Inferenzfähigkeiten

In Tests hat Kimi K2 Thinking bei der Human Last Exam (HLE) unter der gleichen Bedingung, dass Werkzeuge wie Suche, Python und Webbrowsing-Tools verwendet werden können, eine SOTA-Leistung von 44,9 % erzielt.

Die Offizielle Seite hat auch ein Beispiel veröffentlicht, in dem K2 Thinking durch 23 Inferenzen und Werkzeugaufrufe ein mathematisches Problem auf Doktoratsebene erfolgreich gelöst hat.

Dritte Tests bestätigen auch die Verbesserung seiner Agentenfähigkeiten:

Artificial Analysis hat Kimi K2 Thinking im 𝜏²-Bench Telecom Agenten-Werkzeugnutzungs-Benchmark getestet.

Die Ergebnisse zeigen, dass Kimi K2 Thinking die SOTA-Leistung erreicht hat und im Agenten-Szenario einen großen Schritt vorwärts geht im Vergleich zum zuvor vielgelobten K2 Instruct (73 % → 93 %).

Umfassende Verbesserung der autonomen Such- und Browsing-Fähigkeiten

In komplexen Such- und Browsing-Szenarien zeigt Kimi K2 Thinking ebenfalls hervorragende Leistung.

Bei BrowseComp, wo der durchschnittliche Mensch 29,2 % erreicht, hat Kimi K2 Thinking seine "gründliche Forschung" -Fähigkeit gezeigt und mit 60,2 % die neue SOTA-Leistung erreicht.

Getrieben von der Fähigkeit zur Langzeitplanung und autonomen Suche kann Kimi K2 Thinking über hunderte von Runden des dynamischen Zyklus "Denken → Suchen → Webbrowsing → Denken → Programmieren" hinweg kontinuierlich Hypothesen aufstellen und verbessern, Beweise verifizieren, schlussfolgern und logisch kohärente Antworten konstruieren.

Diese Fähigkeit, während der aktiven Suche kontinuierlich zu denken, ermöglicht es Kimi K2 Thinking, unklare und offene Fragen in klare, ausführbare Teilaufgaben zu zerlegen.

Verbesserte Agentic-Programmierfähigkeit

In Bezug auf die Programmierung kann Kimi K2 Thinking in Teststandards wie SWE-Multilingual, SWE-bench Validierungssatz und LiveCodeBench auch mit den stärksten Closed-Source-Modellen wie GPT-5 und Claude Sonnet 4.5 mithalten.

Die Offizielle Mitteilung besagt, dass Kimi K2 Thinking bei der Bearbeitung von HTML, React und vorkomponentenreichen Frontend-Aufgaben eine deutliche Leistungssteigerung zeigt und Ideen in funktionsfähige, reaktive Produkte umsetzen kann.

Im Agentic Coding-Szenario kann Kimi K2 Thinking während des Denkens verschiedene Werkzeuge aufrufen und sich flexibel in Software-Agenten integrieren, um komplexere, mehrstufige Entwicklungsworkflows zu bearbeiten.

Beispielsweise kann es einen real nutzbaren Word-Texteditor nachbauen.

Oder es kann ein wunderschönes Voxel-Art-Werk schaffen:

Upgrade der allgemeinen Grundfähigkeiten

Außerhalb der Hauptlinie der Agenten- und Inferenzfähigkeiten hat Kimi K2 Thinking auch eine Verbesserung seiner allgemeinen Grundfähigkeiten erfahren.

Kreatives Schreiben: Kimi K2 Thinking hat seine Schreibfähigkeiten deutlich verbessert. Es kann grobe Ideen in klare, bewegende und zielgerichtete Erzählungen umwandeln, die Rhythmus und Tiefe aufweisen. Es kann feine Stilmuster und unklare Strukturen meistern und die Stil-Kohärenz in langen Texten aufrechterhalten. Bei kreativem Schreiben sind die von ihm geschaffenen Bilder lebendiger, die emotionale Resonanz stärker, und es vereint präzise Ausdrucksweise mit reichhaltiger Expressivität.

Akademisches und Forschungsarbeiten: In akademischen Forschungen und Fachbereichen hat Kimi K2 Thinking in Bezug auf die Analysentiefe, die Informationsgenauigkeit und die logische Struktur deutliche Verbesserungen erzielt. Es kann komplexe Anweisungen analysieren und Ideen auf klare und strenge Weise erweitern. Dies macht es besonders gut geeignet für die Bearbeitung von akademischen Aufsätzen, technischen Zusammenfassungen und langen Berichten, die eine hohe Informationsintegrität und Inferenzqualität erfordern.

Persönliche und emotionale Fragen: Bei der Beantwortung persönlicher oder emotionaler Fragen ist Kimi K2 Thinking emphatischer und neutraler. Es denkt nicht nur tiefer und klarer, kann fein differenzierte Ansichten und praktikable Vorschläge geben, sondern ist auch menschlicher.

Native INT4-Quantifizierung

Es ist bemerkenswert, dass K2 Kimi Thinking die INT4 -Genauigkeit anstelle von FP8 verwendet.

Die Offizielle Erklärung ist, dass das Denkmodell eine sehr lange Dekodierungslänge erzeugt, und herkömmliche Quantifizierungsmethoden oft zu einer starken Leistungseinbuße des Modells führen. Um diese Herausforderung zu bewältigen, haben sie in der Nach-Trainingsphase die Quantifizierungs-sensible Training (QAT) eingesetzt und die INT4 -reine Gewichts-Quantifizierung (weight-only) auf die MoE-Komponenten angewendet.

Dadurch kann Kimi K2 Thinking in komplexen Inferenzen und Agentic-Aufgaben eine native INT4 -Inferenz unterstützen und die Generierungsgeschwindigkeit um etwa das Doppelte erhöhen.

Außerdem ist INT4 besser mit Inferenz-Hardware kompatibel und freundlicher gegenüber chinesischen Beschleunigungsrechnerchips.

p.s. NVIDIA GPUs vor der Blackwell-Reihe unterstützen keine FP4.

Erste Tests

Weitere Testbeispiele können im offiziellen technischen Blog eingesehen werden. Wir haben auch sofort einige einfache Tests durchgeführt (nur der Langzeitdenkmodus wurde aktiviert, keine Internetverbindung).

Ein klassisches Problem:

Wie kann man einen 7-Meter langen Zuckerrohr durch eine 1×2-Meter-Tür bringen?

Nach fast 5 Minuten des Nachdenkens hat Kimi folgende Antwort gegeben:

Das Denken hat etwas länger gedauert, aber Kimi K2 Thinking hat den Stolperstein in dieser Aufgabe erfolgreich umgangen und erkannt, dass die Länge und Breite der Tür die Passage des Zuckerrohrs nicht einschränken.

In Bezug auf die Programmierung war die Aufgabe wie folgt:

Schreiben Sie ein Python-Programm, das einen Ball in einem rotierenden Sechseck hüpfen lässt, wobei die Bewegung des Balls physikalischen Gesetzen folgt.

Diesmal hat Kimi K2 Thinking schnell damit begonnen, den Code zu schreiben.

Was halten Sie von dieser Leistung?

Wenn Sie auch bereits eigene Tests durchgeführt haben, teilen Sie uns bitte Ihre Ergebnisse gerne im Kommentarbereich mit!

Projektadresse: https://huggingface.co/moonshotai/Kimi-K2-Thinking

Link zum technischen Blog: https://moonshotai.github.io/Kimi-K2/thinking.html

Referenzlinks:

[1]https://x.com/Kimi_Moonshot/status/1986449512538513505

[2]https://x.com/ArtificialAnlys/status/1986541785511043536

[3]https://mp.weixin.qq.com/s/oQp1kFpoYFhYQ8GzbwZLyA