Yang Zhilin Beendet Arbeit: Kimi K2.6 Öffnet Quelle Vorzeitig, Stellt 300 Agenten Ein und Programmiert 3D-Kampfspiel in Praktischer Testphase

Kimi beginnt mit der Entwicklung der "Krebse-Edition von WeChat", und es befindet sich derzeit in der internen Testphase.

Zhidongxi berichtete am 21. April. Gestern Nacht hat Kimi das Flaggschiff-Modell K2.6 offiziell veröffentlicht und es als Open-Source verfügbar gemacht, das seine bisher stärkste Fähigkeit in Bezug auf Code, die Ausführung von Langzeitaufgaben und die Fähigkeit von Agent-Clustern mitbringt.

Nach mehreren von der offiziellen Seite veröffentlichten Benchmarks belegte Kimi K2.6 in der "letzten Prüfung der Menschheit" (Humanity’s Last Exam) auf Doktor-Level mit 54,0 % die erste Stelle. In DeepSearchQA, das die Fähigkeit von Agenten zur tiefen Suche misst, führte es mit beeindruckenden 92,5 % weit vor GPT-5.4 und Gemini 3.1 Pro an und übertraf auch Claude Opus 4.6 leicht. Darüber hinaus führte K2.6 in SWE-Bench Pro, das die echten Fähigkeiten in der Softwareentwicklung misst, mit 58,6 % alle Closed-Source-Modelle an.

Zugleich zeigte K2.6 in der allgemeinen Intelligenz (General Agents), der Programmierfähigkeit (Coding) und der Fähigkeit zur visuellen Verständnis (Visual Agents) eine umfassende Wettbewerbsfähigkeit.

Aber wenn man sich die Daten genauer ansieht, gibt es noch Raum für Verbesserungen in einigen Dimensionen. In dem SWE-bench-Test für mehrere Sprachen war K2.6 etwas hinter Claude Opus 4.6 und Gemini 3.1 Pro. In dem Toolathlon, einem komplexen Tool-Scheduling-Task, war K2.6 zwar besser als Claude Opus 4.6 und Gemini 3.1 Pro, lag aber immer noch hinter GPT-5.4. Darüber hinaus gab es in visuellen Tests wie MathVision und V immer noch einen gewissen Abstand zwischen der Leistung von K2.6 und GPT-5.4.

Insgesamt betrachtet zeigt K2.6 eine stabile Leistung in der multimodalen Inferenz, dem Tool-Aufruf und der Ausführung von Langzeitaufgaben, und seine Fähigkeiten haben in vielen Bereichen das Niveau der besten Closed-Source-Modelle erreicht oder ihm nahe gekommen.

In letzter Zeit gab es viele Aktivitäten im Bereich der großen Modelle in China und im Ausland. Letztes Freitag hat Anthropic das neue Flaggschiff-Modell Claude Opus 4.7 veröffentlicht. Gestern hat Alibaba die frühe Vorschauversion seines nächsten Flaggschiff-Modells Qwen3.6-Max-Preview vorgestellt. Und das von der Branche heiß erwartete "Open-Source-Monster" DeepSeek V4 wird wahrscheinlich in dieser Woche erscheinen. Dieser Wellenbrecher von Flaggschiff-Modellen in China und im Ausland bedeutet, dass die Umstrukturierung der Landschaft der großen Modelle bald ansteht.

Das neue K2.6 kann 13 Stunden lang kontinuierlich codieren, über 4000 Zeilen komplexen Code verarbeiten, die Entwicklung von Frontend und Backend in mehreren Sprachen unterstützen und durch die tiefe Integration von Bild- und Videogenerierungstools professionelle Web-Anwendungen nachbauen und visuelle Fokusdesigns umsetzen. Die offiziellen Beispiele zeigen, dass K2.6 komplexe Bilder und Videomaterialien in ausführbaren Frontend-Code umwandeln kann und klassische Webseiten oder animierte Interaktionsszenarien nachbauen kann.

Darüber hinaus hat Kimi K2.6 die autonome Ausführungsfähigkeit von Agenten stark verbessert: Die von K2.6 angetriebene Agent-Cluster-Architektur kann 300 Unter-Agenten unterstützen, die 4000 Kooperationsschritte parallel ausführen können, was eine größere Parallelisierung ermöglicht. Die Aufgabenabschlussrate und die Lieferqualität sind im Vergleich zu K2.5 deutlich verbessert. In Kimi Code Bench, dem internen Code-Benchmark von Kimi, der verschiedene komplexe End-to-End-Aufgaben umfasst, hat K2.6 eine Verbesserung von etwa 20 % im Vergleich zu K2.5 erzielt.

In aktiven Agent-Frameworks wie OpenClaw und Hermes Agent kann K2.6 bis zu 5 Tage lang autonom laufen. Die internen Claw Bench-Tests zeigen, dass die Gesamtleistung von K2.6 im Vergleich zu K2.5 um 10 % verbessert ist. In einem einzigen Lauf kann es von selbst die End-to-End-Lieferung von verschiedenen Produkten wie Webseiten, Präsentationen und Tabellen aus Dokumenten bewerkstelligen.

Im Ausland war die Rückmeldung der Entwickler zu K2.6 auch sehr positiv. Ein Entwickler sagte, dass die Verwendung von K2.6 für die Web- und Frontend-Interaktionsgestaltung "ein ausgezeichnetes Erlebnis ist und fast das beste im Moment" und dass es Code, Bilder, Videos und Animationsmaterialien problemlos verarbeiten kann.

Ein anderer Benutzer sagte, dass die Frontend-Effekte, die mit diesem Modell erstellt wurden, "erstaunlich" seien und dass es derzeit möglicherweise das beste Tool in seiner Klasse sei.

Ein anderer Entwickler bemerkte, dass die BF16-Gewichts-Uploadmenge des Modells 595 GB betrage und meinte, dass es im Open-Source-Ökosystem äußerst wettbewerbsfähig sei.

Beim API-Modell behält K2.6 das gestufte Preismodell bei, aber die Preise sind im Vergleich zu K2.5 deutlich gestiegen. Genauer gesagt kostet die Eingabe von K2.6 pro Million Token 6,5 Yuan (bei Cache-Nicht-Treffer), was eine Steigerung von etwa 62,5 % gegenüber den 4 Yuan von K2.5 darstellt. Bei Cache-Treffern beträgt der Eingabepreis 1,1 Yuan, was ebenfalls höher ist als die vorherigen 0,7 Yuan. Der Ausgabepreis wurde von 21 Yuan auf 27 Yuan erhöht. In Bezug auf die Fensterkapazität bietet K2.6 einen Kontextfenster-Support von 262.144 Token.

Derzeit sind über hundert von der offiziellen Seite empfohlene Skills in der Kimi Agent-Modus integriert, der die Erstellung und den Aufruf von Skills unterstützt. Der Agent-Cluster kann Agenten mit verschiedenen Fähigkeiten koordiniert einsetzen, um Such-, Deep-Research-, Dokumentenanalyse- und Langtext-Erstellung-Fähigkeiten zu kombinieren und komplexe Aufgaben zu bewältigen.

Zur gleichen Zeit erforscht das Kimi-Team auch die Richtung " Claw-Gruppen", die derzeit in einer kleinen internen Testphase ist.

Kimi K2.6 ist jetzt auf kimi.com, der neuesten Version der Kimi-Anwendung, der Kimi API und dem Kimi Code-Programmierassistenten verfügbar, und alle Benutzer können es sofort nutzen. Zhidongxi hat auch einige praktische Tests durchgeführt und in der K2.6 Thinking-Modus zwei multimodale kreative Beispiele erstellt.

Schnelltest: kimi.com

Verwendung der Kimi API:

https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart

Open-Source-Adresse:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.6

01. Eigenbau eines 3D-Sandbox-Spiels und präzise Zeichnung eines Pixel-Pelikans: Praxis-Test von K2.6

Um die multimodalen und Code-Generierungsfähigkeiten von K2.6 direkt zu überprüfen, haben wir zwei herausfordernde kreative Tests in der K2.6 Thinking-Modus durchgeführt.

Das erste Erfahrungsbeispiel war, K2.6 aufzufordern, ein 3D-Seiten-Scroller-Kampfspiel zu erstellen.

Anweisung: Erstelle ein 3D-Seiten-Scroller-Kampfspiel in einer einzigen HTML-Datei. Die Szene ist eine verwüstete Stadtkarte, die von den Decepticons besetzt wurde. Die Gegner sind humanoide Cybertronische Roboter. Das Spiel sollte einen Rückstoßeffekt der Waffen haben und einen Low-Poly-Stil mit karikaturartiger Ästhetik aufweisen. Zu Beginn des Spiels befindet sich der Spieler auf einer Straße, umgeben von Gebäuderuinen. Das Spiel sollte detaillierte Gegenstände enthalten, die umgeworfen werden können, wie Autos, Bäume, Steine/Splitter und Getränkeautomaten. Der Spieler kann aus 5 Autobot-Charakteren wählen und gegen 5 verschiedene Decepticon-Varianten kämpfen. Diese Gegner werden ständig neu generiert, und das Spiel ist ein Sandbox-Modus mit unbegrenzter Zeit.

Die praktischen Tests zeigen, dass K2.6 in der Wiedergabe der Spiellogik und der Elemente hervorragend abschneidet. Die in der Anweisung geforderten Umgebungs-Elemente wie Autos und Ruinen sind gut dargestellt, und die 5 Autobot-Charaktere sind auch wie versprochen vorhanden.

Aber bei der Verständnis der Raumkoordinaten gab es ein Problem, das möglicherweise auf eine Kontamination der Anweisung zurückzuführen ist – Da es sich um ein "3D-Seiten-Scroller" handelt, bewegt sich der vom Spieler gesteuerte Charakter schließlich auf und ab, anstatt sich wie in einem typischen Seiten-Scroller nach links und rechts zu bewegen.

Das zweite Erfahrungsbeispiel war, ein 3D-Pixel-Art-Werkstück mit einem radfahrenden Pelikan zu erstellen.

Anweisung: Erstelle ein 3D-Pixel-Art-Werkstück mit einem radfahrenden Pelikan. Mache die Szene so detailliert wie möglich. Beachte jedes kleine Detail am Hauptmodell und auch die Details der Umgebung. Fertige es in einem HTML-Codeblock an und schreibe den Code so gut wie möglich, um zu zeigen, dass du anderen Werken überlegen bist. Ich gebe dir volle kreative Freiheit, also gib dein Bestes.

Das von K2.6 generierte Bild ist ziemlich schön. Es bietet die Wahl zwischen einem Tages- und einem Nacht-Szenario und unterstützt die manuelle Einstellung der Fahrgeschwindigkeit. Die Körperstruktur und die Fahrhaltung des Pelikans sind natürlich und vernünftig, und die Details des Fahrrads wie Rahmen, Kette und Sitz sind auch sehr vollständig. Aber im Bewegungszustand ist die Pedalbewegung der Füße des Pelikans nicht synchron mit der physikalischen Bewegungsbahn der Pedale, was nicht mit den physikalischen Gesetzen übereinstimmt.

Insgesamt hat die Kombination der multimodalen Verständnis und der Frontend-Code-Ausgabe einen ziemlich guten Abschluss erreicht.

02. 13 Stunden kontinuierliches Codieren: Fortschritte in der Langzeit-Codierungsfähigkeit

Die Langzeit-Codierungsfähigkeit ist einer der wichtigsten Durchbrüche von K2.6.

Angesichts echter Herausforderungen in der Softwareentwicklung hat K2.6 eine solide Generalisierungs- und

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Yang Zhilin hat die Arbeit abgeschlossen. Kimi K2.6 hat die Quelle vorzeitig geöffnet und 300 Agenten in Dienst gestellt. In der praktischen Testphase wurde ein 3D-Kampfspiel programmiert.

01. Eigenbau eines 3D-Sandbox-Spiels und präzise Zeichnung eines Pixel-Pelikans: Praxis-Test von K2.6

02. 13 Stunden kontinuierliches Codieren: Fortschritte in der Langzeit-Codierungsfähigkeit