Kimi K2.5: Extrahiere Code aus Bildschirmaufnahmen und bearbeite Webseiten über Screenshots - Perfekt für das Zusammenspiel von "Visuellem x Code"!

Es ist nicht mehr notwendig, an den Anweisungswörtern zu klauben.

Ehrlich gesagt, ändert sich die KI - Szene so schnell, dass es einem vorkommt, als würde sich der Himmel von einem Augenblick zum anderen verändern. Es kommen ständig neue Produkte auf den Markt. Kein Wunder, dass die Internetnutzer schon sagen: "Bitte hören Sie auf, so oft zu aktualisieren."

△

Und siehe da, als ich heute aufwachte, sah ich schon wieder etwas Neues.

Haben Sie jemals ein Modell gesehen, das direkt aus einem Bildschirmvideo Effekt - Codes extrahieren und diese wiederholen kann? Ich auf jeden Fall nicht, und jetzt bin ich beeindruckt.

Ich habe einfach ein Video aus meinem Fotoalbum ausgewählt, hochgeladen und dann die Worte "Implementiere diesen Interaktionseffekt" eingegeben:

Nachdem das Modell seine Arbeit erledigt hatte, hatte ich das folgende Ergebnis:

Man kann nur sagen, bevor die Filme im Frühlingsfest - Zeitraum überhaupt angekündigt werden, hat die chinesische Open - Source - Bewegung schon unaufhaltsam Fahrt aufgenommen.

Dies ist das neueste und stärkste Agentic - Modell Kimi K2.5 von Moonshot AI. Seit seiner Veröffentlichung hat es auf Twitter enorme Popularität erlangt.

Der Chef Yang Zhilin hat selbst Videos in chinesischer und englischer Sprache zur Einführung des neuen Modells aufgenommen.

Aus den Videos geht hervor, dass Kimi K2.5 viele Verbesserungen aufweist:

Es integriert visuelles und textuelles Verständnis, Denken und Sofortreaktion, Dialog und Agent - Funktionen in einem einzigen System, also All in one.
Es verfügt über ästhetisches Designverständnis und kann Webseiten mit hochwertigen Animationen generieren.
Es unterstützt visuelle Bearbeitung (visual edit). Man kann einfach einen Screenshot machen, einen Bereich markieren und die Benutzeroberfläche ändern. Wenn man ein Animations - Videoupload macht, kann es die Logik automatisch analysieren und professionelle Codes generieren.
Es bietet das Programmierwerkzeug Kimi Code, das in der Kommandozeile ausgeführt werden kann und nahtlos in IDEs wie VSCode und Cursor integriert werden kann. Es unterstützt die Eingabe von Bildern und Videos und kann die bestehenden Fähigkeiten und MCP der Benutzer automatisch übernehmen.

Ich wollte eigentlich nur kurz ausprobieren, nachdem ich die Einführung gelesen hatte, aber es war tatsächlich ziemlich interessant.

Also lasst uns genauer darauf eingehen und weiter testen!

Visuelle Fähigkeiten sind das Trumpfblatt

Bevor ich es selbst testete, schauen wir uns zunächst die Testergebnisse von Kimi K2.5 an.

K2.5 hat in hochschwierigen Testsets wie HLE, BrowseComp und DeepSearchQA, die als "letzte Prüfung für Menschen" gelten, SOTA - Ergebnisse erzielt.

In Bezug auf die Programmierung hat es in SWE - bench Verified eine Punktzahl von 77 erreicht und als Open - Source - Modell die Lücke zu den besten Closed - Source - Modellen verringert.

Es hat auch in mehreren Tests zur visuellen Wahrnehmung neue Höchstleistungen erzielt. Interessanterweise hat K2.5 in einigen Bewertungen sogar bessere Ergebnisse als GPT - 5.2 - xhigh erzielt.

Kimi K2.5 hat jetzt vier Nutzungsmodelle, die verschiedenen Szenarien angepasst sind. Egal, was Sie brauchen, Sie finden das passende Modell.

Das Schnellmodell bietet schnelle Rückmeldungen und ist ideal für alltägliche Gespräche oder einfache Abfragen.
Das Denkmodell konzentriert sich auf schwierige Probleme und hilft Ihnen, komplexe Logiken Schritt für Schritt zu analysieren.
Das Agent - Modell ist gut darin, tiefergehende Recherchen durchzuführen, z. B. für Studien, die Generierung von Bürodokumenten oder Webseiten.
Das stärkste ist das Agent - Cluster - Modell. Für superkomplexe Aufgaben, die Multithreading erfordern, kann es eine Vielzahl von Agent - Kopien parallel einsetzen.

Beim Beispiel der Effektwiederholung am Anfang habe ich das Agent - Cluster - Modell verwendet. Kimi hat mir einen Entwickler namens Ache zugewiesen.

Es ist bekannt, dass es nichts bringt, nur zu reden und nicht zu handeln. Da das Modell auf "Visuelle Fähigkeiten x Code" setzt, lasst uns die Code - Fähigkeiten von K2.5 testen.

Das erste Testprojekt ist Code generieren anhand eines Bildes.

Ich habe einen Screenshot einer Musikplayer - Webseite an K2.5 hochgeladen, um es als Referenz zu verwenden:

Dann habe ich den Hinweis eingegeben:

Generiere den entsprechenden Code anhand dieser Webseite.

Nach kurzer Zeit war ein vollständiger Code fertig.

Die generierte Webseite hat nicht nur die Funktionen des ursprünglichen Designs wiedergegeben, sondern auch die Hover - Animationen der Buttons und die Scrollfunktion der Musikfortschrittsleiste implementiert.

Tatsächlich war die Auflösung des Referenzbildes nicht sehr hoch, aber das Modell konnte es dennoch präzise erkennen.

Das Musikcover auf der Webseite wurde vom Modell selbst generiert. Außer der Button - Anordnung unten wurde das Design fast vollständig wiedergegeben. Ich würde sagen, das ist ein ausgezeichnetes Ergebnis mit einer Wiedergabegenauigkeit von über 90%.

Natürlich kann man auf dem hochgeladenen Referenzbild ein rotes Ausrufezeichen sehen. Trotzdem kann das Modell das Bild erkennen und analysieren. Vielleicht haben alle Modelle kleine Fehler, aber wenn es die Arbeit erledigen kann, ist das nicht so schlimm (doge).

Außer der Fähigkeit, Code anhand von Bildern zu generieren, kann K2.5 auch Code anhand von Screenshots ändern.

Nehmen wir die Musikplayer - Webseite, die ich gerade generiert habe. Ich wollte die Anordnung des Players ändern, also habe ich einen Screenshot gemacht und den Hauptteil des Players markiert:

Dann habe ich K2.5 gesagt:

Setze diesen Teil in die linke untere Ecke.

Das Modell hat sofort verstanden, was ich wollte, und innerhalb von 2 Minuten den geänderten Code geliefert. Als ich die Webseite aktualisiert habe, hatte sich nur die Anordnung des markierten Teils geändert, der Rest blieb unverändert. Es war sehr präzise (und diesmal war kein rotes Ausrufezeichen da, hhh).

Der gesamte Prozess war so intuitiv wie das Bearbeiten in einem Grafikprogramm und ersparte mir die mühsame Beschreibung in langen Texten.

Ich habe es mehrere Male getestet und festgestellt, dass das Modell auch dann, wenn der markierte Bereich unscharf oder unvollständig ist, die Absicht intelligent ergänzen kann und so das häufige Missverstehen von KI - Systemen vermeidet.

Zum Beispiel fand ich die Farbgebung des Musikplayers ein wenig langweilig, also habe ich einen Screenshot gemacht und nur den linken Seitenbereich des Players markiert:

Ich habe K2.5 gesagt, dass ich die Farbgebung in Morandi - Farben ändern möchte:

Die Farbgebung in diesem Bereich ist ein wenig langweilig. Ändere sie in Morandi - Farben.

Das Modell hat erneut sofort verstanden, was ich wollte, und innerhalb von 5 Minuten den geänderten Code geliefert. Als ich die Webseite aktualisiert habe, habe ich festgestellt, dass die vom Modell gewählten Farben gut harmonieren und es sogar eine "Pseudo - Farbverlauf" erstellt hat.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mit der Kimi K2.5 kann man Code aus einem Bildschirmaufnahme extrahieren und Webseiten über Screenshots bearbeiten. Sie versteht das Zusammenspiel von "Visuellem x Code" perfekt.

Visuelle Fähigkeiten sind das Trumpfblatt