Kann man fehlerfrei Sudoku zeichnen und Kerzen anzünden? Zhejiang-Universität und Alibaba lassen KI vor dem Handeln nachdenken

Von Daten bis Algorithmen: Aufbau einer ausführbaren Denk-Kette

Derzeit befindet sich die visuelle Generierung in einer Dilemma-Situation der fehlenden Fähigkeiten –

Die Pixelqualität von Diffusionsmodellen ist nahezu perfekt, aber sobald es um Generierungsaufgaben mit logischer Schlussfolgerung geht, scheitern sie immer wieder.

Wenn man das Modell dazu auffordert, „wie ein gelöstes Sudoku aussieht“ oder „den Zustand einer Kerze nach 6 Stunden Brennen“ zu zeichnen, erzeugen Open-Source-Modelle entweder logische Halluzinationen oder können die Textanweisungen nicht in präzise visuelle Operationen umsetzen, was zu einer unüberbrückbaren Ausführungslücke führt.

Im Gegensatz dazu verfügen geschlossene Modelle wie Nano Banana und GPT-Image bereits über eine ausgereifte Fähigkeit zur schlussfolgerungsgetriebenen Generierung.

Liegt der Unterschied zwischen Open-Source- und Closed-Source-Modellen wirklich an der Schwäche des Generators?

Die Forschungsgruppe der Zhejiang-Universität in Zusammenarbeit mit Alibaba gibt die Antwort: Das Problem liegt nicht in den „Händen“, sondern im Fehlen eines unabhängigen „Gehirns“.

Ihr vorgeschlagenes Unified Thinker, ein universeller Schlussfolgerungskern, der Denken und Ausführung vollständig entkoppelt, bringt die Bildgenerierung von einer „End-to-End-Schwarzbox-Mapping“ auf eine „modulare Denkpfadplanung“.

Diese Arbeit wurde von der ACL 2026 offiziell als Vortrag angenommen.

Schlussfolgerung sollte nicht nur eine „Selbstbefriedigung“ im Textraum sein

Das Problem vieler multimodaler Generierungsmodelle liegt oft nicht darin, ob sie denken können, sondern darin, ob sie nach dem Denken die Gedanken in ein Bild umsetzen können.

Wer sich im Bild befindet, wie die Positionsbeziehungen sind, wie die Aktionen ablaufen, wie sich der Zustand vor und nachher ändert und welche Informationen visuell dargestellt werden sollen.

Wenn die Schlussfolgerung weiterhin im Textraum zirkuliert, kann es leicht zu einer peinlichen Situation kommen: Die Sprache klingt logisch, aber das generierte Bild sieht ganz anders aus.

Die bestehenden multimodalen Generierungspfade sind grob in zwei Technologierouten gefangen.

Eine ist das All-in-One-Modell, das versucht, Verständnis und Generierung in einem einzigen Netzwerk zu vereinbaren. Diese enge Kopplung führt oft zu instabilem Training, und es ist schwierig, sowohl Generierungsqualität als auch logische Schlussfolgerung zu erreichen.

Die andere ist das Externmodell, das ein allgemeines LLM als Planner verwendet. Dies führt jedoch zu einem ernsthaften Problem der Semantik-Visuelle-Missausrichtung (Semantic-Visual Misalignment).

Was das LLM für eine logische Beschreibung hält, kann das Diffusionsmodell möglicherweise aufgrund des Mangels an entsprechenden visuellen Priors nicht ausführen.

△

Der Kern-Einsight von Unified Thinker besteht darin –

Schlussfolgerung sollte nicht nur eine logische Ableitung im Textraum sein, sondern muss ein „ausführbarer Plan (Executable Plan)“ sein.

Die Forscher haben ein unabhängiges Thinker-Modul entwickelt, das nicht direkt Pixel generiert, sondern als Gehirn fungiert und dafür zuständig ist, die unklare Benutzerabsicht in eine hierarchische, strukturierte und für den downstream-Generator freundliche Zwischenrepräsentation zu zerlegen.

Der Generator fungiert als Hände und konzentriert sich auf die hochpräzise Pixel-Synthese.

Diese Entkopplungsdesign erlaubt es nicht nur den Entwicklern, die logischen Fähigkeiten des Gehirns separat zu verbessern, sondern auch die logischen Fähigkeiten zwischen verschiedenen Generierungsbases (wie Qwen-Image, BAGEL usw.) zu übertragen.

Von Daten zu Algorithmen: Aufbau eines ausführbaren Denkpfads

Um das „Denken“ wirklich in das Bild umzusetzen, hat die Forschungsgruppe nicht nur auf der Ebene der Modellstruktur gearbeitet, sondern auch von der untersten Ebene der Daten-Engineering angefangen.

Sie haben einen Datensatz mit 40.000 Stichproben erstellt: HieraReason-40K.

Der größte Unterschied zu traditionellen Bild-Text-Paaren besteht darin, dass strukturierte Schlussfolgerungsspuren (Structured Reasoning Trace) eingeführt wurden.

Das heißt, bevor das Modell ein Bild generiert oder bearbeitet, muss es einen festen Denkpfad durchlaufen: Absichtszerlegung → Logikverfestigung → Visuelle Übersetzung.

Zuerst muss entschieden werden, was der Benutzer wirklich ändern möchte, dann werden die abstrakten Anforderungen in konkrete visuelle Elemente zerlegt und schließlich in Anweisungen umgewandelt, die der downstream-Generator ausführen kann.

Darüber hinaus haben die Forscher in der Bildbearbeitungsszene eine „Goldene Regel“ vorgeschlagen –

Es ist streng verboten, nicht veränderte Bereiche im Prompt zu beschreiben. Diese Strategie reduziert erheblich die semantische Drift des Diffusionsmodells während der Bearbeitung und stellt sicher, dass der Generierungsprozess präzise fokussiert ist.

Während der Optimierungsphase reicht die Überwachungsfeinabstimmung (SFT) nicht aus, um die tatsächliche Verbesserung der Schlussfolgerungsergebnisse für die Generierung zu gewährleisten.

Dafür hat Unified Thinker ein innovatives Zwei-Phasen-Stärkungslern-Schema basierend auf dem GRPO-Algorithmus eingeführt.

In der Schlussfolgerungsorientierten RL-Phase werden die mehreren Schlussfolgerungspfade, die der Thinker erzeugt, direkt durch die visuelle Qualität der generierten Bilder bewertet. Dies zwingt das Modell, leere Worte zu vermeiden und stattdessen „visuell ausführbare“ Anweisungen zu lernen.

In der Generierungsorientierten RL-Phase wird die Treue des Generators für komplexe Anweisungen durch zufällige Stichproben verbessert. Dieser bidirektionale Feedback-Mechanismus realisiert wirklich die tiefe Zusammenarbeit zwischen Gehirn und Händen.

Zur Entwicklung von „Zuerst planen, dann generieren“

Die Experimentergebnisse bestätigen auch den Wert dieser Entkopplungsarchitektur.

In Benchmark-Tests, die die Schlussfolgerungsfähigkeit stärker prüfen, zeichnet sich Unified Thinker besonders aus –

Beispielsweise hat es in RISEBench, das auf die Schlussfolgerungsfähigkeit in der Bildbearbeitung abzielt, und WiseBench, einem wissensintensiven Text-zu-Bild-Task, deutliche Verbesserungen erzielt.

Darüber hinaus ist es in Aufgaben, die Zeitskalenentwicklung (z. B. die Vorhersage des Alterungsprozesses von Objekten) und komplexe räumliche Positionierung betreffen, deutlich besser als die bestehenden Open-Source-Baseline-Modelle und zeigt eine Anweisungsbefolgungsfähigkeit, die mit der von Closed-Source-Modellen vergleichbar ist:

Was noch praktischer ist, ist, dass diese Architektur eine starke Generalisierengfähigkeit hat.

Als ein Plug-and-Play-Schlussfolgerungskern kann die logische Planungsfähigkeit des Thinkers zwischen Modellen übertragen werden.

Experimente zeigen, dass selbst wenn es an eine Generierungsbasis angeschlossen wird, die nicht an der Training beteiligt war, es die logische Ausführungsgenauigkeit der letzteren effektiv verbessern kann.

Aus einer längerfristigen Perspektive kann die Einführung von Unified Thinker als ein Versuch angesehen werden, die visuelle Generierung von der „Wahrscheinlichkeitsanpassung“ hin zur „Logikorientierung“ zu bringen.

In der Vergangenheit hat das Modell mehr auf Merkmalsmatching und Zufallsstichproben zur Generierung von Bildern gestützt; jetzt wird durch die Einführung von interpretierbaren und beeinflussbaren strukturierten Schlussfolgerungsspuren der Generierungsprozess um eine Vorplanungsschicht erweitert und dadurch eine höhere Bestimmtheit erreicht.

Dies bietet auch einen praktikablen Architekturansatz für die zukünftige Konstruktion von generativen Agenten mit eigenständiger Entscheidungsfähigkeit (Generative Agent).

Es ist vorhersehbar, dass mit der weiteren Optimierung der Schlussfolgerungskosten „Zuerst planen, dann generieren“ ein wichtiger Weg zur Verbesserung der visuellen Generierungsqualität werden wird.

Referenzlinks:

[1] Paper-Link: https://arxiv.org/pdf/2601.03127

[2] Code-Repository: https://github.com/LivingFutureLab/UnifiedThinker

[3] Daten-Link: https://huggingface.co/datasets/demo911/HieraReason_40K

Dieser Artikel stammt aus dem WeChat-Account „Liangziwei“. Autor: Forschungsgruppe der Zhejiang-Universität & Alibaba. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kann man nun Fehlerfrei Sudoku zeichnen und Kerzen anzünden? Zhejiang-Universität und Alibaba lassen KI nachdenken, bevor sie handelt.

Schlussfolgerung sollte nicht nur eine „Selbstbefriedigung“ im Textraum sein

Von Daten zu Algorithmen: Aufbau eines ausführbaren Denkpfads

Zur Entwicklung von „Zuerst planen, dann generieren“