Glücksbringer für Anfänger im Bildbearbeiten! Der intelligente Bildbearbeitungs-Agent lässt sich mit einem Satz präzise steuern, um über 200 professionelle Werkzeuge einzusetzen. Entstanden von Tencent Hunyuan und Xiamen Universität.
Mit einem Satz können Sie Ihre Fotos zu Kunstwerken verwandeln. Einfacher als professionelle Software und besser kontrollierbar als AI-Retuschierung!
Tencent Hunyuan und die Xiamen-Universität haben gemeinsam JarvisEvo entwickelt – ein einheitliches Bildbearbeitungs-Intelligenzsystem, das menschliche Experten-Designer nachahmt und durch iterative Bearbeitung, visuelle Wahrnehmung, Selbstbewertung und Selbstreflexion Bilder retuschiert.
„Denken Sie wie ein Experte, feilen Sie wie ein Handwerker.“ JarvisEvo kann nicht nur mit Lightroom Bilder bearbeiten, sondern auch die Veränderungen nach der Bearbeitung „sehen“ und die Qualität selbst beurteilen. Somit kann es sich ohne externe Belohnung weiterentwickeln.
Machen Sie sich nun mit den Details vertraut!
Selbstbewertung und -korrektur
Forschungshintergrund und Motivation
In den letzten Jahren haben auf Anweisungen basierende Bildbearbeitungsmodelle zwar erhebliche Fortschritte erzielt, aber beim Streben nach einem „professionellen“ Retuschiererlebnis stehen sie immer noch vor zwei Kernherausforderungen:
- Anweisungshalluzination (Instruction Hallucination):
Das bestehende Text-Only Chain-of-Thought (Text-only CoT) weist eine Informationsengstelle auf. Das Modell kann während des Inferenzprozesses die Zwischenergebnisse der Bildbearbeitung nicht „sehen“ und muss die visuellen Ergebnisse der nächsten Schritte rein auf der Grundlage von Textannahmen „erfinden“. Dies führt leicht zu Tatsachenfehlern und kann nicht gewährleisten, dass jeder Schritt der Benutzerabsicht entspricht.
- Belohnungshacking (Reward Hacking):
Während des Prozesses der Präferenzausrichtung in der Verstärkungslernphase wird das Strategiemodell (Policy) dynamisch aktualisiert, während das Belohnungsmodell (Reward Model) normalerweise statisch ist. Dies ermöglicht es dem Strategiemodell, die Belohnungsfunktion zu manipulieren, um eine hohe Punktzahl zu erhalten, anstatt die Qualität der Bildbearbeitung und die Fähigkeit zur Selbstbewertung tatsächlich zu verbessern.
Um diese Probleme zu lösen, hat das Team JarvisEvo entwickelt.
iMCoT: Interaktive multimodale Denk-Kette
JarvisEvo bricht die Beschränkungen der traditionellen „blinden Bearbeitung“ auf. Das System führt den iMCoT (Interleaved Multimodal Chain-of-Thought) -Mechanismus ein. Im Gegensatz zur reinen Textinferenz erzeugt JarvisEvo nach jedem Bearbeitungsschritt ein neues Bild und führt die nächste Inferenz auf der Grundlage visueller Rückmeldungen durch.
Das Modell arbeitet in einer Schleife von „Textannahmen generieren -> Werkzeuge ausführen -> visuelle Ergebnisse beobachten -> Entscheidungen reflektieren“, um sicherzustellen, dass jeder Schritt präzise umgesetzt wird.
SEPO: Synergetische Bearbeitungs-Bewertungs-Strategieoptimierung
Dies ist der Motor für die „Selbstentwicklung“ von JarvisEvo. Das Team hat den SEPO (Synergistic Editor-Evaluator Policy Optimization) -Rahmen entwickelt, der zwei koevolvierende Optimierungsschleifen umfasst:
Optimierungsschleife des Bearbeiters (Loop 1): Das Modell nutzt die Selbstbewertungspunkte als interne Belohnung und ist somit unabhängig von externen Belohnungsmodellen, die leicht manipuliert werden können.
Optimierungsschleife des Bewertenden (Loop 2): Das System nutzt menschliche Annotationen, um die Bewertungsfähigkeit des Modells kontinuierlich zu kalibrieren und zu verhindern, dass es sich bei der Selbstbewertung täuscht.
Online-Reflexion und Selbstkorrektur
JarvisEvo kann aus Fehlern lernen. Während des Trainingsverfahrens vergleicht das System automatisch Trajektorien mit niedrigen Punktzahlen mit solchen mit hohen Punktzahlen und erzeugt Reflexionsdaten (Reflection Data). Durch die Analyse von „Warum wurde die Bearbeitung falsch gemacht?“ und „Wie kann es korrigiert werden?“ erlernt das Modell eine starke Fähigkeit zur Selbstkorrektur.
Wie ein Mensch „sehen und bearbeiten“
Systemarchitektur von JarvisEvo
Das traditionelle Text-Only Chain-of-Thought (Text-only CoT) führt normalerweise eine „blinde Bearbeitung“ durch, d. h. es generiert alle Schritte auf einmal.
JarvisEvo hingegen nutzt die interaktive multimodale Denk-Kette (iMCoT), die den geschlossenen Arbeitsablauf eines menschlichen Designers „Beobachten - Handeln - Prüfen“ nachahmt.
Der gesamte Inferenzprozess besteht aus vier Kernschritten:
1. Visuelle Wahrnehmung und Planung (Perception & Planning): Das Modell analysiert zunächst das Originalbild (I) und die Benutzeranweisung (Q) und erzeugt eine anfängliche Idee zur Bildbearbeitung.
2. Mehrschrittige Werkzeugausführung (Step-by-Step Execution):
Das Modell erzeugt alternierende Textinferenzinhalte (C) und Werkzeugaufrufanweisungen (T).
Werkzeug-Sandbox (Sandbox): Die Anweisungen werden an die externe Adobe Lightroom-Umgebung gesendet und ausgeführt, um ein Zwischenbild (O) zu erzeugen.
Visuelle Rückmeldung (Visual Feedback): Dies ist von entscheidender Bedeutung. Das Modell kann das gerade bearbeitete Bild „sehen“ und entscheidet auf der Grundlage des neuesten visuellen Zustands, ob es weiter anpasst oder Fehler korrigiert.
3. Selbstbewertung (Self-Evaluation): Nach Abschluss der Bildbearbeitung bewertet das Modell die ästhetische Qualität und die Übereinstimmung mit der Anweisung des Endbildes (Ot) selbst (S).
4. Selbstreflexion (Self-Reflection): Wenn das Ergebnis nicht zufriedenstellend ist, löst das Modell einen Reflexionsmechanismus aus, analysiert die Ursache der Abweichung und versucht, sie zu korrigieren.
Drei-Phasen-Trainingsrahmen
Um einen solchen allumfassenden Agenten zu entwickeln, hat das Team einen strengen Drei-Phasen-Trainingsablauf entworfen:
Phase 1: Kaltstart-Supervised Fine-Tuning (Cold-Start SFT)
Datenmenge: 150.000 annotierte Stichproben (110.000 Bearbeitungsdaten + 40.000 Bewertungsdaten).
Ziel: Das Modell lernt die „Grundlagen“. Dies umfasst die Beherrschung der Grammatik der multimodalen Inferenz, die alternierende Erzeugung von Text- und Bildinhalten, das Auswählen der richtigen Werkzeuge anhand visueller Hinweise und die erste Etablierung einer ästhetischen Bewertungsfähigkeit.
Phase 2: SEPO-Verstärkungslernen (The Evolution)
Datenmenge: 20.000 Standardanweisungsdaten (10.000 Bearbeitung + 10.000 Bewertung).
Kernmechanismus: Einführung der synergetischen Bearbeitungs-Bewertungs-Strategieoptimierung (SEPO). In dieser Phase entzieht sich das Modell der Nachahmung von Standardlösungen und beginnt, eigenständig zu erkunden.
Doppeloptimierungsantrieb: In dieser Phase entwickelt sich das Modell von einem „Werkzeugnutzer“ zu einem „Fachmann der Bildbearbeitung“. Optimierung des Bearbeiters: Das System optimiert die Retuschierstrategie durch Selbstbelohnung (Self-Reward) und nutzt SLM (Selective Loss Masking), um Belohnungshacking zu verhindern. Optimierung des Bewertenden: Das System nutzt menschliche Bewertungsdaten, um das ästhetische Urteil des Modells zu kalibrieren und sicherzustellen, dass es ein fairer Richter ist.
Phase 3: Reflexions-Fine-Tuning (Reflection Fine-Tuning)
Datenmenge: 5.000 wenige online generierte Reflexionsstichproben.
Ziel: Dies ist der Schlüssel für die Fähigkeit von JarvisEvo zur „Selbstkorrektur“. Durch das Lernen, wie man auf fehlerhaften Pfaden reflektiert und korrigiert, wird die Robustheit des Modells bei der Verarbeitung komplexer Anweisungen erheblich verbessert.
SEPO: Synergetische Bearbeitungs-Bewertungs-Strategieoptimierung
In der traditionellen Verstärkungslernphase (RLHF) basiert das Modell normalerweise auf einem statischen „Belohnungsmodell“ zur Punktzahlvergabe.
Dies hat jedoch einen fatalen Mangel: Je stärker das Strategiemodell wird, desto besser lernt es, die Belohnungsfunktion zu manipulieren (Reward Hacking), d. h. es erzeugt bestimmte, merkwürdige Muster, um eine hohe Punktzahl zu erhalten, anstatt seine Bearbeitungsfähigkeit tatsächlich zu verbessern.
Um dieses Problem zu lösen, hat JarvisEvo den SEPO-Rahmen entwickelt. Die Kernidee besteht darin, dass das Modell sowohl der „Athlet“ als auch der „Schiedsrichter“ ist und dass diese beiden Fähigkeiten durch zwei parallele Optimierungsschleifen synchron verbessert und sich gegenseitig kontrollieren.
Optimierungsschleife des Bearbeiters (Loop 1) (Editor Policy Optimization) lehrt das Modell, wie es die Werkzeuge besser nutzen kann, um gute Bilder zu bearbeiten.
Selbstbelohnungsmechanismus (Self-Reward): JarvisEvo verlässt sich nicht mehr auf die Punktzahlvergabe eines externen Black-Box-Modells, sondern nutzt seine eigene Selbstbewertungsfähigkeit. Nach der Erzeugung eines Retuschierpfades bewertet das Modell die ästhetische Qualität und die Anweisungseinhaltung des Endbildes selbst.
GRPO-Optimierungsziel: Es wird die Gruppen-relative Strategieoptimierung (Group Relative Policy Optimization) angewendet. Für die gleiche Eingabe erzeugt das Modell mehrere Retuschierpfade und aktualisiert sich anhand des Vergleichs der „Siegesquote“ (Pairwise Preference Reward) dieser Pfade, anstatt sich ausschließlich auf absolute Punktzahlen zu verlassen. Dies macht das Training stabiler.
Das selektive Loss-Masking (SLM) ist die Schlüsseltechnik. Dies ist ein Mechanismus, um „Betrug“ zu verhindern. Ohne SLM könnte das Modell entdecken: „Wenn ich am Ende einen Selbstbewertungstext mit vollem Punktestand erzeuge, wird der Verlust kleiner.“
Um diese „Informationsleckage“ zu verhindern, werden die Token der Selbstbewertung beim Berechnen des Gradienten des Editors zwangsweise ausgeblendet. Dadurch wird das Modell gezwungen, die Punktzahl indirekt durch die Verbesserung der Inferenzqualität (Chain-of-Thought) und der Genauigkeit der Werkzeugnutzung (Tool Use) zu erhöhen, anstatt direkt einen Text mit hoher Punktzahl zu erzeugen.
Die Optimierungsschleife des Bewertenden (Evaluator Policy Optimization) stellt sicher, dass der „Schiedsrichter“ fair, objektiv und der menschlichen Ästhetik entspricht.
Verifizierbares Verstärkungslernen (Verifiable RL): Obwohl Loop 1 auf Selbstbewertung basiert, was ist, wenn der Schiedsrichter selbst ein verfälschtes ästhetisches Urteil hat? Loop 2 löst dieses Problem speziell. Wir nutzen einen Datensatz mit menschlichen Expertenannotationen (Human-Annotated), um die Bewertungsfähigkeit des Modells zu trainieren.
Score-Alignment-Belohnung (Score Alignment Reward): In dieser Schleife hängt die Belohnung von der Übereinstimmung zwischen der Modellbewertung und der menschlichen Expertenbewertung ab.
Funktion: Diese Schleife kalibriert kontinuierlich das ästhetische Urteil des Modells, verhindert, dass es sich in Loop 1 in eine selbsttäuschende Selbstzufriedenheit verliert und gewährleistet die Qualität des Selbstbelohnungssignals.
Diese beiden Schleifen werden abwechselnd durchgeführt und erzeugen eine Art „Zwei-Handed-Fighting“-Entwicklungseffekt, der die Beschränkungen des statischen Belohnungsmodells aufbricht und eine geschlossene, nachhaltige Selbstverbesserung ermöglicht.
Online-Reflexionsdaten-Generierungsmechanismus (On-Policy Reflection)
Wie lernt JarvisEvo, aus Fehlern zu lernen? Das Team hat während der Trainingsphase 2 einen automatisierten Datengenerierungsmechanismus implementiert:
Triggersituation: Wenn das Modell einen besseren Retuschierpfad (Trajectory0) mit einer höheren Punktzahl (s0) erzeugt als bei einem früheren Versuch (Trajectory3) mit der Punktzahl (s3), wird die Reflexionsgenerierung ausgelöst.
Attributionsanalyse: Ein kommerzielles Großmodell (z. B. Gemini-2.5-Pro) wird als „Mentor“ aufgerufen und bekommt das Quellbild, das fehlerhafte Retuschierergebnis O3, das korrekte Retuschierergebnis O0 und die Benutzeranweisung als Eingabe.
Generierung der Reflexionskette: Der „Mentor“ erzeugt einen detaillierten Analysetext (R), der erklärt, warum O3 fehlgeschlagen ist (z. B. „Die Weißabgleichparameter waren zu hoch eingestellt, was zu Farbverschiebungen führte“) und die richtige Vorgehensweise angibt.
Erstellung einer Stichprobe: Der vollständige Pfad, der „fehlerhafter Versuch -> tiefgreifende Reflexion ->