Der 4K Super-Resolution Agent, der Bildbearbeiter, ist hier. Rettet alle unscharfen Fotos mit einem Klick!
Ob alte Fotos mit Papierpatina, von KI generierte Bilder mit niedriger Auflösung oder Fernerkundungs- / medizinische Bilder sind - alle können jetzt intelligent repariert und auf 4K-Ultra-HD-Auflösung vergrößert werden.
Die Verbesserung der Bildschärfe ist seit langem ein "altes Problem" in der Computervision. Bei komplexen Verschlechterungen wie Rauschen, Unschärfe und Kompressionsschäden sowie bei Bildern aus anderen Bereichen wie KI-Synthese, Fernerkundung und Biomedizin sind herkömmliche Einzelsmodelle oft überfordert.
Die von Forschern aus der Texas A&M University, der Stanford University, Snap Inc., der University of Colorado Boulder, der University of Texas at Austin, der California Institute of Technology, Topaz Labs und der University of California, Merced gemeinsam vorgeschlagene KI-basierte Methode 4KAgent repariert Bilder unterschiedlicher Typen intelligent und vergrößert sie auf 4K-Auflösung, um hervorragende visuelle Wahrnehmungseffekte zu erzielen. Diese Arbeit wurde von NeurIPS 2025 akzeptiert.
Warum reichen die aktuellen Bildvergrößerungstechniken nicht aus?
Herkömmliche Bildvergrößerungsmodelle funktionieren normalerweise nur gut für bestimmte Bildtypen. Sobald sie komplexe Unschärfen in der realen Welt, Artefakte von KI-generierten Bildern oder spezielle Bilder aus der Fernerkundung und Medizin begegnen, scheinen sie überfordert.
Das Vergrößern der Auflösung auf 4K stellt hohe Anforderungen an die Detailwiederherstellung und die Echtheit der Texturen.
Aus der Sicht der meisten Benutzer wäre es ideal, wenn es einen universellen und steuerbaren Rahmen gäbe, um die verschiedenen Anforderungen an die Auflösungsverbesserung von Bildern zu erfüllen. 4KAgent ist genau unter diesen realen Herausforderungen und Anforderungen entstanden.
Basierend auf einem Multi-Agenten-Design kann 4KAgent für jedes Bild einen Weg zur 4K-Auflösung planen.
△
Wie funktioniert 4KAgent? Aufbau der drei Module
1. Intelligentes "Lesen" des Bildes und Diagnose des Problems
Der Wahrnehmungs-Agent (Perception Agent) analysiert den Bildinhalt und die Verschlechterungsinformationen im Bild und gibt dem Wiederherstellungs-Agenten einen Ausführungsplan.
Zunächst ruft der Bildanalysator (Image Analyzer) mehrere Bildqualitätsbewertungstools auf, um die Qualität des Eingabebildes zu bewerten und mehrere Wahrnehmungsqualitätsindizes QI = (Q1, Q2, ...) des Eingabebildes zu erhalten.
Dann führt die Verschlechterungsinferenz (Degradation Reasoning) mithilfe eines visuellen Sprachmodells (VLM) auf der Grundlage des Eingabebildes und der Wahrnehmungsqualitätsindizes QI eine Inferenz durch, um die im Bild vorhandenen Verschlechterungsinformationen DI und eine vorläufige Liste der Wiederherstellungsaufgaben AI′ zu erhalten. Gleichzeitig wird der Vergrößerungsfaktor (Upscaling Factor Configuration) konfiguriert: Der Vergrößerungsfaktor s, der erforderlich ist, um das Bild auf 4K-Auflösung zu vergrößern, wird berechnet, und die entsprechende Bildüberauflösungsaufgabe wird der vorläufigen Liste der Wiederherstellungsaufgaben AI′ hinzugefügt, um die endgültige Liste der Wiederherstellungsaufgaben AI zu erhalten.
Schließlich erstellt die Aufgabenplanung (Task Planning) auf der Grundlage der in den vorherigen Schritten erhaltenen Informationen mithilfe eines großen Sprachmodells (LLM) oder eines visuellen Sprachmodells (VLM) für das Eingabebild einen Wiederherstellungsplan (Restoration Plan) PI: die Ausführungsreihenfolge der Wiederherstellungsaufgaben.
2. "Ausführen - Nachdenken - Rückgängigmachen", ständiges Ausprobieren und Optimieren
Der Wiederherstellungs-Agent (Restoration Agent) verwendet beim Ausführen jeder Aufgabe im Wiederherstellungsplan PI das "Ausführen - Nachdenken - Rückgängigmachen (execution–reflection–rollback)"-Mechanismus:
Im Ausführungs (Execution) -Phase führt 4KAgent die Wiederherstellungsaufgaben in PI nacheinander aus. 4KAgent unterstützt hauptsächlich neun verschiedene Wiederherstellungsaufgaben und hat die state-of-the-art-Modelle für die entsprechenden Aufgaben gesammelt, um eine Werkzeugleiste zu erstellen. 4KAgent ruft verschiedene Modelle in der Werkzeugleiste auf, um mehrere Kandidaten für das wiederhergestellte Bild zu erhalten.
△
Im Nachdenken (Reflection) -Phase bewertet der Wiederherstellungs-Agent die Kandidaten für das wiederhergestellte Bild auf der Grundlage der Qualitätsbewertung QS und wählt dasjenige mit der höchsten Punktzahl als Ausgabe aus. Die in 4KAgent entworfene QS kombiniert die referenzfreien Bildqualitätsindizes (NIQE, MANIQA, MUSIQ, CLIPIQA) sowie die menschlichen Präferenzpunkte HPSv2. Der gesamte Prozess kann als ein qualitätsgesteuertes Expertensystem Q-MoE (Quality-driven MoE) angesehen werden: Das Eingabebild wird zunächst von mehreren Wiederherstellungsexperten in Kandidaten umgewandelt, und dann wählt das Nachdenkmodul das beste Ergebnis aus.
Wenn die Qualitätsbewertung des ausgewählten Bildes unter dem Schwellenwert η liegt, wird der Rückgängigmachen (Rollback) -Mechanismus ausgelöst: 4KAgent erzeugt Kontextinformationen und übergibt sie an den Wahrnehmungs-Agenten, um einen neuen Wiederherstellungsplan PIadj zu generieren und eine neue Wiederherstellungsaufgabe für den aktuellen Schritt zuzuweisen.
△
Darüber hinaus integriert 4KAgent ein Gesichtswiederherstellungsmodul (Face Restoration Pipeline): Es erkennt und schneidet die Gesichter im Eingabebild aus. Für jedes Gesicht wendet 4KAgent verschiedene Gesichtswiederherstellungsmethoden an, um mehrere Wiederherstellungsergebnisse zu erhalten, und wählt das Gesicht mit der höchsten Qualität auf der Grundlage der entworfenen Gesichtsqualitätsbewertung Qsf aus und fügt es wieder in das ursprüngliche Bild ein.
4KAgent hat auch einen Fast4K-Modus eingerichtet, um seine Laufzeit zu steuern. Genauer gesagt, wenn die Bildgröße den voreingestellten Schwellenwert St überschreitet, entfernt 4KAgent die Methoden mit längerer Inferenzzeit aus der Werkzeugleiste, um die Inferenz zu beschleunigen.
Flexible Konfiguration für verschiedene Szenarien
Um verschiedenen Bildwiederherstellungsszenarien gerecht zu werden, wurde in 4KAgent ein Konfigurationsmodul (Profile Module) entwickelt, das konfigurierbare Nutzungsvorlieben (z. B. ob die Wahrnehmungsqualität oder die Fidelität priorisiert werden soll, ob das Gesichtswiederherstellungsmodul aktiviert werden soll) bietet, damit 4KAgent verschiedenen Bildwiederherstellungsszenarien angepasst werden kann und keine zusätzlichen Trainings erforderlich sind.
Insgesamt teilt 4KAgent die Aufgaben "Analyse, Entscheidung" und "Ausführung, Nachdenken" auf verschiedene Agenten auf und passt sich flexibel an verschiedene Wiederherstellungsanforderungen an, um eine universelle 4K-Überauflösungsfähigkeit zu erreichen.
Echtzeit-Ergebnisse
4KAgent wurde in 26 Benchmark-Datensätzen für 11 verschiedene Bildüberauflösungsaufgaben umfassend getestet, einschließlich klassischer Bildüberauflösung, Bildüberauflösung in der realen Welt, Wiederherstellung von Bildern mit multiplen Verschlechterungen, Bildüberauflösung großer Skalen (16-fach) und andere Bildüberauflösungsaufgaben in anderen Bildbereichen, wie z. B. KI-generierte Bilder, Fernerkundungsbilder, biomedizinische Bilder usw.
Bei den klassischen Bildüberauflösungsaufgaben (Classical Image SR) und den Bildüberauflösungsaufgaben in der realen Welt (Real-World Image SR) zeigten die von 4KAgent generierten Bilder reichhaltigere und präzisere Details. Beispielsweise die feinen Streifen auf der Baumrinde, die Struktur der Hirschhörner, die Textur der Daunenjacke und die Klarheit der Zahlen.
△
△
Bei der herausfordernden 16-fachen Vergrößerungsaufgabe erzeugt 4KAgent hochauflösende und realistische Texturen, wie z. B. die Texturen von Felsen und Gräsern, die Haar- und Augenbrauentexturen sowie die Augen Details in Gesichtsbildern.
△
Darüber hinaus wurde von der Studie der Testdatensatz DIV4K - 50 erstellt (50 hochqualitative Bilder mit einer Auflösung von 4096 × 4096 wurden auf 256 × 256 herunterskaliert und mit multiplen Verschlechterungen versehen), um die Wiederherstellungs- und Überauflösungsfähigkeit von 256 × 256 → 4096 × 4096 zu testen. In diesem Szenario kann 4KAgent immer feinere und natürlichere Details wiederherstellen, wie z. B. Gesichtsdetails und Haartexturen.
△
Ein universeller 4K-Überauflösungs-"KI-Bildbearbeiter"
4KAgent ist ein steuerbares und universelles KI-System für Bildwiederherstellung und 4K-Überauflösung, das darauf abzielt, verschiedene Bilder auf 4K-Auflösung zu verbessern. 4KAgent hat die Bildwiederherstellungsqualität in mehreren Bereichen verbessert, einschließlich natürlicher Szenen, Porträts, KI-generierten Inhalten sowie spezifischen wissenschaftlichen Moden wie Fernerkundung, Mikroskopie und medizinische Bilder. In umfassenden Bewertungen auf standardisierten Benchmark-Datensätzen und speziellen Datensätzen hat 4KAgent gezeigt, dass es in allen Szenarien hervorragende Wiederherstellungsergebnisse erzielen kann, ohne dass eine erneute Schulung für bestimmte Bereiche erforderlich ist, was seine ausgezeichnete Generalisierungsfähigkeit unterstreicht und praktischen Wert für seine universelle Implementierung in Verbraucher-, Geschäfts- und Forschungsanwendungen bietet.
Projekt-Website: https://4kagent.github.io/
Code-Download: https://github.com/taco-group/4KAgent
Link zur Veröffentlichung: https://arxiv.org/pdf/2507.07105DIV4K-50
Datensatz: https://huggingface.co/datasets/YSZuo/DIV4K-50
Autoren und Forschungsinstitute:
Erster Autor: Yushen Zuo, Forschungsstipendiat an der Texas A&M University
Korrespondierender Autor: