Aus verschwendeten Aufnahmen werden auch Meisterwerke: Die Peking-Universität hat das erste Open-Source-Modell für ästhetische Fotorekonstruktion veröffentlicht
【Einführung】Das Team von Peng Yuxin der Peking-Universität hat eine neue Aufgabe namens "ästhetische Foto-Rekonstruktion" vorgeschlagen. Es hat automatisch den Datensatz AesRecon aus Fotografie-Lehrvideos erstellt und das Zwei-Phasen-Modell AesFormer entwickelt. Durch die Optimierung von Komposition, Perspektive und Körperhaltung wird die Ästhetik und künstlerische Ausdrucksstärke der Fotos verbessert.
Wenn Sie ein Foto machen, kann Ihnen KI vielleicht helfen, es aufzuhellen, zu verschönern oder einen Filter hinzuzufügen. Doch es ist schwierig, es wirklich in das zu verwandeln, was Sie sich vorstellen.
Ein Foto sieht oft nicht gut aus, weil es von Anfang an nicht richtig aufgenommen wurde: Die Komposition ist schief, die Perspektive ist verkehrt oder die Haltung ist starr. Die vorhandenen Bildveredelungstools können die Helligkeit einstellen, Verschönern oder Filter hinzufügen, aber sie können die Komposition nicht neu organisieren, die Aufnahmesichtwinkel nicht korrigieren oder die Körperhaltung nicht anpassen. Daher ist es schwierig, die strukturellen Mängel, die während der Aufnahme entstanden sind, zu beheben.
Um diese Herausforderung zu meistern, hat das Team von Professor Peng Yuxin der Peking-Universität neueste Forschungen im Bereich der ästhetischen Wahrnehmung durchgeführt und die Aufgabe der ästhetischen Foto-Rekonstruktion definiert. Durch die automatische Ermittlung von ästhetischen Sprachmaterialien aus Internet-Fotografie-Lehrvideos hat es den ersten Datensatz und das Bewertungsmaßstab AesRecon für die ästhetische Foto-Rekonstruktion erstellt. Dieser Datensatz enthält 9.071 Paare von Porträtfotos, die den realen Optimierungsprozess von einem gewöhnlichen Originalfoto zu einem herausragenden Endfoto desselben Menschen in derselben Szene aufzeichnen.
Basierend auf diesem Datensatz hat das Team weiter das Modell AesFormer für die ästhetische Foto-Rekonstruktion vorgeschlagen. Durch die Zwei-Phasen-Methode "ästhetische Planung + ästhetische Bearbeitung" kann die KI nicht nur oberflächliche Bearbeitungen wie Farbkorrektur und Verschönern vornehmen, sondern auch die Komposition, die Perspektive und die Körperhaltung anpassen, um die Ästhetik des Fotos auf der Ebene der Bildstruktur zu verbessern. Der zugehörige Artikel wurde von ICML 2026 akzeptiert und ist bereits Open Source.
Link zum Artikel: https://arxiv.org/abs/2605.22126
Open-Source-Code: https://github.com/PKU-ICST-MIPL/AesFormer_ICML2026
Website des Labors: https://www.wict.pku.edu.cn/mipl
Von "oberflächlicher Bearbeitung" zur "Bild-Rekonstruktion"
Fotografieren ist eine wichtige Möglichkeit, alltägliche Szenen, Emotionen und Erinnerungen festzuhalten. Doch die wirklich bewegenden Momente vergehen oft wie im Flug. Um solche Bilder einzufangen, muss der Fotograf in dem Moment, in dem er den Auslöser drückt, schnell entscheiden, wie die Komposition, die Perspektive und die Körperhaltung sein sollen.
Für professionelle Fotografen kommt diese Entscheidung aus systematischer Ausbildung und langjähriger Praxis. Für normale Benutzer fehlt jedoch die Fotografieerfahrung, weshalb die von ihnen aufgenommenen Fotos oft Probleme wie schiefe Komposition, unausgewogene Perspektive oder starre Haltung aufweisen. Dies führt zu einem deutlichen Unterschied zwischen dem tatsächlichen Endfoto und dem gewünschten Idealbild.
Um diesen Unterschied auszugleichen, verwenden Benutzer normalerweise Bildveredelungstools, um die Ästhetik ihrer Fotos zu verbessern. Die vorhandenen Tools lassen sich grob in zwei Kategorien einteilen:
(1) Foto-Farbkorrekturtools, wie automatische Bildbearbeitungsmethoden, Photoshop, Lightroom usw., die hauptsächlich die Farbgebung durch die Einstellung von Belichtung, Helligkeit, Kontrast und anderen grundlegenden visuellen Parametern optimieren;
(2) Porträt-Verschönungstools, wie Hautglättung, Aufhellung, Gesichtsverjüngung usw. Diese Funktionen sind in Anwendungen wie Meitu Xiuxiu und Xingtu weit verbreitet.
Allerdings verbessern diese Methoden hauptsächlich die Farbe, das Licht und das Aussehen der Personen, aber es ist schwierig, die " strukturellen Mängel " zu beheben, die während der Aufnahme entstanden sind. Bei Problemen wie schiefer Komposition, schlechter Perspektive oder starrer Haltung helfen einfache Farbkorrektur oder Verschönern oft nicht.
Mit anderen Worten, den vorhandenen Bildveredelungstools fehlt eine entscheidende Fähigkeit: Die Komposition, die Perspektive und die Körperhaltung eines Fotos auf vernünftige Weise anzupassen, um die Ästhetik des Fotos auf der Ebene der Bildstruktur zu verbessern, während die Identität der Personen und der Inhalt der Szene im Wesentlichen gleich bleiben. Die Forscher haben diese Aufgabe als ästhetische Foto-Rekonstruktion definiert, wie in Abbildung 1 gezeigt.
Abbildung 1. Schematische Darstellung der Aufgabe der ästhetischen Foto-Rekonstruktion
Allerdings ist es nicht einfach, die ästhetische Foto-Rekonstruktion zu verwirklichen. Es gibt hauptsächlich zwei Schwierigkeiten:
(1) Mangel an hochwertigem ästhetischem Sprachmaterial: Die vorhandenen Daten fehlen an Paaren von Porträtfotos desselben Menschen in derselben Szene, die von schlecht nach gut gehen. Dies macht es schwierig, dass das Modell den realen Foto-Rekonstruktionsprozess lernt;
(2) Unzureichende ästhetische Fähigkeiten des Modells: Die vorhandenen Bildbearbeitungsmodelle fehlen an systematischen Fotografieästhetik-Kenntnissen und ästhetischen Urteilsfähigkeiten. Sie können die Probleme eines Fotos nicht genau erkennen und die Bild-Rekonstruktion vernünftig durchführen.
Um diese Probleme zu lösen, hat das Team von Professor Peng Yuxin der Peking-Universität ein neues Verfahren vorgeschlagen. Zunächst hat das Team die Methode VCMP zur Ermittlung von ästhetischem Sprachmaterial aus Fotografie-Lehrvideos vorgeschlagen. Durch die automatische Ermittlung von ästhetischem Sprachmaterial aus Internet-Fotografie-Lehrvideos hat es einen neuen Datensatz und das Bewertungsmaßstab AesRecon für die ästhetische Foto-Rekonstruktion erstellt, der 9.071 Paare von "gewöhnlichen Originalfotos - herausragenden Endfotos" von Porträts enthält.
Basierend auf diesem Datensatz hat das Team weiter das Modell AesFormer für die ästhetische Foto-Rekonstruktion vorgeschlagen, das die Zwei-Phasen-Strategie "ästhetische Planung + ästhetische Bearbeitung" verfolgt:
(1) Ästhetische Planung: Durch die kalte Start-Supervision-Feinabstimmung und die ästhetisch geführte Gruppen-Relativ-Strategie-Optimierung wird das Modell für die ästhetische Planung trainiert, die Probleme eines Fotos zu analysieren und ein ausführbares ästhetisches Optimierungsprogramm zu entwickeln;
(2) Ästhetische Bearbeitung: Durch die Strömungs-Matching-Training unter der Bedingung des ästhetischen Optimierungsprogramms wird das Bildbearbeitungsmodell trainiert, das Optimierungsprogramm in Pixel-Ebene-Bearbeitung umzuwandeln und die Fähigkeit zur Foto-Rekonstruktion zu verbessern.
Die Experimentergebnisse zeigen, dass AesFormer auf dem Bewertungsmaßstab für die ästhetische Foto-Rekonstruktion bessere Ergebnisse als die vorhandenen Methoden erzielt.
Die Forscher haben die Bildveredelung von der oberflächlichen Bearbeitung, die hauptsächlich auf der Anpassung von Farbe, Licht und Aussehen der Personen basiert, zur Bild-Rekonstruktion verbessert, die die Komposition, die Perspektive und die Körperhaltung optimieren kann. Dies bietet einen neuen Forschungsansatz und einen neuen technologischen Weg für die KI, um hochwertige Fotografien zu verstehen und zu generieren.
Technische Lösung
In den vorhandenen Bildressourcen sind Paare von Porträtfotos desselben Menschen in derselben Szene, die von schlecht nach gut gehen, sehr selten. Dies macht es schwierig, dass das Modell den realen Foto-Rekonstruktionsprozess lernt. Internet-Fotografie-Lehrvideos bieten eine praktikable Datenquelle für dieses Problem.
Diese Videos zeichnen normalerweise den gesamten Optimierungsprozess der Aufnahme desselben Menschen in derselben Szene auf: Der Fotograf und das Modelle passen ständig die Kameraeinstellung, die Komposition und die Körperhaltung an, um das Bild von einem gewöhnlichen Originalfoto zu einem ästhetisch ansprechenden Endfoto zu verbessern.
Abbildung 2. Rahmenbild der Methode VCMP zur Ermittlung von ästhetischem Sprachmaterial aus Fotografie-Lehrvideos
Basierend auf dieser Beobachtung haben die Forscher die Methode VCMP zur Ermittlung von ästhetischem Sprachmaterial aus Fotografie-Lehrvideos vorgeschlagen. Durch die automatische Ermittlung von ästhetischem Sprachmaterial aus Internet-Fotografie-Lehrvideos haben sie einen neuen Datensatz und das Bewertungsmaßstab AesRecon für die ästhetische Foto-Rekonstruktion erstellt, wie in Abbildung 2 gezeigt. Genauer gesagt, werden zunächst die relevanten Inhalte wie Fotografie-Tutorials, Haltungsanweisungen und Kompositionstechniken aus Videoplattformen gesucht, um eine Kandidatenmenge von Fotografie-Lehrvideos zu bilden.
Basierend auf diesem Schritt führt VCMP die Ermittlung des Sprachmaterials in vier Phasen durch:
(1) Lokalisierung des herausragenden Endfotos: Das hochwertige, herausragende Endfoto, das als endgültiges Ergebnis gezeigt wird, wird im Video lokalisiert;
(2) Übereinstimmung des gewöhnlichen Originalfotos: Ein gewöhnliches Originalfoto mit demselben Semantik, aber schlechterem Effekt, wird für das lokalisierte herausragende Endfoto übereinstimmt;
(3) Entfernung von Störungen aus dem Foto: Die Überdeckungselemente wie Untertitel, Symbole, Hilfslinien für die Komposition und Bedienungsfenster werden aus den Videoframes entfernt;
(4) Ausrichtung der Aufnahmeereignisse: Es wird überprüft, ob jedes Foto-Paar aus demselben Aufnahmeereignis stammt, und die nicht erfüllenden Proben werden gefiltert.
Schließlich enthält AesRecon 9.071 Paare von streng übereinstimmenden "gewöhnlichen Originalfotos - herausragenden Endfotos" von Porträts.
Abbildung 3. Rahmenbild des Modells AesFormer für die ästhetische Foto-Rekonstruktion
Um das Problem der unzureichenden ästhetischen Fähigkeiten der vorhandenen Bildbearbeitungsmodelle zu lösen, haben die Forscher das Modell AesFormer für die ästhetische Foto-Rekonstruktion vorgeschlagen.
Wie in Abbildung 3 gezeigt, verwendet AesFormer die Zwei-Phasen-Methode "ästhetische Planung + ästhetische Bearbeitung":
(1) Ästhetische Planung: Durch die kalte Start-Supervision-Feinabstimmung und die ästhetisch geführte Gruppen-Relativ-Strategie-Optimierung wird das Modell für die ästhetische Planung trainiert, die Probleme eines Fotos zu analysieren und ein ausführbares ästhetisches Optimierungsprogramm zu entwickeln;
(2) Ästhetische Bearbeitung: Durch die Strömungs-Matching-Training unter der Bedingung des ästhetischen Optimierungsprogramms wird das Bildbearbeitungsmodell trainiert, das Optimierungsprogramm stabil in Pixel-Ebene-Bearbeitung umzuwandeln, um die Foto-Rekonstruktion abzuschließen.
Phase I: Ästhetische Planung
Für jedes Foto-Paar in AesRecon extrahieren die Forscher zunächst die Anpassungen, die der Fotograf und das Modelle während der Aufnahme an der Komposition, der Perspektive, der Haltung und anderen Faktoren vorgenommen haben, um ein ästhetisches Optimierungsprogramm von dem gewöhnlichen Originalfoto zu dem herausragenden Endfoto zu bilden.
Basierend auf diesem Schritt wird das Multimodal-Großmodell durch die kalte Start-Supervision-Feinabstimmung trainiert. Das ästhetische Optimierungsprogramm wird als eine geordnete Entscheidungssequenz modelliert, die der Fotografie-Logik entspricht. Das Modell wird so geleitet, dass es die Probleme des Fotos entlang von sieben fortschreitenden Fotografie-Dimensionen analysiert, um die grundlegenden Fähigkeiten der ästhetischen Wahrnehmung, der Problemdiagnose und der Programmplanung zu erlangen.
Die Trainingsbeispiele werden einheitlich als (p, q, a) dargestellt: Hierbei ist p das gewöhnliche Originalfoto, q der Aufgabenbefehl und a das ästhetische Optimierungsprogramm. Das Modell lernt, a zu generieren, wenn p und q gegeben sind, d. h., die bedingte Logarithmische Wahrscheinlichkeit des Ziel-Optimierungsprogramms wird maximiert. Die Verlustfunktion ist wie folgt definiert: