Aus einem Streit auf Twitter entstand eine Dissertation. Das neue Werk der Forschungsgruppe von Xie Saining, iREPA, benötigt nur 3 Zeilen Code.
Wenn es um echte Wissenschaft geht, muss man sich Twitter anschauen.
Gerade hat Saining Xie selbst enthüllt, dass das neue Werk iREPA seines Teams eigentlich auf eine Debatte mit einem Internetnutzer vor über vier Monaten zurückgeht.
Obwohl diese kurze Online-Debatte damit endete, dass Saining Xie vom Internetnutzer überzeugt wurde, gab es über drei Monate später tatsächlich eine unerwartete Fortsetzung –
Mehrere Teams haben zusammengearbeitet und auf dieser Idee aufbauend eine vollständige Dissertation geschrieben, wobei der Kernrahmen nur drei Codezeilen erfordert.
Im Dankesbestandteil werden auch die Internetnutzer bedankt, die an der damaligen Diskussion beteiligt waren.
Eine wissenschaftliche Dissertation aus einem Tweet hervorgegangen
So ist die Sache.
Ein Internetnutzer hat im August gesagt:
Sei nicht länger verrückt nach den Klassifizierungsscores von ImageNet-1K! Selbstüberwachte Lernmodelle (SSL) sollten speziell für dichte Aufgaben (wie REPA, VLM usw.) trainiert werden, denn diese Aufgaben hängen tatsächlich von den räumlichen und lokalen Informationen in den Patch-Tokens ab, nicht von der globalen Klassifizierungsleistung, die das [CLS]-Token repräsentiert.
(Hinweis: Dichte Aufgaben sind Computer-Vision-Aufgaben, bei denen das Modell für "jedes Pixel" oder "jeden lokalen Bereich" in einem Bild eine Vorhersage treffen muss. Solche Aufgaben erfordern genaue räumliche und lokale Detailinformationen, nicht nur globale Klassifizierungsmarkierungen)
Was die Meinung des Internetnutzers betrifft, hat Saining Xie gesagt:
Nein, die Verwendung von Patch-Tokens bedeutet nicht, dass man an einer dichten Aufgabe arbeitet. Die Leistung von VLM und REPA hängt stark mit ihren Scores auf IN1K zusammen, während die Korrelation auf Patch-Ebene nur sehr schwach ist. Dies ist nicht das Problem des [CLS]-Tokens, sondern der Unterschied zwischen hoher Semantik und niedriger Pixelähnlichkeit.
Als Gegenargument hat der Internetnutzer das Beispiel von SigLIPv2 und PE-core, die für REPA besser als DINOv2 sind, gebracht.
Zur gleichen Zeit hat ein anderer Internetnutzer sich an der Diskussion beteiligt:
Dies ist eine vernünftige Frage. Um einen direkten Vergleich zu machen, könnte man ohne frühe Checkpoints von DINOv3 möglicherweise REPA nutzen, um PEspatial und PEcore zu vergleichen. Hierbei kann PEspatial so verstanden werden: Die Gram-Anker von PEcore werden auf eine frühere Netzwerkschicht ausgerichtet und mit SAM2.1 kombiniert.
Daraufhin hat Saining Xie gesagt:
Sehr gut! Vielen Dank für deine Anregung. Ich mag dieses Konzept sehr. Sonst wären zu viele Störfaktoren vorhanden. Beide Checkpoints sind bereits vorhanden (G/14, 448 Auflösung). Hoffentlich können wir bald einige Ergebnisse erzielen.
Über drei Monate später hat Saining Xie gesagt, dass seine frühere Einschätzung nicht haltbar war und dass diese Dissertation eine tiefere Einsicht gebracht hat.
Es gibt auch einen netten Tipp: Die Internetnutzer können sich den Dankesbestandteil anschauen.
Was die Erwähnung in der Dissertation betrifft, hat einer der beteiligten Internetnutzer gesagt, dass es interessant sei:
Vielen Dank auch für deine Weiterverfolgung! Ich bin sehr geehrt, dass ich erwähnt wurde.
Saining Xie hat auch gesagt, dass diese Diskussion an sich ein kleines Experiment war – er wollte sehen, ob ein neues "Online-Kaffeekücheneffekt" tatsächlich eintreten kann.
Er genießt diesen Zustand sehr: Zuerst gibt es Meinungsverschiedenheiten und Debatten, dann werden die Intuitionen durch echte Experimente und Engagement in überprüfbare wissenschaftliche Ergebnisse umgewandelt.
Es muss gesagt werden, dass solche offenen, sofortigen und korrigierbaren wissenschaftlichen Diskussionen wirklich öfter stattfinden sollten.
Als nächstes werden wir uns die neueste Dissertation, die daraus hervorgegangen ist, anschauen.
Die räumliche Struktur ist der Hauptfaktor, der die Leistung der Zielrepräsentationsgenerierung antreibt
Fortführend zu der obigen Diskussion untersucht diese neueste Dissertation ein zentrales Grundproblem:
Wenn man voreingestellte visuelle Encoder-Repräsentationen verwendet, um ein Generierungsmodell zu leiten, welche Teile der Repräsentation bestimmen tatsächlich die Generierungsqualität?
Ist es die globale Semantikinformation (Klassifizierungsgenauigkeit auf ImageNet-1K) oder die räumliche Struktur (d.h. die paarweise kosinusähnlichkeit zwischen Patch-Tokens)?
Die Dissertation kommt zu dem Schluss: Bessere globale Semantikinformation bedeutet nicht zwangsläufig bessere Generierung. Die räumliche Struktur (statt der globalen Semantik) ist der Treiber für die Repräsentationsgenerierungsleistung.
Die herkömmliche Meinung (einschließlich Saining Xies eigener) war, dass Repräsentationen mit stärkerer globaler Semantikleistung bessere Generierungsergebnisse erzielen würden. Die Forschung zeigt jedoch, dass größere visuelle Encoder möglicherweise eine schlechtere Generierungsleistung bringen.
Ein visueller Encoder mit nur etwa 20 % linearer Nachweisgenauigkeit kann tatsächlich einen Encoder mit einer Genauigkeit von > 80 % übertreffen.
Außerdem wird die Generierungsleistung gesenkt, wenn man versucht, mehr globale Semantik über das CLS-Token in die Patch-Tokens zu injizieren.
Zusätzlich hat die Forschung auch festgestellt, dass Repräsentationen mit besserer Generierungsleistung oft eine stärkere räumliche Struktur haben (dies kann durch den räumlichen Selbstähnlichkeitsindex gemessen werden):
D.h., wie ein Token in einem Teil eines Bildes auf die Tokens in anderen Bereichen des Bildes achtet.
In Bezug auf die konkrete Forschungsmethode hat die Forschung diese Beobachtung durch eine große quantitative Korrelationsanalyse verfeinert und validiert: Die Analyse umfasst 27 verschiedene visuelle Encoder (einschließlich DINOv2, v3, Perceptual Encoders, WebSSL, SigLIP usw.) sowie 3 Modellgrößen (B, L, XL).
In weiteren Bewertungen wurde die Wichtigkeit der räumlichen Information noch weiter erhöht: Selbst klassische räumliche Merkmale wie SIFT und HOG können eine vergleichbare und wettbewerbsfähige Verbesserung wie moderne, größer dimensionierte visuelle Encoder wie PE-G bringen.
Nachdem die Dissertation die Schlussfolgerungen aus den Tests gezogen hat, hat sie auf der Grundlage des bestehenden Repräsentationsausrichtungsrahmens (REPA) eine Analyse und Modifikation vorgenommen und iREPA vorgeschlagen.
Verbesserung der Projektionsschicht: Die Standard-MLP-Projektionsschicht in REPA wird durch eine einfache Faltungsschicht ersetzt.
Räumliche Normalisierung: Es wird eine räumliche Normalisierungsschicht für externe Repräsentationen eingeführt.
Diese einfachen Modifikationen (wie in der DeCo-Architektur implementiert) zielen darauf ab, die räumliche Strukturinformation zu bewahren und zu verstärken und können im Vergleich zur ursprünglichen REPA-Methode die Leistung deutlich verbessern.
Es ist erwähnenswert, dass iREPA nur drei Codezeilen erfordert, um es zu jeder Repräsentationsausrichtungs-Methode hinzuzufügen, und in verschiedenen Trainingsszenarien (wie REPA, REPA-E, Meanflow und dem kürzlich vorgestellten JiT) eine kontinuierlich schnellere Konvergenz erzielen kann.
Referenzlinks
[1]https://x.com/YouJ