100.000 Einladungen: Neues Interview mit Liu Zhuang von Princeton - Architektur ist nicht so wichtig, Daten sind das Entscheidende.
Die Zitierhäufigkeit übersteigt 100.000 Mal. Ein ehemaliger Student der Yao-Klasse an der Tsinghua-Universität, der Autor von Arbeiten wie ConvNeXt, ImageBind und "Transformers Without Normalization" -
Zhuang Liu, ein Assistentprofessor an der Princeton University, ist in der akademischen Welt eine bemerkenswerte Figur. Fast jede seiner Arbeiten hinterfragt eine vermeintlich "selbstverständliche" Annahme.
Ist die Architektur wirklich wichtig? Sind die Datensätze auch wirklich so vielfältig wie wir meinen? Ist die Normalisierungsschicht wirklich notwendig? Haben große Sprachmodelle ein Weltmodell? Können künstliche Intelligenzagenten Doktoranden ersetzen?
In der neuesten Podcast-Ausgabe von "The Information Bottleneck" führte Zhuang Liu eine überstündige Diskussion mit den Moderatoren Ravid Shwartz-Ziv und Allen Roush, in der diese Fragen beantwortet wurden.
Zhuang Liu gab einige Kernaussagen (Kurzfassung) ab:
1. Die Wahl der Architektur ist nicht so wichtig wie Sie denken.
Solange man die vier Grundelemente - Residualverbindungen, Selbst-Attention, Normalisierungsschichten und lineare Schichten - richtig implementiert, werden sowohl ConvNet als auch Transformer letztendlich auf derselben Leistungskurve liegen.
Was in den letzten zehn Jahren den Fortschritt in der KI am stärksten vorangetrieben hat, war in größerem Maße die Größe der Daten und die Rechenleistung, und nicht nur die Architekturinnovation.
2. Die Datensätze sind weit weniger vielfältig als wir denken.
Er und Kaiming He führten ein Experiment durch: Sie trainierten ein neuronales Netzwerk, um zu entscheiden, aus welchem Datensatz ein Bild stammt.
Das Ergebnis war, dass auf drei sogenannten "vielfältigen" Milliarden-Datensätzen die Genauigkeit über 80 % lag -
Das zeigt, dass diese Datensätze aus Sicht des Modells immer noch deutlich voneinander unterscheidbar sind und weit von einer "unvoreingenommenen globalen Verteilung" entfernt sind.
3. Große Sprachmodelle haben ein Weltmodell, aber nur im Sprachraum.
LLMs zeichnen sich bei der Inferenz von höheren Ereignissen aus, aber ein feines Weltmodell im visuellen Raum haben wir noch nicht -
Der grundlegende Grund dafür ist, dass die Informationsdichte der visuellen Daten zu hoch ist und die vorhandene Rechenleistung es noch nicht schafft, sie zu verarbeiten.
Und für mehr als die Hälfte der Arbeitsbereiche (insbesondere für digitale Büroarbeiten) braucht man überhaupt kein visuelles Weltmodell.
4. Das größte Hindernis ist derzeit das Gedächtnis, nicht die Fähigkeit.
Die Inferenzfähigkeit der vorhandenen Modelle ist bereits stark genug. Was wirklich fehlt, ist ein stabiles Langzeitgedächtnis.
Dass wir so viele Agenten benötigen, liegt genau daran, dass ein einzelner Agent nicht alles merken kann.
5. Die autonome Forschung ist noch nicht ausgereift, und KI kann keine Doktoranden ersetzen.
Er hat selbst getestet, ob Claude Code in ein oder zwei Tagen ein Forschungsvorhaben unabhängig durchführen kann.
Das Ergebnis war: Bei niedrigschwelligen Aufgaben funktioniert es noch, aber bei der Formulierung interessanter Fragen, der Planung von Experimenten und der Beibehaltung eines klaren Forschungsziels - das kann es noch nicht.
Im gesamten Interview verläuft eine versteckte Linie: Viele Dinge, die wir in der KI-Branche für unantastbar halten, sind in Wirklichkeit historisches Zufallsprodukt.
Und was wirklich über den Erfolg oder Misserfolg entscheidet, sind oft die einfacheren und langweiligeren Faktoren - Daten, Größe und Gedächtnis.
Im Folgenden finden Sie eine Zusammenfassung des neuesten Interviews mit Zhuang Liu von QbitAI. Zur besseren Verständlichkeit wurden einige Passagen gekürzt und aufbereitet, und an notwendigen Stellen wurden Redaktionshinweise hinzugefügt. Viel Spaß!
Die Architektur ist nicht so wichtig, aber die Details entscheiden alles
Redaktionshinweis: Um 2020 herum kam es im Bereich des maschinellen Sehens zu einer "Transformer-Welle". Das von Google Brain 2020 vorgeschlagene Vision Transformer (ViT) tauchte auf, und die gesamte visuelle Community wechselte schnell zu ihm. Das traditionelle Convolutional Neural Network (ConvNet) wurde allgemein als veraltet angesehen. 2022 veröffentlichte Zhuang Lius Team ConvNeXt, das das klassische ResNet-Architektur schrittweise "modernisierte" und es schließlich in der Leistung mit dem damaligen besten Vision Transformer angleich. Das Ergebnis war überraschend: Der Unterschied zwischen den beiden lag nicht in der Architektur selbst, sondern in den unterschiedlichen Trainingsmethoden.
Ravid: Heute werden wir über einige Ihrer Arbeiten sprechen. Insgesamt möchten wir untersuchen, was in der heutigen KI wirklich wichtig ist. Sie haben viele Forschungsergebnisse erzielt. Ich denke, wir können mit der Frage beginnen, welche Komponenten am wichtigsten sind.
Vor einigen Jahren haben Sie eine Arbeit über "Convolutional Neural Networks for the 2020s" veröffentlicht. Können Sie zunächst diese Arbeit vorstellen, und dann können wir die einzelnen Komponenten heutiger KI-Systeme zerlegen?
Zhuang Liu: Natürlich. Das war eine sehr interessante Erfahrung.
Diese Arbeit haben wir 2021 geschrieben. Damals war der Transformer gerade durch die Einführung des Vision Transformers in das Gebiet des maschinellen Sehens eingestiegen, und die gesamte visuelle Community wechselte von traditionellen Convolutional Networks zum Vision Transformer, und die Leistung wurde immer besser.
In dieser Arbeit wollten wir untersuchen: Hat das ConvNet wirklich seine Wettbewerbsfähigkeit verloren?
Ist es möglich, durch systematische Kontrolle aller Entwurfsdetails zu überprüfen, ob das ConvNet modernisiert werden kann und die Leistung des damaligen Vision Transformers erreichen kann?
Wir wollten herausfinden, ob der scheinbare Leistungsunterschied zwischen Transformer und ConvNet auf die grundlegenden Unterschiede in der Architektur zurückzuführen ist - z. B. die Verwendung von Selbst-Attention oder Convolution - oder auf einige scheinbar kleine Entwurfsdetails.
Am Ende stellten wir fest, dass es letzteres war.
Nach extensivem Studium der einzelnen Komponenten des ConvNet konnten wir schließlich ein Modell entwickeln, das auf verschiedenen Aufgaben die Leistung des damaligen besten Vision Transformers erreichte.
Dies zeigt, dass es egal ist, ob man ConvNet oder Vision Transformer wählt, solange man alle Details richtig macht, kann man auf visuellen Aufgaben eine vergleichbare Spitzenleistung erzielen.
Ravid: Glauben Sie immer noch an diese These? Glauben Sie immer noch, dass die Architektur eigentlich nicht so wichtig ist?
Zhuang Liu: Ich würde es nicht so sagen - im Allgemeinen tendiere ich dazu, diese These zu unterstützen, aber ich würde nicht sagen, dass die Architektur unwichtig ist.
Ich meine, solange man alle Details richtig macht und den Entwurfssraum ausreichend erforscht, wird man an einem Punkt konvergieren, der einer Art "Pareto-Front" ähnelt - einem Optimum zwischen Genauigkeit und Effizienz.
Es ist sehr schwierig, diese Frontlinie zu überschreiten.
Ich denke, dass in den letzten Jahren, abgesehen von den Architekturen, die vor einigen Jahren bereits etabliert waren, tatsächlich nur wenige Architekturinnovationen weit verbreitet wurden.
Aber der Entdeckungsprozess an sich ist sehr interessant.
Kürzlich versuchen einige Open-Source-Modellunternehmen wie Kimi und DeepSeek weiterhin, die Architektur zu optimieren, z. B. wie man Residualverbindungen ändert oder wie man verschiedene Schichten verbindet. Ich habe großen Respekt vor dieser Arbeit.
Tatsächlich ist die Architekturforschung in der akademischen Welt derzeit nicht so aktiv, teilweise weil wir nicht über die Rechenressourcen verfügen, um die Effekte dieser Änderungen in einer überzeugenden Größe zu validieren.
Aber ich versuche es selbst mit den Ressourcen meiner Universität. Jetzt, mit der Hilfe von Claude Code, kann ich selbst Code schreiben und die Architektur erkunden. Das ist sehr interessant.
Aus praktischer Sicht denke ich, dass die Daten, mit denen wir das Modell trainieren, wichtiger sind als die Wahl der Architektur - vorausgesetzt, die Ein- und Ausgangsschnittstellen bleiben gleich.
Die Architektur ist im Wesentlichen die Art und Weise, wie wir die Parameter eines Funktionsapproximators festlegen, was die grundlegende Funktion von neuronalen Netzen oder Deep Learning ist.
Solange man einige Dinge richtig macht, wie z. B. die Verwendung von Residualverbindungen, Selbst-Attention oder anderen vernünftigen Mechanismen, die Platzierung von Aktivierungsfunktionen und Feedforward-Schichten an den richtigen Stellen, kann man sich sehr nahe an die Spitzenkurve von Leistung und Effizienz heranbringen oder diese sogar erreichen.
Aus praktischer Anwendungssicht denke ich, dass es wichtiger ist zu wissen: Mit welchen Daten wurde dieses Modell trainiert? Wie verarbeitet es Kontext und Gedächtnis?
Im Bereich von Kontext und Gedächtnis gibt es tatsächlich einige Architekturarbeiten, die sich mit diesem Problem befassen.
Ich denke, dass dies das dringendste Problem ist, das gelöst werden muss, um die KI auf die nächste Stufe zu bringen.
Allen: Meiner Meinung nach haben Sie das ResNet schrittweise in Richtung einer ähnlichen Architektur wie das Swin Transformer modernisiert und schließlich ein ConvNet erhalten, das mit dem Transformer stark konkurrieren kann.
In dieser Arbeit, welches Ablationsexperiment hat Sie am meisten dazu gebracht, Ihre Meinung über "woher die Vorteile des Transformers stammen" zu ändern?
Redaktionshinweis: Ein Ablationsexperiment ist eine gängige Methode in der Deep-Learning-Forschung. Es besteht darin, einzelne Komponenten eines Modells zu entfernen oder zu ändern und zu beobachten, wie sich die Leistung ändert, um so den Beitrag jeder Komponente zu bestimmen.
Zhuang Liu: Welches? Ich denke, jedes.
Schauen Sie sich diese Grafik an. Keine einzelne Änderung hat die Leistung stark verbessert. Einige Änderungen waren effektiver als andere, aber keine konnte alles ändern.
△ Abbildung 2 aus der ConvNeXt-Arbeit, die den gesamten Prozess der Modernisierung des ResNet und die entsprechende Leistungsänderung in jedem Schritt zeigt
Vielleicht war die Verwendung von Aktivierungsfunktionen und die Reduzierung der Anzahl von Normalisierungsschichten ein interessanter Punkt mit einer deutlichen Leistungssteigerung.
Aber was wirklich funktioniert hat, war die Kombination aller Änderungen.
Diese scheinbar kleinen Komponenten, wenn wir sie zusammenfügen, erzeugen einen Leistungsunterschied, der normalerweise nur durch eine große Änderung wie die Umstellung von Convolution auf Selbst-Attention erreicht werden kann.
Ich denke daher, dass die wichtigste Erkenntnis dieser Arbeit ist: Die Kombination dieser kleinen Details hat einen größeren Einfluss als die scheinbar zentralen Netzwerkkomponenten.
Ravid: Für mich scheint es, dass wir viele verschiedene Dinge ausprobieren, einige funktionieren und das Modell wird besser. Dann erst beginnen wir, wirklich zu verstehen, welche Komponenten entscheidend sind.
Denken Sie, dass wir zuerst einen Durchbruch erzielen müssen und dann erst die Details verstehen? Oder sollten wir einfach nur wiederholt Fehlversuche machen, ohne eine klare Richtung?
Zhuang Liu: Der Transformer war für die gesamte Community definitiv ein Segen. Die Einführung des Transformers in das Gebiet des maschinellen Sehens war von großer Bedeutung.
Es war einer der wichtigsten Durchbrüche in den letzten Jahren.
Aber der Vision Transformer hat noch einen anderen Vorteil: Er ermöglicht die Vereinheitlichung der Repräsentation von Text und Bild.
Die Verwendung des Transformers war für die spätere Entwicklung sehr wichtig, z. B. für LLaVA, diese Art von multimodalen Frameworks - man kodiert das Bild mit einem visuellen Encoder in Token und gibt sie dann zusammen mit Text-Token in ein downstream großes Sprachmodell ein.
Dies ist das Grundgerüst vieler heutiger multimodaler Modelle.
Redaktionshinweis: LLaVA (Large Language and Vision Assistant) ist ein multimodales großes Sprachmodell-Framework, das 2023 vorgeschlagen wurde. Es verbindet einen Bild-Encoder (meistens CLIP) mit einem großen Sprachmodell (z. B. LLaMA), sodass das Modell sowohl Bilder als auch Texte verstehen kann. Dieses Framework ist die Grundlage für spätere multimodale Modelle wie GPT - 4V und Gemini.
Zurück zu unserer Forschung: Diese eingehende Analyse der Details war für mich wie eine Lektion. Sie hat meine eigene Wahrnehmung und die vieler anderer verändert, und das macht mich stolz.
Naturgemäß kann man weiterhin ConvNet verwenden, das auch seine eigenen Vorteile hat, insbesondere bei reinen visuellen Aufgaben: Es ist einfach zu deployen, leichter zu verstehen und aufgrund seiner lokalen Operationen besser für höhere Auflösungen und