Die besten Artikelpreise der NeurIPS 2025 wurden vergeben, und ein klassisches Werk von He Kaiming, Sun Jian und anderen aus vor zehn Jahren hat gewonnen.
Heute wurden die besten Papers der NeurIPS 2025 bekanntgegeben! Bei den vier besten Papers sind die Chinesen überwiegend vertreten. Das von He Kaiming, Sun Jian und anderen vorgeschlagene Faster R-CNN hat den "Test of Time Award" erhalten, was ihm durchaus zusteht.
Die Verleihung der besten Papers der NeurIPS 2025 ist erfolgt!
Heute hat der Organisationsausschuss der NeurIPS die Liste der diesjährigen "Besten Papers" bekanntgegeben. Insgesamt gibt es vier beste Papers.
Darüber hinaus wurden drei Runner-Up-Papers ausgezeichnet. Diese sieben ausgezeichneten Papers erstrecken sich über mehrere Bereiche:
Theorie der Diffusionsmodelle, Selbstüberwachtes RL, Attention-Mechanismus, Schlussfolgerungsfähigkeit von LLMs, Theorie des Online-Lernens, Neuronales Skalieren und Benchmark-Methoden zur Messung der Vielfalt von Sprachmodellen
Was noch beeindruckender ist, wurde diesmal der "Test of Time Award" an das Paper "Faster R-CNN" vergeben, das von Ren Shaoqing, He Kaiming, Ross Gisshick und Sun Jian gemeinsam verfasst wurde.
Dieses Jahr ist die NeurIPS die 39. Jahrestagung. Anders als in den Vorjahren ist die NeurIPS 2025 die erste Zweistädte-Konferenz, die an folgenden Orten stattfindet:
vom 2. bis 7. Dezember im Convention Center von San Diego
vom 30. November bis 5. Dezember in Mexiko-Stadt
Derzeit findet die Mexikos-Stadt-Sitzung statt, und gleichzeitig wurden die besten Papers bekanntgegeben.
Schauen wir uns an, welche Prominente die Preise gewonnen haben!
Bei den besten Papers sind die Chinesen in der KI-Szene stark vertreten
Paper 1: Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
Autoren: Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
Institutionen: Universität Washington, Carnegie Mellon University, Allen Institute for Artificial Intelligence, Lila Sciences, Stanford University
Paper-Adresse: https://openreview.net/forum?id=saDOrrnNTz
Große Sprachmodelle sind oft nicht in der Lage, vielfältige, menschenähnlich kreative Inhalte zu generieren, was Bedenken darüber auslöst, dass die langfristige Exposition gegenüber homogenen Ausgaben möglicherweise zu einer Konvergenz des menschlichen Denkens führen könnte.
Zurzeit gibt es jedoch noch zu wenige skalierbare Methoden zur Bewertung der Vielfalt der LM-Ausgaben, insbesondere wenn es um Aufgaben jenseits der Zufallszahlengenerierung oder das wiederholte Sampling von einzelnen Modellen geht.
Um diese Lücke zu schließen, haben Forscher aus Institutionen wie der Universität Washington den umfangreichen Datensatz Infinity-Chat entwickelt.
Infinity-Chat enthält 26.000 echte offene Benutzerabfragen, die mehrere sinnvolle Antworten zulassen und keine eindeutige Standardlösung haben.
Abbildung 1: Clusterung der Antworten auf die Abfrage "Schreibe eine Metapher über die Zeit" (Visualisierung der Reduzierung der Satz-Einbettungen auf zwei Dimensionen durch Hauptkomponentenanalyse)
Dies ist das erste Mal, dass ein vollständiges Klassifikationssystem für offene LM-Hinweise vorgeschlagen wird, das sechs übergeordnete Kategorien (z. B. kreative Inhaltsgenerierung, Brainstorming und Konzeption) und 17 Unterkategorien umfasst.
Mithilfe von Infinity-Chat haben die Forscher eine umfassende Studie zur Kollaps von LM-Mustern durchgeführt und festgestellt, dass beim offenen Generieren ein deutlicher "Künstlicher Bienenstockeffekt" (Artificial Hivemind effect) besteht, der sich wie folgt zeigt:
Innermodellwiederholung - Ein einzelnes Modell generiert kontinuierlich ähnliche Antworten;
Homogenität zwischen Modellen - Verschiedene Modelle produzieren erstaunlich ähnliche Ausgaben.
Der Datensatz enthält auch 31.250 menschliche Annotationen, die absolute Bewertungen und paarweise Präferenzvergleiche umfassen. Jede Instanz wurde von 25 Annotatoren unabhängig bewertet, was die Untersuchung von Gruppen- und individuellen Präferenzen bei offenen Abfragen ermöglicht.
Die Studie zeigt, dass die fortschrittlichsten LM, Rewardmodelle und LM-Bewerter, wenn es um Modelleingaben geht, die die individuellen Präferenzen der Annotatoren auslösen, obwohl die Gesamtqualität ähnlich bleibt, Schwierigkeiten haben, die menschlichen Bewertungen zu kalibrieren.
Insgesamt ist Infinity-Chat die erste umfassende Ressource für die systematische Untersuchung von realen offenen LLM-Abfragen und bietet wichtige Erkenntnisse zur Minderung der langfristigen Sicherheitsrisiken der KI, die durch den künstlichen Bienenstockeffekt entstehen.
Paper 2: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Autoren: Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin
Institutionen: Alibaba Qianwen-Team, Universität Edinburgh, Stanford University, MIT, Tsinghua-Universität
Paper-Adresse: https://openreview.net/pdf?id=1b7whO4SfY
Das Gating-Mechanismus wurde bereits in den frühen Tagen von LSTM und Highway-Netzwerken weit verbreitet eingesetzt und ist auch in den jüngsten State-Space-Modellen, linearen Attention-Mechanismen und Softmax-Attention-Mechanismen vorhanden.
Allerdings haben die bestehenden Studien selten die genauen Effekte des Gating-Mechanismus eingehend analysiert.
Diese Studie untersucht systematisch die Varianten des Gating-verbesserten Softmax-Attention-Mechanismus: Es wurden ein 15B-Mixture-of-Experts-Modell (30 Varianten) und ein 1.7B-dichtes Modell auf einem Datensatz mit 3,5 Billionen Token trainiert und verglichen.
Die Kernfindung zeigt, dass nur die einfache Modifikation, indem ein kopfspezifisches Sigmoid-Gating nach der skalierten Punktprodukt-Attention (SDPA) eingeführt wird, die Modellleistung kontinuierlich verbessern kann. Diese Verbesserung erhöht gleichzeitig die Trainingsstabilität, ermöglicht eine größere Lernrate und verbessert die Skalierungseigenschaften.
Durch den Vergleich verschiedener Gating-Positionen und Berechnungsvarianten führen die Forscher die Wirksamkeit auf zwei Schlüsselfaktoren zurück:
(1) Die Einführung einer nichtlinearen Transformation in die Rangarme Abbildung der Softmax-Attention;
(2) Die Verwendung von abfrageabhängigen spärlichen Gating-Scores zur Regulierung der SDPA-Ausgabe.
Es ist bemerkenswert, dass dieser spärliche Gating-Mechanismus das "Aktivierungs-Explodieren" und das "Attention-Sinken" lindern und die Leistung bei der Extrapolation von langen Kontexten verbessern kann.
Um die weitere Forschung zu fördern, wurden der Code und das Modell veröffentlicht. Diese effizienteste SDPA-Ausgabe-Gating-Technologie wurde in die Qwen3-Next-Modellreihe integriert.
Architektur von Qwen3-Next-80B-A3B-Thinking-FP8
Paper 3: 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Autoren: Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach
Institutionen: Princeton University, Warschauer Technische Universität
Paper-Adresse: https://openreview.net/pdf?id=s0JVsx3bx1
Die Fortschritte im skalierbaren selbstüberwachten Lernen treiben weiterhin die Brüche in der Sprach- und Bildverarbeitung an, jedoch konnten in der Bereich des Reinforcement Learning (RL) bisher keine vergleichbaren Brüche erzielt werden.
Dieser Artikel konzentriert sich auf die Kernbausteine des selbstüberwachten RL und erreicht schließlich einen qualitativen Sprung in der Skalierbarkeit, indem er den Schlüsselwert der Netzwerk-Tiefe ausgräbt.
Im Gegensatz zu den meisten RL-Studien in den letzten Jahren, die flache Architekturen (etwa 2 - 5 Schichten) verwenden, zeigt dieses Experiment, dass die Erhöhung der Netzwerk-Tiefe auf 1024 Schichten zu einem deutlichen Leistungsgewinn führt.