Gerade jetzt haben die NSA - Arbeit von Liang Wenfeng aus DeepSeek und das Team von Yang Yaodong aus Peking Universität die beste Arbeitspreis bei der ACL 2025 gewonnen.
Bei dieser ACL-Konferenz erzielten chinesische Teams beeindruckende Ergebnisse.
Die ACL ist die weltweit führende internationale Konferenz auf dem Gebiet der computergestützten Linguistik und der natürlichen Sprachverarbeitung. Sie wird vom Internationalen Verein für computergestützte Linguistik organisiert und findet jährlich statt. Seit jeher hat die ACL die größte akademische Einflußnahme auf dem Gebiet der NLP und gehört auch zu den von der CCF empfohlenen Konferenzen der Kategorie A. Die diesjährige ACL-Konferenz war die 63. und fand vom 27. Juli bis zum 1. August 2025 in Wien, Österreich statt.
Die Gesamtzahl der eingereichten Beiträge in diesem Jahr erreichte einen Rekordwert von über 8.000 (im vergangenen Jahr waren es 4.407). Sie wurden in Hauptkonferenzbeiträge und Findings eingeteilt, wobei die Akzeptanzraten bei 20,3 % bzw. 16,7 % lagen.
Nach offiziellen Datenanalysen stammte bei allen Erstautoren der Beiträge über die Hälfte (51,3 %) aus China, während im vergangenen Jahr es weniger als ein Drittel (30,6 %) war. Auf China folgte die USA an zweiter Stelle, aber mit nur 14,0 %.
Insgesamt wurden in diesem Jahr 4 beste Beiträge, 2 beste Beiträge zur sozialen Auswirkung, 3 beste Ressourcenbeiträge, 3 beste thematische Beiträge, 26 herausragende Beiträge, 2 beste TACL-Beiträge, 1 bestes Demo-Beitrag sowie 47 SAC-Highlights ausgezeichnet.
Im Folgenden finden Sie die detaillierten Informationen zu den Preisträgern.
Preis für den besten Beitrag
Von den 4 besten Beiträgen dieser Konferenz gewannen zwei Teams: Das Team von DeepSeek (mit Wenfeng Liang als Mitautor) und das Team von Yaodong Yang der Peking-Universität. Die anderen beiden wurden vom Team der CISPA Helmholtz-Zentrum für Informationssicherheit & TCS Research & Microsoft sowie vom Team der Stanford University & Cornell Tech gewonnen.
Beitrag 1: A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive
- Autoren: Angelina Wang, Michelle Phan, Daniel E. Ho, Sanmi Koyejo
- Institutionen: CISPA Helmholtz-Zentrum für Informationssicherheit, TCS Research, Microsoft
- Link zum Beitrag: https://arxiv.org/abs/2502.01926
Zusammenfassung des Beitrags: Große Sprachmodelle (LLMs) werden zunehmend in der autonomen Entscheidungsfindung eingesetzt. Sie wählen Optionen aus einem breiten Handlungsraum aus. Die Heuristiken, die diesen Auswahlprozess leiten, sind jedoch noch weitgehend unerforscht. Das Team untersuchte dieses Auswahlverhalten und zeigte, dass die zugrunde liegenden Heuristiken ähnlich denen des menschlichen Entscheidungsverhaltens sind: Sie bestehen aus einem deskriptiven Bestandteil (der die statistische Normalität widerspiegelt) und einem normativen Bestandteil (implizite Idealwerte, die im LLM codiert sind).
Das Team zeigte, dass die Abweichung der Stichproben von der statistischen Normalität hin zum normativen Bestandteil in verschiedenen realen Anwendungsbereichen, wie der öffentlichen Gesundheit und der Wirtschaftstrends, konstant vorhanden ist. Um diese Theorie weiter zu verdeutlichen, bewies das Team, dass die Prototypen von Begriffen in LLMs von normativen Normen beeinflusst werden, ähnlich wie die menschlichen "Normal"-Begriffe.
Durch Fallstudien und Vergleiche mit menschlichen Studien zeigte das Team, dass in realen Anwendungen die Verschiebung der Stichproben hin zu Idealwerten in den LLM-Ausgaben zu signifikanten Entscheidungsfehlern führen kann, was ethische Bedenken aufwirft.
Beitrag 2: Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs
- Autoren: Angelina Wang, Michelle Phan, Daniel E. Ho, Sanmi Koyejo
- Institutionen: Stanford University, Cornell Tech
- Link zum Beitrag: https://arxiv.org/abs/2502.01926
Zusammenfassung des Beitrags: Die algorithmische Fairness hat traditionell die mathematisch bequeme Sichtweise der Rassenglättung (d. h. gleichmäßige Behandlung) eingenommen. Das Team argumentiert jedoch, dass in einer Reihe wichtiger Situationen das Bewusstsein für Gruppenunterschiede von entscheidender Bedeutung ist. Beispielsweise kann es im rechtlichen Kontext und bei der Gefährdungsbeurteilung notwendig sein, zwischen verschiedenen Gruppen zu unterscheiden. Daher untersuchen wir im Gegensatz zu den meisten Fairnessstudien die Fairness aus der Perspektive der unterschiedlichen Behandlung von Menschen - in den geeigneten Situationen.
Das Team führte zunächst einen wichtigen Unterschied zwischen deskriptiven (faktisch basierten), normativen (wertbasierten) und relevanten (bezugsbasierten) Referenzpunkten ein. Dieser Unterschied ist von entscheidender Bedeutung, da jede Kategorie aufgrund ihrer spezifischen Merkmale separat interpretiert und gemildert werden muss.
Dann stellten sie einen Benchmark-Satz aus acht verschiedenen Szenarien vor, der insgesamt 16.000 Fragen enthält und uns ermöglicht, das Bewusstsein für Unterschiede zu bewerten.
Schließlich zeigte diese Studie die Ergebnisse von zehn Modellen, die darauf hinweisen, dass das Bewusstsein für Unterschiede eine eigene Dimension der Fairness ist und dass bestehende Strategien zur Milderung von Vorurteilen kontraproduktiv sein können.
Beitrag 3: Language Models Resist Alignment: Evidence From Data Compression
- Link zum Beitrag: https://aclanthology.org/2025.acl-long.1141.pdf
- Link zum Projekt: https://pku-lm-resist-alignment.github.io
Dieser Beitrag enthüllt erstmals auf theoretischer und experimenteller Ebene systematisch, dass große Modelle nicht wie ein leeres Blatt Papier beliebig geformt werden können. In ihrer Parameterstruktur gibt es einen elastischen Mechanismus - der aus der Vorabtrainingsphase stammt und eine strukturelle Trägheit hat, die das Modellverteilung zurück in den Ausgangszustand treibt. Dadurch kann das Modell nach dem Feintuning wieder in den Vorabtrainingszustand zurückkehren und somit den neuen Anweisungen des Menschen widersetzen, was zu einem Widerstand gegen die Anpassung führt. Dies bedeutet, dass die Schwierigkeit der Anpassung weit höher ist als erwartet. Die für das Nachtraining (Post-training) erforderlichen Ressourcen und Rechenkapazitäten müssen möglicherweise nicht nur nicht reduziert, sondern sogar vergleichbar oder höher sein als in der Vorabtrainingsphase.
Der Beitrag weist darauf hin, dass je größer das Modell und je umfassender das Vorabtraining ist, desto stärker ist die Elastizität und desto höher ist das Risiko eines Rücksprungs bei der Anpassung. Mit anderen Worten, die derzeit scheinbar effektiven Anpassungsmethoden mögen nur oberflächlich und oberflächlich sein. Um eine robuste Anpassung, die in die innere Mechanik des Modells geht, zu erreichen, bleibt noch viel zu tun. Diese Entdeckung stellt eine ernsthafte Herausforderung für die KI-Sicherheit und -Anpassung dar: Das Modell kann möglicherweise nicht nur nicht lernen, sondern es kann sogar vorgeben, gelernt zu haben. Dies bedeutet, dass das Vorabtraining und das Feintuning von LLMs, VLMs und VLAs derzeit neue Probleme bei der Anpassung haben.
Die Gutachter und der Vorsitzende der ACL 2025 haben diese Studie hoch angesehen. Sie waren sich einig, dass der Begriff der "Elastizität" in dem Beitrag die Widerstands- und Rücksprungmechanismen von großen Sprachmodellen bei der Anpassung auf bahnbrechende Weise enthüllt und eine neue theoretische Perspektive und eine solide Grundlage für das seit langem bestehende Problem der Anpassungsanfälligkeit in diesem Bereich bietet. Der Bereichsvorsitzende wies ferner darauf hin, dass der Beitrag eine Brücke zwischen der Kompressionstheorie, der Modellskalierbarkeit und der sicheren Anpassung schlägt. Er ist nicht nur empirisch solide und theoretisch tiefgreifend, sondern hat auch weitreichende Implikationen für die Governance und Sicherheit.
Der (unabhängige) Korrespondenzautor des Beitrags ist Dr. Yaodong Yang, derzeit Forscher am Institut für Künstliche Intelligenz der Peking-Universität, Zhiyuan-Forscher (Verantwortlicher für die Sicherheit von großen Modellen) und Chefwissenschaftler des Joint Lab für Künstliche Intelligenz zwischen der Peking-Universität und Lingchu.
Die Erstautoren des Beitrags sind Mitglieder der Forschungsgruppe von Yaodong Yang und umfassen: Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou. Die Koautoren umfassen Dr. Juntao Dai, Forscher am Sicherheitszentrum des Zhiyuan-Instituts, und Prof. Yunhuai Liu von der Fakultät für Informatik der Peking-Universität.
Beitrag 4: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
- Autoren: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng
- Institutionen: DeepSeek, Peking-Universität, University of Washington
- Link zum Beitrag: https://arxiv.org/pdf/2502.11089
Zusammenfassung des Beitrags: Dieser Beitrag, der von Wenfeng Liang, dem Gründer von Magic Square Technology und DeepSeek, selbst verfasst wurde, schlägt einen neuen Aufmerksamkeitsmechanismus - NSA - vor. Dies ist ein lokal trainierbarer sparsamer Aufmerksamkeitsmechanismus für das ultraschnelle Training und die Inferenz von langen Kontexten und hat auch die Eigenschaft, mit der Hardware kompatibel zu sein.
Das Modellieren von langen Kontexten ist eine Schlüsselkompetenz für die nächsten Generationen von großen Sprachmodellen (LLMs). Diese Anforderung ergibt sich aus einer Vielzahl von praktischen Anwendungen, einschließlich der tiefen Inferenz, der Codegenerierung auf Lagerstufe und des mehrstufigen automatischen Agentensystems.
Eine natürliche Methode, um eine effiziente Modellierung von langen Kontexten zu erreichen, ist die Nutzung der inhärenten Sparsamkeit der Softmax-Aufmerksamkeit. Durch die selektive Berechnung von Schlüssel-Query-Schlüssel-Paaren kann der Rechenaufwand erheblich reduziert werden, während die Leistung aufrechterhalten bleibt. Die jüngsten Fortschritte in dieser Richtung umfassen verschiedene Strategien: KV-Cache-Ausscheidungsstrategien, Block-KV-Cache-Auswahlstrategien sowie auf Sampling, Clustering oder Hashing basierende Auswahlstrategien. Obwohl diese Strategien vielversprechend sind, funktionieren die bestehenden sparsamen Aufmerksamkeitsmethoden in der praktischen Implementierung oft nicht gut. Viele Methoden erreichen keine Beschleunigung, die mit den theoretischen Gewinnern vergleichbar ist. Darüber hinaus konzentrieren sich die meisten Methoden hauptsächlich auf die Inferenzphase und fehlen an einer effektiven Unterstützung während des Trainings, um die sparsamen Muster der Aufmerksamkeit voll auszunutzen.
Um diese Einschränkungen zu überwinden, muss die Implementierung eines effektiven sparsamen Aufmerksamkeitsmechanismus zwei Schlüsselherausforderungen bewältigen: die