StartseiteArtikel

Neue Forschung von Tsinghua-Universität, Doppelerfolg in Nature und Science

量子位2026-01-15 15:44
Aufdeckung der klassischen Widersprüche im Bereich von AI for Science

Gerade jetzt hat eine AI for Science-Forschung von der Tsinghua-Universität nicht nur die Zeitschrift Nature erreicht, sondern auch in Science ausführlich berichtet worden.

Diese Forschung von der Gruppe um Li Yong der Tsinghua-Universität hat durch die Analyse von 250 Millionen wissenschaftlichen Publikationen weltweit ein typisches Dilemma im Bereich AI for Science aufgedeckt –

Während KI Wissenschaftlern bei der "individuellen Beschleunigung" hilft, führt sie gleichzeitig zu einer Verengung des kollektiven Fokus der Wissenschaftsgemeinschaft und zu einem Phänomen des "Gruppenbergbaus", bei dem sich die Anstrengungen auf bestimmte Gebiete konzentrieren.

Das bedeutet, dass zwar KI Wissenschaftlern hilft, mehr Publikationen zu veröffentlichen und früher Projektleiter zu werden, aber gleichzeitig dazu führt, dass sich die Menschen auf wenige "beliebteste Berge" konzentrieren, die sich für KI-Forschung eignen, und damit die Breite der wissenschaftlichen Erforschung unbeabsichtigt einschränken.

Weitere Analysen zeigen, dass dieses Dilemma kein Zufall ist, sondern eine systemische Folge des Mangels an Allgemeingültigkeit der gegenwärtigen KI-Modelle in der Wissenschaftlichen Künstlichen Intelligenz ist.

Im Folgenden betrachten wir im Detail, um welche Art von Forschung es sich hier handelt.

Schritt 1: Die Spur der Entwicklung von AI for Science verfolgen

Zurück zum Ausgangspunkt: Das Team hat diese Forschung hauptsächlich durchgeführt, weil es ein offensichtliches Dilemma im Bereich AI for Science festgestellt hat –

Warum beschleunigt sich unter der kontinuierlichen Unterstützung von KI in der Forschung der gesamte wissenschaftliche Fortschritt in den verschiedenen Disziplinen nicht deutlich?

Einerseits hat die Forschung im Bereich AI for Science Ergebnisse wie AlphaFold hervorgebracht, die einen Nobelpreis erhalten haben; andererseits zeigen die Statistiken, dass die Anzahl der bahnbrechenden Forschungsergebnisse in den verschiedenen Disziplinen von Jahr zu Jahr abnimmt, was darauf hinweist, dass die Wissenschaftsche KI hier nicht ausreichend hilft.

Was genau liegt diesem Phänomen zugrunde? Bislang gibt es in der Branche keine klare Antwort.

Das Team hat sich daher diesem Problem gewandt und schließlich die Publikation "Artificial Intelligence Tools Expand Scientists’ Impact but Contract Science’s Focus" veröffentlicht.

In der Publikation war die erste Aufgabe des Teams: Diejenigen "Forschungen, die von KI unterstützt werden", aus dem Meer von Publikationen herauszufinden.

Dieser Schritt ist für die anschließende quantitative Beschreibung der Auswirkungen von KI auf die Wissenschaft von entscheidender Bedeutung.

Deshalb hat das Team die oberflächliche Suchmethode, die auf Schlüsselwörtern basiert, verlassen und stattdessen einen technologischen Ansatz entwickelt, der "qualitativ hochwertige Expertendokumentation + Inferenz durch große Sprachmodelle" kombiniert –

Indem Fachexperten eine kleine Anzahl von Publikationsmustern markieren und dann das Sprachmodell in einer iterativen Optimierung für die Inferenz auf einer großen Skala eingesetzt wird, lernt das Sprachmodell schrittweise, aus Titel und Abstract tiefergehende Analysen darüber anzustellen, "welche Forschungen KI-Tools verwenden".

Die Publikation zeigt, dass die Erkennungsgenauigkeit von BERT sehr hoch ist und 0,875 (auf einer Skala von 0 bis 1) erreicht.

Mit dieser Methode haben sie eine riesige Anzahl von Publikationen aus den letzten 50 Jahren (von 1980 bis 2025) untersucht und schließlich eine "Gesamtkarte der KI-unterstützten Forschung" erstellt.

Diese Karte erstreckt sich über die drei Epochen "Maschinelles Lernen, Deep Learning, Generative KI", umfasst 41,3 Millionen Publikationen und 28,57 Millionen Forscher und wird vom Team als das erste Referenzdatensatz für die Untersuchung der systemischen Auswirkungen von KI auf die Forschung angesehen.

Und dann... das Dilemma im Bereich AI for Science entdecken

Auf der Grundlage dieses Datensatzes hat das Team die Auswirkungen von KI in sechs Naturwissenschaftsdisziplinen (Biologie, Medizin, Chemie, Physik, Materialwissenschaft und Geologie) systematisch analysiert.

Die verwendete Analysemethode lässt sich grob in drei Phasen unterteilen:

Schritt 1: Aufbau einer "wissenschaftlichen Semantikkarte"

Schritt 2: Definition eines Indikators zur Messung der "Breite"

Schritt 3: Durchführung einer Vergleichsanalyse

Einfach ausgedrückt, möchte das Team eine zentrale Frage beantworten –

Hat die Hilfe von KI dazu geführt, dass die Gebiete, die Wissenschaftler erkunden, breiter oder enger geworden sind?

Um diese unsichtbare und tastbare "kognitive Landschaft" objektiv zu messen, haben sie eine wissenschaftstheoretische Analysemethode auf der Grundlage versteckter Variablen entwickelt.

Der Unterschied zwischen dieser Methode und der traditionellen Wissenschaftstheorie besteht darin, dass sie nicht nur auf "oberflächlichen" Daten wie Titel, Schlüsselwörter, Autoren und Zitationsbeziehungen von Publikationen beruht, sondern in die "Idee" und den "Inhalt" der Publikationen selbst eindringt und so abstrakte Konzepte wie "Wissensbreite" präziser messen kann.

Konkret in Schritt eins haben sie den Titel und den Abstract jeder Publikation, die am besten den Inhalt repräsentieren, als Kerntext genommen und durch ein tiefes Einbettungsrepräsentationsmodell in einen mathematischen Vektor mit einer festen Länge von 768 Zahlen umgewandelt.

Dieser Vektor ist die "Koordinate" jeder Publikation im hochdimensionalen digitalen Raum – theoretisch sollten sich die Vektoren von Publikationen mit ähnlicher Semantik auch näher zueinander befinden.

Nachdem alle Publikationen ihre "Koordinaten" gefunden haben, misst das Team die Wissensbreite hauptsächlich anhand der "Durchmesser" und des Entropiewerts.

Der erste Indikator misst die "äußerste Grenze" der Erforschung.

Beispielsweise für die KI-Publikationen in einem bestimmten Bereich in einem Jahr wird zunächst der geometrische Mittelpunkt aller Koordinatenpunkte berechnet, dann die Publikation, die am weitesten vom Mittelpunkt entfernt ist, identifiziert und der euklidische Abstand zwischen ihnen gemessen.

Dieser Abstand ist der im Rahmen der Forschung definierte "Durchmesser", der die Breite der Themenabdeckung dieser Publikationen misst. Je größer der Durchmesser, desto breiter ist der Erforschungshorizont.

Der zweite Indikator misst die "Gleichmäßigkeit" der Verteilung.

Dies bezieht sich auf die Analyse der Verteilung der Koordinatenpunkte der gleichen Publikationen im Raum – wenn sie gleichmäßig im gesamten Raum verteilt sind, ist der Entropiewert hoch, wenn sie sich hingegen eng um wenige Hotspots gruppieren, ist der Entropiewert niedrig.

Dann werden diese Indikatoren verwendet, um die Publikationen von zwei Gruppen von Wissenschaftlern zu messen: diejenigen, die KI verwenden, und diejenigen, die keine KI verwenden.

Damit kann festgestellt werden, ob KI die kognitive Grenze der Wissenschaft erweitert oder einschränkt.

Die Ergebnisse zeigen, dass auf individueller Ebene Wissenschaftler, die KI verwenden, 3,02-mal mehr Publikationen veröffentlichen und 4,84-mal mehr Zitationen erhalten als diejenigen, die keine KI verwenden.

Außerdem werden die ersteren 1,37 Jahre früher Projektleiter (gemessen am letzten Autor).

Dennoch verbirgt sich hinter der individuellen Beschleunigung der Forschung eine unerwartete Einschränkung des gesamten wissenschaftlichen Faches.

Auf kollektiver Ebene hat die Wissensbreite von Forschungsvorhaben, die KI nutzen, um 4,63 % abgenommen, die interdisziplinäre Zusammenarbeit zwischen Wissenschaftlern verschiedener Bereiche um 22 % zurückgegangen, und die Zitationen von KI-Publikationen weisen eine "sternförmige Struktur" auf –

Fast alle zitieren dieselbe oder wenige klassische, bahnbrechende KI-Arbeiten, was darauf hinweist, dass sich die Forschung auf bestimmte Gebiete konzentriert und an Innovation verliert.

Die Frage ist nun, was diesen Widerspruch verursacht?

Die Ursache aufgedeckt: Der Mangel an Allgemeingültigkeit der gegenwärtigen Modelle

Die Publikation kommt zu einem klaren Schluss –

Dies ist eine systemische Folge des Mangels an Allgemeingültigkeit der gegenwärtigen AI for Science-Modelle.

Das Team hat festgestellt, dass die Effizienz von KI eine starke "wissenschaftliche KI-Anziehungskraft" erzeugt. Sie führt Forscher dazu, sich auf wenige "beliebteste Berge" zu konzentrieren, die sich für KI-Forschung eignen, d. h. auf Forschungsrichtungen, die über viele Daten verfügen und sich für die schnellen Ergebnisse mit den vorhandenen KI-Methoden eignen.

Dieses "Gruppenbergbau"-Modell kann zwar die Lösung bekannter Probleme beschleunigen, aber es verfestigt unbeabsichtigt die Wege der wissenschaftlichen Erforschung und schränkt systemisch die Breite der Erforschung von "unbekannten Bergen" ein.

Schließlich entsteht ein Phänomen, bei dem "Breite auf Kosten von Geschwindigkeit" geht.

Das Team erklärt, dass die Entdeckung dieses Widerspruchs eine tiefgehende Reflexion über das Modell der KI-unterstützten Forschung darstellt:

Die gegenwärtige AI for Science hat zwar die Effizienz in bestimmten Bereichen erheblich verbessert, kann aber nicht die Innovationskraft in allen Bereichen und in allen Stufen der Forschung antreiben.

Um diese Einschränkung zu überwinden, hat das Team um die Professoren Xu Fengli und Li Yong schließlich ein ganzheitliches, interdisziplinäres Forschungsintelligenzsystem – OmniScientist – entwickelt. (Zugangs-URL: OmniScientist.ai)

Dieses System nutzt die allgemeine Inferenzfähigkeit von Large Language Model -Agenten aus, um eine systemische Unterstützung für interdisziplinäre, ganzheitliche und multimodale Forschung zu bieten, und ermöglicht es der KI, von einem "Hilfsmittel" zu einem "KI-Wissenschaftler" zu werden, der in der Lage ist, "Hypothesen zu entwickeln, Experimente selbst zu entwerfen, Ergebnisse zu analysieren und Theorien zu entwickeln".

Die Forschung wurde von der