2 Millionen Lesezahlen in einer Nacht, perfekte Synchronisation mit OpenAI. Dieser Testrahmen lässt alle weltweit führenden Large Language Models (LLMs) scheitern.
Die von einem chinesischen Team geleitete Studie hat die internationalen Plattformen in Sturm gefasst. Bereits nach einer Nacht betrug die Anzahl der Lesezugriffe 2 Millionen!
Kürzlich hat eine Studie, die von einem chinesischen Team zusammen mit 24 Top-Universitäten und Institutionen weltweit veröffentlicht wurde und die Fähigkeiten von LLMs für die Wissenschaft misst, die internationalen Plattformen in Aufruhr versetzt!
An diesem Abend hat François Chollet, der Schöpfer von Keras (eines der effizientesten und am einfachsten zu verwendenden Deep-Learning-Frameworks), den Link zur Studie geteilt und gerufen: „Wir brauchen dringend neue Ideen, um die Künstliche Intelligenz in Richtung wissenschaftlicher Innovation voranzutreiben.“
Nachdem der KOL im Bereich KI, Alex Prompter, die Kernaussagen der Studie geteilt hatte, hat Mark Cuban, der Eigentümer der NBA-Mannschaft Dallas Mavericks, den Beitrag weitergeleitet. Silicon Valley -Investoren, europäische Familienverwaltungen und Sportmedien haben sich in den Kommentaren gemeldet.
Nach nur einer Nacht näherte sich die Gesamtanzahl der Lesezugriffe fast 2 Millionen.
Es ist erwähnenswert, dass OpenAI in der gleichen Zeitspanne auch eine Zusammenfassung der Studie „Frontier Science: Evaluating AI's Ability to Perform Scientific Research Tasks“ veröffentlicht hat, in der festgestellt wird, dass die bestehenden Bewertungsstandards im Bereich AI for Science versagen.
Was für ein Arbeitsergebnis ist es, das zeitgleich mit OpenAI und in den internationalen Diskussionen so viel Aufsehen erregt hat und die globale KI-Publikumsmeinung in Aufruhr versetzt hat?
Wie weit ist die KI noch von der Unterstützung der wissenschaftlichen Entdeckung entfernt?
Vor kurzem hat die USA das „Genesis -Projekt“ angekündigt, das angeblich die größten bundesstaatlichen Forschungsressourcen seit dem Apollo -Projekt mobilisieren soll, um die Produktivität und den Einfluss der amerikanischen Forschung innerhalb von zehn Jahren zu verdoppeln.
Aber in einer Zeit, in der die Bewertung von KI -Startups in eine Blase gerät und das Verhältnis von Energieverbrauch zu Output in Frage gestellt wird, gibt es einerseits die Euphorie der Investoren, andererseits die peinliche Situation, dass die Fähigkeiten der KI auf oberflächliche Anwendungen wie „Text -zu -Bild“ beschränkt bleiben. Einerseits dominieren verschiedene Large -Language -Modelle die auf Fragenkatalogen basierenden Benchmarks wie GPQA und MMMU, andererseits können die bestehenden LLMs noch nicht einmal einfache NMR -Spektren korrekt analysieren.
Die Menschen fragen sich: Kann ein gutes Ergebnis in einem Fragenkatalog auch die wissenschaftliche Entdeckung unterstützen? Wie weit sind die aktuellen Modelle von der wissenschaftlichen Entdeckung noch entfernt? Welches KI -Modell ist tatsächlich in der Lage, die Grenzen des menschlichen Lebens zu erweitern? Diese Diskussionen werden in der heißen Phase des KI -Wettbewerbs zwischen China und den USA immer lauter.
Vor diesem Hintergrund beantwortet die Studie „Evaluating LLMs in Scientific Discovery“, die von dem chinesischen Startup „Deep Principle“ im Bereich AI for Science zusammen mit 24 weltweit führenden Forschungsinstitutionen wie dem Massachusetts Institute of Technology, Harvard, Princeton, Stanford, Cambridge und Oxford veröffentlicht wurde, diese Fragen der Zeit.
Die Studie hat das erste Bewertungssystem SDE (Scientific Discovery Evaluation) für LLMs für die Wissenschaft eingeführt, das die Fähigkeiten der weltweit führenden Large -Language -Modelle wie GPT -5, Claude -4.5, DeepSeek -R1 und Grok -4 in den Bereichen Biologie, Chemie, Materialwissenschaft und Physik von der Formulierung wissenschaftlicher Fragen bis hin zur Durchführung von Forschungsprojekten untersucht.
Im Gegensatz zu früheren Bewertungssystemen geht das SDE von einfachen Fragen -und -Antwort -Szenarien zu konkreten Experiment -Szenarien wie „Hypothese -> Experiment -> Analyse“ über.
Die Studie hat gezeigt, dass die durchschnittliche Genauigkeit von GPT -5, Claude -4.5, DeepSeek -R1 und Grok -4 zwischen 50 und 70 % liegt, weit unter den 80 -90 % in Fragenkatalogen wie GPQA und MMMU. Bei 86 schwierigen Fragen („SDE -Hard“) erreichte das höchste Ergebnis weniger als 12 %, was die Schwächen in der mehrstufigen Inferenz, der Quantifizierung von Unsicherheiten und der Kopplung von Experiment und Theorie aufzeigt.
Was noch besorgniserregender ist, ist die deutliche Abnahme des Grenznutzen bei der Steigerung der Modellgröße und der Inferenzfähigkeit.
Im Vergleich zu seinem Vorgänger hat GPT -5 eine deutlich größere Parameteranzahl und höhere Inferenzleistung, aber in den vier wissenschaftlichen Bereichen des SDE -Benchmarks hat die durchschnittliche Genauigkeit nur um 3 -5 % zugenommen, und in einigen Szenarien (z. B. der NMR -Strukturanalyse) hat die Leistung sogar abgenommen.
Mit anderen Worten, die Leistung der aktuellen Large -Language -Modelle bei der Förderung der wissenschaftlichen Entdeckung ist noch schlechter als die eines durchschnittlichen Studenten.
Wer ist das Team hinter der Studie, die von 24 Top -Forschungsinstitutionen veröffentlicht wurde?
Der Korrespondenzautor der Studie „Evaluating LLMs in Scientific Discovery“ ist Duan Chenru, Gründer und CTO von „Deep Principle“.
Bereits 2021, während er seinen Doktor in Chemie am MIT absolvierte, gründete er mit der Unterstützung des Turing -Preisträgers Yoshua Bengio die Community AI for Science und veranstaltete einen Workshop zu AI for Science auf der NeurIPS -Konferenz.
Anfang 2024 kehrte er zusammen mit Jia Haojun, einem Doktoranden in Physikalische Chemie am MIT, nach China zurück und gründete gemeinsam „Deep Principle“. Jia Haojun ist CEO, und Duan Chenru ist CTO. Obwohl beide in den 95er -Jahren geboren wurden, sind sie bereits in der globalen Startup -Szene von AI for Science bekannt.
Seit einem Jahr und einem halben hat das Unternehmen Investitionen von renommierten Institutionen wie Linear Capital, Hillhouse Capital und Ant Group erhalten und hat strategische Partnerschaften mit namhaften Unternehmen im Bereich AI for Science wie Jingtai Technology und Shenshi Technology eingegangen.
„Deep Principle“ wurde von Anfang an mit den Erwartungen der weltweit führenden Forscher im Bereich AI for Science geboren. Zurzeit ist das Unternehmen bereits in die vorderste Front der globalen Materialforschung eingebunden und kombiniert generative Künstliche Intelligenz mit Quantenchemie, um die Entdeckung von neuen Materialien in eine neue Ära zu führen.
In den letzten Jahren haben sie in Top -Zeitschriften wie Nature und JACS bedeutende Forschungsergebnisse veröffentlicht, was ihre technologische Führung und ihre offene Haltung als „Startup aus den 95er -Jahren“ belegt.
Von der Erforschung der Anwendung von Diffusionsmodellen in der chemischen Reaktion, die beweist, dass nicht nur Materialien generiert werden müssen, sondern auch die Synthesewege, bis hin zum direkten Vergleich von Machine -Learning -Potentialen (MLPs) und Diffusionsmodellen, der zeigt, dass traditionelle MLPs nicht alles können, bis hin zur Einführung des SDE durch die Organisation von Top -Forschern und Universitäten, die beweist, dass traditionelle auf Fragenkatalogen basierende Benchmarks uns nicht zu einer wissenschaftlichen Superintelligenz führen können. Sie haben direkt auf die Kernprobleme im Bereich AI for Science zugeschnitten.
Allerdings müssen alle AI4S -Unternehmen ständig die Frage beantworten, ob die KI tatsächlich die Probleme bei der Entwicklung neuer Produkte lösen und die Erwartungen der Kunden erfüllen kann.
Mit der Umsetzung kommerzieller Partnerschaften mit führenden Unternehmen in der Branche hat sich in der Datenbank von „Deep Principle“ eine große Menge an echten industriellen Forschungs -und Entwicklungsszenarien und Erfahrungen aus der Modellanwendung angesammelt, die sowohl von den Kunden als auch aus dem eigenen Labor stammen.
Durch ihre Vertiefung in der akademischen Welt und ihre Erfahrungen in der kommerziellen Umsetzung von AI for Science konnte „Deep Principle“ bei der Initiative, ein neues Maßstab für die Bewertung der Fähigkeiten von LLMs für die Wissenschaft zu schaffen, 50 Forscher aus 23 weltweit führenden Institutionen für wissenschaftliche Entdeckung zusammenbringen und so das „Traumteam“ für die Entwicklung des SDE gründen.
Darunter befinden sich auch namhafte Forscher im Bereich LLM, wie:
- Sun Huan, Initiator von MMMU, Professor an der Ohio State University
- Du Yuanqi, Doktorand an der Cornell University, „Betreuer“ der AI4Science -Community
- Wang Mengdi, die jüngste Professorin an der Princeton University, Pionierin in der Kombination von KI und Biologie -Sicherheit
- Philippe Schwaller, der Vater von IBM RXN, Professor an der EPFL
Die zuvor gesammelten Szenarien für wissenschaftliche Entdeckungen von „Deep Principle“ bildeten die Grundlage für das spätere SDE -Bewertungssystem.
Nach fast neun Monaten kollaborativer Arbeit über Universitäten, Disziplinen und Zeitzonen hinweg wurde die Studie „Evaluating LLMs in Scientific Discovery“ endgültig veröffentlicht, und die Korrespondenzadresse lautet: Deep Principle, Hangzhou, China.
Von nun an steht das chinesische Startup -Team „Deep Principle“, das die kollektive Weisheit von weltweit führenden Institutionen für wissenschaftliche Entdeckung vereint, zusammen mit OpenAI auf der Startlinie des Strebens nach AI for Science, der Spitze der menschlichen KI -Entwicklung.
Vielleicht werden in Jahrhunderten, wenn die Menschen zurückblicken auf die Ära der AGI, feststellen, dass dieser von chinesischen und amerikanischen Teams gemeinsam initiierten ernsten Diskussionen über AI for Science die LLMs von der Konkurrenz in Fragenkatalogen hin zur echten wissenschaftlichen Entdeckung gebracht haben.
Die Forschung von „Deep Principle“ und seinen über 50 Partnern aus mehr als 20 Institutionen hat bewiesen, dass der gegenwärtige Entwicklungspfad der LLMs nicht automatisch die wissenschaftliche Entdeckung fördern kann.
Der Weg zur wissenschaftlichen Superintelligenz erfordert die Zusammenarbeit von vielen engagierten Menschen.
Dieser Artikel stammt aus dem WeChat -Kanal „New Intelligence Yuan“, Autor: New Intelligence Yuan, Redakteur: Aeneas. Veröffentlicht von 36Kr mit Genehmigung.