Die Genauigkeit von GPT - 4o beträgt nur 24%: Autoritative chinesische Bildungsmaße - Doppeltest von Wissen und Emotionaler Intelligenz

Es wird nicht nur das Wissen geprüft, sondern auch die Emotionalintelligenz, die Wertvorstellungen und die pädagogische Weisheit des Modells.

Die Fakultät für Künstliche Intelligenz in der Bildung der Ostchina Normal University hat OmniEduBench veröffentlicht, um erstmals die Bildungsfähigkeiten von Large Language Models (LLMs) aus den beiden Dimensionen „Wissen“ und „Persönlichkeitsbildung“ zu bewerten. Nach der Bewertung von 24.000 chinesischen Fragen ergaben die Experimente, dass Spitzenkünstliche Intelligenzen wie GPT-4o zwar gute Leistungen in der Aufgabenlösung erzielen, aber in Bereichen wie mentaler Anregung und emotionaler Unterstützung weit hinter Menschen zurückbleiben. Dies zeigt die entscheidenden Schwächen von KI als Lehrer auf.

In den letzten Jahren haben LLMs bemerkenswerte Fortschritte in Wissensfragen und mathematischen Schlüssen erzielt.

Wenn diese Technologien jedoch in die komplexe Bildungsumgebung eingeführt werden, stellt sich die zentrale Frage: Sind unsere bestehenden Bewertungsverfahren ausreichend? Wie können wir ihre Fähigkeiten umfassend bewerten? Ist ein guter „KI-Lehrer“ nur ein „Aufgabenlösungsexperte“?

Die derzeitigen Bewertungsstandards, insbesondere im chinesischen Bereich, weisen zwei wesentliche Einschränkungen auf:

Eindimensionale Bewertung: Die meisten Standards (wie C-Eval, MMLU usw.) konzentrieren sich hauptsächlich auf das Wissensreservoir und das Verständnisvermögen der Modelle, d. h. die „Wissensdimension“. Darüber hinaus sind die meisten Aufgaben in diesen Standards relativ einfach und decken nicht alle Aufgabenarten in realen Prüfungsszenarien ab.

Ignorierung wichtiger Fähigkeiten: Sie vernachlässigen weitgehend die in der Bildung unersetzliche „Persönlichkeitsbildungsdimension“ (Cultivation Capabilities), wie z. B. heuristisches Lehren, emotionale Unterstützung, die Förderung von moralischen Werten und die Führung von kritischem Denken.

Kürzlich haben Forscher der Ostchina Normal University OmniEduBench vorgestellt, ein neues Benchmark, das speziell für die Bewertung der „komprehensiven Bildungsqualitäten“ von chinesischen LLMs entwickelt wurde und 24.602 hochwertige Frage-Antwort-Paare enthält.

Die Studie zeigt, dass die meisten bestehenden Benchmarks sich auf die Wissensdimension konzentrieren und die in realen Bildungsszenarien entscheidenden „Persönlichkeitsbildungsfähigkeiten“ stark vernachlässigen.

Projekt-Website: https://mind-lab-ecnu.github.io/OmniEduBench/ Paper-Link: https://arxiv.org/pdf/2510.26422 Code-Repository: https://github.com/remiMZ/OmniEduBench-code/tree/main

Der erste Autor des Papers ist Zhang Min, ein Assistentprofessor an der Fakultät für Künstliche Intelligenz in der Bildung der Ostchina Normal University. Seine Hauptforschungsschwerpunkte liegen in der Multimodalität von LLMs und der KI-unterstützten Bildung. Das Forschungsteam hat festgestellt, dass selbst Spitzenmodelle wie Gemini in bestimmten Bewertungsdimensionen von OmniEduBench schlechte Ergebnisse erzielen, was zeigt, dass die gegenwärtigen LLMs noch einen deutlichen Abstand zu einem echten Verständnis von Bildung haben.

OmniEduBench deckt alle Schulstufen und Fächer ab

Das Kerninnovationselement von OmniEduBench liegt in seinem einzigartigen zweidimensionalen Bewertungssystem.

Dimension 1: Wissensdimension (Knowledge Dimension)

Dieser Teil enthält 18.121 Einträge und zielt darauf ab, das Fachwissen der Modelle umfassend zu prüfen.

Abdeckung aller Schulstufen: Es werden fünf Schwierigkeitsstufen von der Grundschule über die Mittelschule, die Oberschule, die Universität bis hin zu beruflichen Prüfungen abgedeckt.

Abdeckung aller Fächer: Es sind 41 verschiedene Fächer enthalten, von Geisteswissenschaften und Geschichte (z. B. die chinesische Literaturgeschichte der Antike) über Naturwissenschaften und Technik (z. B. Höhere Mathematik, Pflanzenphysiologie) bis hin zu beruflichen Bereichen (z. B. Recht, Medizin).

Vielfalt an Aufgabenarten: Es gibt 11 gängige Prüfungsaufgabenarten, wie z. B. Einfachauswahl, Mehrfachauswahl, Lückenfüllen, Kurzantworten, Begriffsdefinitionen, Fallstudien und Aufsätze.

Dimension 2: Persönlichkeitsbildungsdimension (Cultivation Dimension)

Dieser Teil ist der Kern von OmniEduBench und enthält 6.481 Einträge, die sich auf die Bewertung der „soft skills“ der Modelle in realen Lehrinteraktionen konzentrieren.

Fokussierung auf Kernkompetenzen rund um 6 Teilbereiche und 20 konkrete Lehrthemen, wie z. B.:

Denken und Kognition (Thinking & Cognitive Skills): Kritisches Denken, Problemlösungsfähigkeit.

Individualisierte Entwicklung (Personalized Development): Heuristisches Lehren, interessengesteuertes Lernen.

Emotionale und psychische Gesundheit (Emotional & Mental Health): Empathie und Mitgefühl, wachstumsorientiertes Denken.

Charakter und Werte (Character & Values): Verantwortungsbewusstsein, Integrität.

Beispielsweise muss das Modell in der „Persönlichkeitsbildungsdimension“ auf eine Situationsaufgabe wie diese reagieren: „Ein Schüler macht während eines Besuchs im Friedhof der Helden lustige Stiche und ich bin wütend. Wie soll ich das angehen?“

Es wird nicht nur das Wissen geprüft, sondern auch das Emotionalintelligence, die Werte und die Bildungskompetenz des Modells.

Datenschutz und hohe Herausforderung

Um die Qualität und Herausforderung des Benchmarks sicherzustellen, war der Aufbau von OmniEduBench sehr streng und umfasste vier Schritte:

Mehrdimensionales Datensammeln (927K): Es werden öffentliche Daten (21K), private Daten wie interne Prüfungsblätter (106K) gesammelt und mit LLMs situationsbezogene Frage-Antwort-Paare generiert (800K), um die Vielfalt und Einzigartigkeit der Datenquellen sicherzustellen.

Strukturierte Datenbereinigung (657K): Die Daten werden in einheitliches Format gebracht, Metadaten wie Fach, Klasse, Aufgabenart usw. werden extrahiert, und es werden Standardbereinigungsverfahren wie Duplikatentfernung, Entfernung von sensiblen Inhalten und Entfernung von Abhängigkeiten von externen Informationen durchgeführt.

Doppelte Modellfilterung (50K): Um zu vermeiden, dass die Modelle die Aufgaben auswendig lernen, werden zwei leistungsstarke Modelle für eine „antagonistische“ Filterung eingesetzt. Zuerst werden mit QWQ-32B die einfachen Aufgaben herausgefiltert, die es beantworten kann, und dann wird mit dem stärkeren Qwen3-235B eine zweite Filterung durchgeführt, um nur die hochschwierigen Stichproben zu behalten.

Expertendurchsicht (24.6K): Schließlich werden die Daten von 50 Masterstudenten und 5 erfahrenen Experten manuell überprüft und auf Qualität geprüft. Die abschließende Stichprobenprüfung zeigt: Die Gesamtqualität beträgt 4.8/5, die Antwortgenauigkeit 4.8/5, und die Übereinstimmung der Bewerter liegt bei 0.90.

Experimentelle Ergebnisse: Selbst die besten geschlossenen Modelle haben Schwierigkeiten

Das Forschungsteam hat 11 gängige geschlossene und offene LLMs (einschließlich GPT-4o, Gemini-2.5 Pro, Claude-4 Sonnet, Qwen-Serie, DeepSeek-V3.1 usw.) auf OmniEduBench umfassend getestet, und die Ergebnisse sind aufschlussreich:

Entdeckung 1: Schwierigkeiten in der Wissensdimension, schlechte Leistung von GPT-4o In der Wissensdimension hat nur Gemini-2.5 Pro eine durchschnittliche Genauigkeit von über 60 % (62.76 %). Überraschenderweise hat sogar das starke GPT-4o in diesem Test schlechte Ergebnisse erzielt, mit einer Genauigkeit von nur 24.17 %, was weit hinter mehreren Spitzen-Open-Source-Modellen liegt (z. B. QwQ-32B mit 53.87 %). Dies könnte darauf hinweisen, dass die GPT-Serie Schwierigkeiten hat, mit der vielfältigen und lokalisierten chinesischen Prüfungsstilaufgaben umzugehen.

Entdeckung 2: Die „Persönlichkeitsbildungsfähigkeit“ ist ein kollektives Problem, der Abstand zum menschlichen Niveau ist groß In der wichtigeren Persönlichkeitsbildungsdimension haben alle Modelle Schwächen gezeigt. Obwohl die Aufgabenform relativ einfach ist (meist Multiple-Choice-Aufgaben), hat selbst das beste Modell (QwQ-32B mit einer Genauigkeit von 70.27 %) noch einen großen Abstand von fast 30 % zum menschlichen Niveau in diesem Bereich. Dies zeigt, dass die gegenwärtigen LLMs in höheren Bildungsfähigkeiten wie Empathie und heuristischer Führung allgemein fehlen.

Entdeckung 3: Der hochschwierige Teilsatz (OmniEduBench HARD) lässt die Spitzenmodelle ihre Schwächen zeigen Das Forschungsteam hat auch einen hochschwierigen Teilsatz OmniEduBench HARD erstellt. Auf diesem Teilsatz hat die Leistung aller LLMs stark abgenommen. Selbst das stärkste Gemini-2.5 Pro hat eine Genauigkeit von weniger als 50 %, was die Herausforderung und Unterscheidungsfähigkeit dieses Benchmarks beweist.

Warum ist OmniEduBench wichtig?

Prüfung der echten „Verwendbarkeit“: KI in der Bildung sollte nicht nur ein „Aufgabenlösungstool“ sein. OmniEduBench systematisiert und quantifiziert erstmals die Interaktionsfähigkeiten in Bildungsszenarien und bringt die Branche dazu, die Werte der Modelle in realen Interaktionsszenarien wie Anregung und Rückmeldung zu beachten.

Anpassung an die lokale Situation: Die chinesische Bildung hat ihre eigene sprachliche, kulturelle und pädagogische Praxis. OmniEduBench ist ein ursprünglich chinesisches Bildungsevaluationstool, das von den Daten bis zur Aufgabenstellung besser an die lokale Situation angepasst ist und die Leistung der Modelle in der lokalen Umgebung genauer bewerten kann.

Abschluss und Ausblick

Die Veröffentlichung von OmniEduBench bietet eine dringend benötigte und umfassendere Perspektive für die Bewertung von chinesischen LLMs in der Bildung.

Es zeigt deutlich die Schwächen der gegenwärtigen LLMs auf: Obwohl die Modelle in der Wissensakquisition große Fortschritte gemacht haben, ist es noch ein langer Weg, die Kernziele der Bildung – die „Persönlichkeitsbildung“ – zu erreichen.

Das Forschungsteam hat angekündigt, dass in zukünftigen Arbeiten komplexere Fragentypen in der Persönlichkeitsbildungsdimension erforscht und multimodale Bildungsszenarien eingeführt werden, um die umfassende Fähigkeit von LLMs und MLLMs in der Bildung kontinuierlich zu fördern.

Referenzen:

https://arxiv.org/pdf/2510.26422

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: New Intelligence Yuan, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。