StartseiteArtikel

AGI hat eine neue "offizielle" Definition erhalten, vorgeschlagen von Turing-Preisträger Yoshua Bengio und anderen. GPT-5 erreicht nur 57%.

账号已注销2025-10-29 18:07
AGI wird aus zehn großen Dimensionen bewertet.

Künstliche Allgemeine Intelligenz (AGI) könnte möglicherweise der wichtigste technologische Durchbruch in der Geschichte der Menschheit werden. Doch aufgrund des Fehls einer klaren Definition der AGI wird die Differenz zwischen der gegenwärtigen spezialisierten Künstlichen Intelligenz (AI) und dem kognitiven Niveau des Menschen zunehmend verschwommen.

Um dieses Problem zu lösen, haben der Direktor des Center for AI Safety (CAIS), Dan Hendrycks, der Turing-Award-Gewinner Yoshua Bengio sowie zahlreiche Unternehmer und Wissenschaftler aus der Branche einen quantifizierbaren Rahmen entwickelt und die AGI wie folgt definiert:

Eine KI, die in Bezug auf kognitive Vielfalt und Kompetenz einem gut ausgebildeten Erwachsenen gleichkommt oder ihn übertrifft.“

an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.

Diese Definition betont, dass allgemeine Intelligenz nicht nur ein hohes Niveau an Fachkenntnissen in engen Fachgebieten erfordert, sondern auch die Breite an Fähigkeiten (Multifunktionalität) und Tiefe (Kompetenz), die für menschliche Kognition typisch sind.

Link zur Studie: https://arxiv.org/abs/2510.18212

Die Forschungsergebnisse zeigen, dass im Rahmen dieses Ansatzes die AGI-Score von GPT-4 nur 27% und die von GPT-5 nur 57% beträgt.

Abbildung | AGI-Scores von GPT-4 und GPT-5.

Dies zeigt, dass obwohl die gegenwärtigen KIs in komplexen Tests gut abschneiden, ihnen viele Kernfähigkeiten fehlen, die für eine menschenähnliche allgemeine Intelligenz von entscheidender Bedeutung sind.

Was noch wichtiger ist: Dieser Rahmen bietet eine strukturierte, quantifizierbare und robusterere Methode zur Bewertung der AGI, die über enge, spezialisierte Tests hinausgeht.

10 Kernfähigkeiten der AGI

Um die spezifischen kognitiven Fähigkeiten von KI-Systemen systematisch zu untersuchen, hat das Forschungsunternehmen eine Methodik auf der Grundlage der Theorie von Cattell-Horn-Carroll (dem am besten empirisch validierten Modell menschlicher Intelligenz) entwickelt. Dieser Rahmen zerlegt die allgemeine Intelligenz in 10 Kernbereiche der Kognition – einschließlich logisches Denken, Gedächtnis und Wahrnehmung – und verwendet etablierte psychometrische Tests für Menschen, um KI-Systeme zu bewerten.

Abbildung | Die 10 Kernkomponenten der definierten AGI.

Die Einzelheiten sind wie folgt:

1. Allgemeine Wissen

Allgemeines Wissen (General Knowledge) bezieht sich auf „das Wissen, das die meisten gut ausgebildeten Menschen kennen oder das so wichtig ist, dass die meisten Erwachsenen damit in Kontakt gekommen sind“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Allgemeinwissen, Wissenschaft, Sozialwissenschaften, Geschichte und Kultur bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 9% beträgt.

2. Lese- und Schreibfähigkeit

Lese- und Schreibfähigkeit (Reading and Writing Ability) bezieht sich auf „die Fähigkeit, alle deklarativen und prozeduralen Kenntnisse in Bezug auf Lesen und Schreiben zu beherrschen“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Worterkennung, Textverständnis, Schreibfähigkeit und Grammatik bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 10% beträgt.

3. Mathematische Fähigkeiten

Mathematische Fähigkeiten (Mathematical Ability) beziehen sich auf „die Tiefe und Breite mathematischer Kenntnisse und Fertigkeiten“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Arithmetik, Algebra, Geometrie, Wahrscheinlichkeitstheorie und Analysis bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 10% beträgt.

4. Sofortiges logisches Denken

Sofortiges logisches Denken (On-the-Spot Reasoning) bezieht sich auf „die Fähigkeit, die Aufmerksamkeit bewusst und flexibel zu steuern, um neue und aktuelle Probleme zu lösen, die nicht allein durch bisher erworbene Gewohnheiten, Muster und Schemata gelöst werden können“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf deduktives und induktives Denken, Theorie des Geistes, Planung und Anpassungsfähigkeit bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 7% beträgt.

5. Arbeitsgedächtnis

Arbeitsgedächtnis (Working Memory) bezieht sich auf „die Fähigkeit, Informationen in einem fokussierten Aufmerksamkeitszustand zu speichern, zu verarbeiten und zu aktualisieren“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf auditives, visuelles und multimodales Gedächtnis bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 4% beträgt.

6. Langzeitgedächtnisspeicherung

Langzeitgedächtnisspeicherung (Long-Term Memory Storage) bezieht sich auf „die Fähigkeit, neue Informationen aus jüngeren Erfahrungen stabil zu erwerben, zu konsolidieren und zu speichern“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf assoziatives, sinnhaftes und wörtliches Gedächtnis bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 0% beträgt.

7. Langzeitgedächtnisabruf

Langzeitgedächtnisabruf (Long-Term Memory Retrieval) bezieht sich auf „die Fähigkeit, Informationen aus dem Langzeitgedächtnis flüssig und präzise abzurufen“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Abrufflüssigkeit und Halluzinationen bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 4% beträgt.

8. Visuelle Verarbeitung

Visuelle Verarbeitung (Visual Processing) bezieht sich auf „die Fähigkeit, natürliche oder künstliche Bilder und Videos zu analysieren und zu generieren“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Wahrnehmung, Generierung, logisches Denken und räumliche Exploration bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 4% beträgt.

9. Auditive Verarbeitung

Auditive Verarbeitung (Auditory Processing) bezieht sich auf „die Fähigkeit, auditorische Reize zu unterscheiden, zu speichern, logisch zu verarbeiten und zu verarbeiten“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Sprachkodierung, Spracherkennung, Rhythmus, Klangfarbe und Tongenauigkeit bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 6% beträgt.

10. Schnelligkeit

Schnelligkeit (Speed) bezieht sich auf „die Fähigkeit, kognitive Aufgaben schnell zu erledigen“. In dieser Dimension hat das Forschungsunternehmen GPT-5 und GPT-4 in Bezug auf Suchgeschwindigkeit, Vergleich, Lesen, Schreiben und numerische Verarbeitung bewertet. Die Ergebnisse zeigen, dass die Gesamtrichtigkeit von GPT-5 nur 3% beträgt.

Weitere Details zur Bewertung finden Sie in der Studie.

Einschränkungen und zukünftige Herausforderungen

Die oben genannten Ergebnisse verdeutlichen die Kompetenzlücke zwischen der gegenwärtigen KI und der menschlichen allgemeinen Intelligenz. Dies zeigt sich insbesondere in folgenden Punkten:

1. Mangel an Schlüsselkompetenzen

Obwohl die gegenwärtigen KIs in Bereichen wie allgemeinem Wissen, Lese- und Schreibfähigkeit sowie mathematischen Fähigkeiten eine hohe Kompetenz aufweisen, bestehen dennoch gravierende Mängel in den grundlegenden kognitiven Mechanismen. Gleichzeitig ist die Langzeitgedächtnisspeicherung ein Engpass, der dringend überwunden werden muss, da die gegenwärtigen KIs in diesem Bereich fast 0% erreichen. Darüber hinaus fehlt den gegenwärtigen KIs die Fähigkeit zum kontinuierlichen Lernen. Sie müssen in jeder Interaktion den Kontext neu lernen, was ineffizient ist. Außerdem beschränkt der Mangel an visuellen logischen Denkfähigkeiten die Interaktion von KI-Agenten mit komplexen digitalen Umgebungen.

Abbildung | Die Kompetenzverteilung von GPT-4 und GPT-5.