Google DeepMind veröffentlicht erstmals die endgültige Prüfungsordnung für AGI und bietet eine globale Belohnung von 200.000 an, um die Masken aller großen Modelle abzuziehen.
【Einführung】Wie misst man eigentlich AGI? Gerade hat Google DeepMind eine bahnbrechende Studie veröffentlicht und sich aus der Kognitionswissenschaft eine Maßeinheit "ausgeborgt" – indem es die allgemeine Intelligenz in 10 Schlüsselkognitionseigenschaften zerlegt und ein dreistufiges Evaluierungsprotokoll entwickelt hat. Außerdem hat es zusammen mit Kaggle 200.000 US-Dollar ausgeschrieben und forscht weltweit nach Forschern, die die echte AGI messen können!
Wie weit hat die heutige AGI es bereits geschafft?
Gerade hat Google DeepMind die endgültige Maßeinheit für AGI vorgestellt!
In der Studie mit dem Titel "Measuring Progress Toward AGI: A Cognitive Framework" lautet die zentrale These: Stoppen Sie die Debatte darüber, was AGI ist, und klären Sie zunächst, wie man sie misst.
Link zur Studie: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf
Konkret wird die Evaluierung von AGI in 10 Schlüsselkognitionsbereichen unterteilt, darunter Wahrnehmung, Generierung, Aufmerksamkeit, Lernen, Gedächtnis, logisches Denken, Metakognition, Exekutivfunktionen, Problemlösung und soziale Kognition.
Zusätzlich hat Google DeepMind eine Kaggle-Hackathon mit einem Preisgeld von 200.000 US-Dollar für globale Entwickler initiiert.
Bei der Hackathon werden die Aufgabenstellung direkt an die weltweiten Forscher übergeben – das Framework ist bereits aufgebaut, und es liegt an Ihnen, die Prüfungen zu entwickeln.
Von der "AGI-Einteilung" zur "AGI-Gesundheitsuntersuchung"
Dies ist nicht das erste Mal, dass DeepMind versucht, einen Wegweiser für AGI zu erstellen.
Im Jahr 2023 veröffentlichte dasselbe Team das bekannte "Levels of AGI"-Framework, das den Weg zur AGI in 5 Leistungsebenen unterteilt.
Von "Anfänger" (Emerging) bis "Übermensch" (Superhuman) wurden gleichzeitig 6 Autonomieebenen definiert, von "reines Werkzeug" bis "vollständig autonom".
Die Studie hatte einen großen Einfluss, da sie der gesamten Branche eine gemeinsame Sprache gab, ähnlich wie die L1- bis L5-Ebenen im Bereich des autonomen Fahrens, die es ermöglichen, dass alle zumindest in demselben Koordinatensystem kommunizieren können.
Aber es blieb eine große Lücke: Die Stufen sind definiert, aber wie misst man jede Stufe?
Die neue Studie schließt diese Lücke.
10 Schlüsselkognitionseigenschaften: Eine Karte der allgemeinen Intelligenz
Der Kern der Studie ist eine "Kognitive Taxonomie", die die allgemeine Intelligenz in 10 Schlüsselkognitionseigenschaften zerlegt.
Konkret muss man zunächst verstehen, welche Schlüsselprozesse in der menschlichen Kognition enthalten sind, um zu bewerten, wie groß die Lücke zwischen der Kognition von AI und Menschen tatsächlich ist.
In den letzten Jahren haben Psychologie, Neurowissenschaften und Kognitionswissenschaft durch Experimente, Hirnbildgebung, Fallstudien und Modellierung eine Vielzahl von Ergebnissen gesammelt.
Auf der Grundlage dieser Studien hat das Team ein kognitives Klassifikationssystem entwickelt, um die Kernfähigkeiten zu beschreiben, die für die Realisierung von AGI erforderlich sind.
Schauen wir uns zunächst die 8 Grundfähigkeiten an.
1. Wahrnehmung (Perception)
Extraktion und Verarbeitung von sensorischen Informationen aus der Umwelt. Dies umfasst visuelle Wahrnehmung (von einfacher Kantendetektion bis hin zu komplexem Szenenverständnis), auditorische Wahrnehmung (von Tonhöhenunterscheidung bis hin zu Sprachverständnis) sowie die einzigartige Textwahrnehmung von AI.
LLM verarbeiten Texte direkt durch Tokenisierung, was im Wesentlichen eine einzigartige Wahrnehmungsmodalität ist, die Menschen nicht besitzen. Diese "Superfähigkeit" umgeht die visuelle Wahrnehmung und gelangt direkt zur Sprache.
2. Generierung (Generation)
Erzeugung von Texten, Sprache, Bewegungen (Robotersteuerung, Computerbedienung) und anderen Ausgaben.
Besonders interessant ist die "Denkgenerierung", d. h. die Erzeugung von internen Gedanken zur Entscheidungsfindung.
DeepMind verknüpft diesen Aspekt mit der o1-Art des logischen Denkens von OpenAI und weist darauf hin, dass die Evaluierung möglicherweise äußerst schwierig ist, da das Denken im Wesentlichen "intern" ist.
3. Aufmerksamkeit (Attention)
Bei Informationsüberlastung muss man die kognitiven Ressourcen auf die Schlüsselgegenstände konzentrieren.
Hier besteht ein feiner Gleichgewichtspunkt: Man muss sich auf das aktuelle Ziel konzentrieren und nicht von Störungen abgelenkt werden, aber auch auf unerwartete Veränderungen in der Umwelt achten. Zu viel Konzentration kann gefährliche Signale übersehen, zu wenig Konzentration führt zu keiner erfolgreichen Arbeit.
4. Lernen (Learning)
Erwerb von neuen Kenntnissen und Fähigkeiten durch Erfahrungen.
Dies umfasst sechs Kategorien: Konzeptbildung, assoziatives Lernen, verstärkendes Lernen, Beobachtungslernen, prozedurales Lernen und Sprachenlernen.
Das Wichtigste ist, dass eine echte AGI in der Lage sein sollte, nach der Implementierung kontinuierlich zu lernen und neue Kenntnisse zu behalten, und nicht nur während der Trainingsphase oder in einem begrenzten Kontextfenster "letzte Minute lernen".
5. Gedächtnis (Memory)
Fähigkeit zur Speicherung und Wiedergewinnung von Informationen.
Dies umfasst semantisches Gedächtnis (Weltwissen), episodisches Gedächtnis (spezifische Ereignisse), prozedurales Gedächtnis (Fähigkeiten), prospektives Gedächtnis (Erinnerung an zukünftige Aufgaben) sowie eine oft übersehene Fähigkeit – Vergessen.
Ja, die Fähigkeit, veraltete oder falsche Informationen aktiv zu löschen, ist auch ein wichtiger Bestandteil der Intelligenz.
6. logisches Denken (Reasoning)
Herleitung von gültigen Schlussfolgerungen durch logische Prinzipien.
Dies umfasst fünf Arten: deduktives, induktives, abduktives, analoges und mathematisches Denken.
Es ist zu beachten, dass automatisches Mustererkennung nicht als logisches Denken gilt.
7. Metakognition (Metacognition)
Dies ist möglicherweise der Aspekt, der die größte Differenz zwischen den 10 Fähigkeiten ausmacht.
Das System muss in der Lage sein:
- Zu wissen, was es weiß und was es nicht weiß (Metakognitionwissen);
- Seinen kognitiven Zustand in Echtzeit zu überwachen, z. B. ob die Zuverlässigkeit der Antworten korrekt ist (Metakognitionüberwachung);
- Und die Strategie gemäß dem Überwachungsergebnis anzupassen, z. B. die Methode aktiv zu wechseln, wenn es feststellt, dass es Fehler macht (Metakognitionkontrolle).
Einfacher ausgedrückt: Was bringt eine AI, die nicht weiß, dass sie Unsinn redet?
8. Exekutivfunktionen (Executive Functions)
Eine Gruppe von höheren Fähigkeiten, die zielgerichtetes Verhalten unterstützen.
Dies umfasst Zielsetzung, Planung, Inhibierungskontrolle (Widerstand gegen gewohnheitsmäßige Reaktionen und Auswahl einer passenderen Aktion), kognitive Flexibilität (Wechsel zwischen verschiedenen Denkweisen), Konfliktlösung sowie Arbeitsgedächtnis.
Neben diesen 8 "Grundbausteinen" definiert das Framework auch 2 "Komplexfähigkeiten":
9. Problemlösung (Problem Solving)
Umfassende Nutzung von Fähigkeiten wie Wahrnehmung, logisches Denken, Planung und Lernen zur Lösung konkreter Probleme.
Dies wird unterteilt in flüssiges Denken, Lösung mathematischer Probleme, Lösung algorithmischer Probleme, Lösung alltäglicher Probleme (einschließlich zeitlichem, räumlichem, kausalem Denken und intuitiver Physik) und Wissensentdeckung.
10. Soziale Kognition (Social Cognition)
Fähigkeit zur Verarbeitung und Interpretation sozialer Informationen sowie zur angemessenen Reaktion in sozialen Situationen.
Dies umfasst soziale Wahrnehmung, Theorie des Geistes (Schlussfolgerung von Überzeugungen und Absichten anderer) sowie soziale Fähigkeiten wie Zusammenarbeit, Verhandlung, Überredung und sogar Täuschung.
Es ist zu beachten, dass Überredung und Täuschung in bestimmten Kontexten auch gefährliche Fähigkeiten darstellen können.
Insgesamt geht es nach der zentralen Annahme von DeepMind darum, dass ein System, das in einer dieser 10 Dimensionen deutliche Schwächen aufweist, die meisten realen Aufgaben, die Menschen bewältigen können, nicht bewältigen kann.
Somit ist es keine echte "allgemeine" Intelligenz.
Drei Schritte zur Bestimmung der echten Stärke von AI
Mit der Taxonomie stellt sich die Frage, wie man die Evaluierung durchführt.
Google hat hierfür ein dreistufiges Evaluierungsprotokoll vorgeschlagen.
Schritt 1: Kognitive Bewertung.
Lassen Sie die AI Aufgaben erfüllen, die alle 10 kognitiven Fähigkeiten abdecken.
Die Aufgaben müssen bestimmten Anforderungen entsprechen:
- Sie müssen auf eine bestimmte kognitive Fähigkeit abzielen (keine Mischung verschiedener Fähigkeiten in einer Aufgabe);
- Sie müssen aus einem geheimen Aufgabenpool stammen und von einer unabhängigen Drittpartei geprüft werden;
- Die Schwierigkeit muss abgestuft sein (sowohl Aufgaben, die für Menschen einfach, aber für AI schwierig sind, als auch Aufgaben, die die menschlichen Grenzen herausfordern);
- Das Format muss vielfältig sein (Multiple-Choice-Fragen, offene Fragen, multimodale und mehrstufige Aufgaben).
Schritt 2: Sammlung von menschlichen Basisdaten.
Lassen Sie eine große Anzahl von Menschen unter denselben Bedingungen dieselben Aufgaben lösen.
Dies umfasst dieselben Anweisungen, dasselbe Antwortformat und denselben Zugang zu Werkzeugen.
DeepMind empfiehlt, dass die Stichprobe "demografisch repräsentative Erwachsene mit mindestens einer Hochschulreife" sein sollte.
Schritt 3: Erstellung eines kognitiven Profils.
Setzen Sie die Leistung der AI in die Verteilung der menschlichen Leistung ein – berechnen Sie, wie viel Prozent der menschlichen Probanden das System übertrifft, und