Das KI-Arena ist letztendlich nur ein Geschäft.
„XX hat das stärkste Open-Source-Großmodell veröffentlicht und hat in mehreren Benchmarks die proprietären Modelle wie XX umfassend übertroffen!“
„Das Open-Source-Modell XX mit Billionen von Parametern hat sich kraftvoll an die Spitze der globalen Open-Source-Modelle geschafft!“
„Das Ruhmblatt des chinesischen Herstellers! Das XX-Modell hat in der chinesischen Bewertungsliste den ersten Platz errungen!“
Mit dem Aufkommen der Ära der Künstlichen Intelligenz wird auch Ihre Freundesliste auf sozialen Plattformen wie Moments oder Sina Weibo häufig von solchen Nachrichten überschwemmt, oder?
Heute gewinnt dieses Modell den ersten Platz, morgen wird jenes Modell zum Sieger. Im Kommentarbereich sind einige Menschen aufgeregt, während andere ratlos da stehen.
Eine Reihe von realen Problemen stellt sich vor uns:
Worauf beziehen sich diese Modelle, wenn sie von „Spitze“ sprechen? Wer bewertet sie, und worauf gründet sich die Bewertung? Warum unterscheiden sich die Platzierungen in den Listen auf verschiedenen Plattformen, und wer ist eigentlich autoritativer?
Wenn Sie ähnliche Fragen haben, bedeutet das, dass Sie von der bloßen Beobachtung der Oberfläche zur Analyse der Tiefe übergegangen sind.
In diesem Artikel werden wir die „Spielregeln“ verschiedener Arten von „Künstliche-Intelligenz-Arenen“ – also die Ranglisten der Großsprachenmodelle – aufschlüsseln.
01 Typ 1: Objektive Benchmarks, die „Maturitätsprüfung“ für KI
In der menschlichen Gesellschaft ist die Maturitätsprüfungsergebnis der wichtigste Kriterium für die Einstufung der Universität eines Schülers.
Ähnlich gibt es auch in der KI-Branche viele hochgradig standardisierte Testaufgaben, um möglichst objektiv die Leistung eines KI-Modells in bestimmten Fähigkeiten zu messen.
Daher ist in dieser Zeit, in der neue Großmodelle ständig auf den Markt kommen, die erste Aufgabe der Hersteller, nachdem sie ein neues Modell entwickelt haben, es an die „Maturitätsprüfung“ zu schicken, um zu sehen, was es drauf hat.
Die Plattform Artificial Analysis hat einen umfassenden Bewertungsstandard namens Artificial Analysis Intelligence Index (AAII) vorgeschlagen, der die Ergebnisse von sieben äußerst schwierigen und auf führende Fähigkeiten fokussierten Einzelbewertungen zusammenfasst.
Ähnlich wie ein Aktienkursindex kann der AAII einen Gesamtwert für die Intelligenz einer KI liefern, insbesondere für Aufgaben, die tiefe logische Schlussfolgerungen, Fachwissen und Fähigkeiten zur Lösung komplexer Probleme erfordern.
Diese sieben Bewertungen decken drei Bereiche ab, die allgemein als Kern der höheren Intelligenz angesehen werden: Wissensschlussfolgerungen, Mathematik und Programmierung.
(1) Bereich Wissen und Schlussfolgerungen
MMLU-Pro:
Volle Bezeichnung: Massive Multitask Language Understanding - Professional Level
Eine verbesserte Version des MMLU. Das MMLU umfasst Wissensfragen in 57 Fachgebieten. Das MMLU-Pro erhöht auf dieser Grundlage die Schwierigkeit durch komplexere Fragestellungen und Schlussfolgerungsanforderungen, um die Wissensbreite und die Fähigkeit zur tiefen logischen Schlussfolgerung des Modells in Fachgebieten zu testen.
GPQA Diamond:
Volle Bezeichnung: Graduate - Level Google - Proof Q&A - Diamond Set
Dieser Test umfasst Fachfragen aus den Bereichen Biologie, Physik und Chemie. Entsprechend seinem Namen ist seine Absicht sehr klar: Selbst Doktoranden in diesen Bereichen haben Schwierigkeiten, in kurzer Zeit die Antworten zu finden, auch wenn sie die Google-Suche nutzen dürfen. Das Diamond-Set ist die Schwierigkeitsstufe mit der höchsten Schwierigkeit, die von der KI eine starke Fähigkeit zur logischen Schlussfolgerung und zur Zerlegung von Problemen erfordert, nicht einfach die Suche nach Informationen.
Humanity’s Last Exam:
Eine von Scale AI und Center for AI Safety (CAIS) gemeinsam veröffentlichte Benchmark mit extrem hoher Schwierigkeit, die mehrere Bereiche wie Wissenschaft, Technologie, Ingenieurwesen, Mathematik und sogar Kunst und Geisteswissenschaften abdeckt. Die meisten Aufgaben sind offene Fragen, die von der KI nicht nur komplexe Schlussfolgerungen in mehreren Schritten erfordern, sondern auch eine gewisse Kreativität. Dieser Test kann effektiv beurteilen, ob die KI die Fähigkeit zur Lösung von interdisziplinären Problemen besitzt.
(2) Bereich Programmierung
LiveCodeBench:
Dies ist ein auf die Realität zugeschnittener Test der Programmierfähigkeit. Im Gegensatz zu herkömmlichen Programmiertests, die nur auf die Korrektheit des Codes achten, wird die KI in eine „Echtzeit“-Programmierumgebung gebracht und muss anhand einer Problembeschreibung und einer Reihe von öffentlichen Testfällen Code schreiben. Der Code wird dann mit einer Reihe von komplexeren verborgenen Testfällen ausgeführt und bewertet. Dieser Test prüft hauptsächlich, ob die KI-Programmierung eine hohe Robustheit und die Fähigkeit zur Behandlung von Randbedingungen besitzt.
SciCode:
Dieser Programmiertest ist eher akademisch ausgerichtet und konzentriert sich auf wissenschaftliche Berechnungen und Programmierung. Die KI muss komplexe wissenschaftliche Probleme verstehen und entsprechende Algorithmen oder Simulationen in Code umsetzen. Neben der Programmierfertigkeit erfordert es auch ein gewisses Maß an tiefem Verständnis der wissenschaftlichen Prinzipien.
(3) Bereich Mathematik
AIME:
Volle Bezeichnung: American Invitational Mathematics Examination
Ein Teil des amerikanischen Mathematikwettbewerbsystems für Highschool-Studenten. Die Schwierigkeit liegt zwischen der AMC (American Mathematics Competition) und der USAMO (United States of America Mathematical Olympiad). Die Aufgaben sind von hoher Herausforderung und erfordern von der KI kreative Lösungsansätze und mathematisches Grundwissen. Sie kann die Fähigkeit zur logischen Schlussfolgerung der KI im Bereich der fortgeschrittenen Mathematik messen.
MATH-500:
Ein Test, der aus 500 zufällig ausgewählten Aufgaben aus dem großen mathematischen Problemdatensatz „MATH“ besteht. Er deckt verschiedene mathematische Aufgaben von der Mittelstufe bis zur Wettbewerbsniveau der Highschool ab, einschließlich Algebra, Geometrie und Zahlentheorie. Die Aufgaben werden in LaTeX-Format präsentiert. Das Modell muss nicht nur die Antwort geben, sondern auch ausführliche Lösungswege aufzeigen. Es ist ein wichtiges Kriterium zur Bewertung der formellen mathematischen Schlussfolgerungs- und Problemlösungsfähigkeit der KI.
Abbildung: Die Intelligenz-Rangliste der KI-Modelle von Artificial Analysis
Allerdings verwenden die verschiedenen Plattformen aufgrund der unterschiedlichen Anwendungen der Modelle nicht die gleichen Bewertungsstandards.
Beispielsweise bewertet die Rangliste der Großsprachenmodelle von OpenCompass (Sinan) anhand seines eigenen proprietären Bewertungsdatensatzes (CompassBench). Wir können die genauen Testregeln nicht kennen, aber das Team stellt der Gemeinschaft einen öffentlichen Validierungsdatensatz zur Verfügung und aktualisiert die Testaufgaben alle drei Monate.
Abbildung: Die Rangliste der Großsprachenmodelle von OpenCompass
Zur gleichen Zeit wählt diese Website auch einige Bewertungsdatensätze von Partnern aus, bewertet die KI-Modelle in Bezug auf die Hauptanwendungsbereiche und veröffentlicht die Testlisten:
Auch HuggingFace hat eine ähnliche Rangliste für Open-Source-Großsprachenmodelle. Die Bewertungsstandards umfassen die zuvor erwähnten MATH-, GPQA- und MMLU-Pro-Tests:
Abbildung: Die Rangliste der Open-Source-Großsprachenmodelle auf HuggingFace
In dieser Rangliste werden auch einige zusätzliche Bewertungsstandards eingeführt und erklärt:
IFEval:
Volle Bezeichnung: Instruction-Following Evaluation
Dieser Test dient zur Bewertung der Fähigkeit eines Großsprachenmodells, Anweisungen zu befolgen, wobei der Schwerpunkt auf der Formatierung liegt. Dieser Test erfordert nicht nur, dass das Modell die richtige Antwort gibt, sondern auch, dass es die Antwort strikt in dem von dem Benutzer angegebenen Format ausgibt.
BBH:
Volle Bezeichnung: Big Bench Hard
Ein Teil der schwierigeren Aufgaben aus dem Big Bench-Benchmark, der eine Sammlung von hochschwierigen Problemen speziell für Großsprachenmodelle bildet. Als ein „Komplettpaket“ enthält es verschiedene Arten von schwierigen Aufgaben, wie z. B. Sprachverständnis, mathematische Schlussfolgerungen, Allgemeinwissen und Weltwissen. Allerdings gibt es nur Multiple-Choice-Fragen in diesem Test, und die Bewertung erfolgt anhand der Genauigkeit.
MuSR:
Volle Bezeichnung: Multistep Soft Reasoning
Dieser Test dient zur Bewertung der Fähigkeit eines KI-Modells, komplexe, mehrstufige Schlussfolgerungen in langen Texten zu ziehen. Der Testprozess ähnelt der menschlichen „Textverständnis“. Nach dem Lesen eines Artikels muss die KI die verstreuten Hinweise und Informationen an verschiedenen Stellen zusammenführen, um zu einem Schluss zu kommen, d. h. „Mehrstufigkeit“ und „weiche Schlussfolgerung“. Auch dieser Test verwendet Multiple-Choice-Fragen, und die Bewertung erfolgt anhand der Genauigkeit.
CO2 Kosten:
Dies ist der interessanteste Indikator, da die CO2-Emissionen auf den meisten Ranglisten von Large Language Models (LLMs) nicht angegeben werden. Er repräsentiert nur die Umweltfreundlichkeit und Energieeffizienz des Modells, aber nicht seine Intelligenz und Leistung.
Ähnlich kann man auch auf HuggingFace bei der Suche nach LLM Leaderboard Ranglisten in mehreren Bereichen finden.
Abbildung: Andere Ranglisten von Großsprachenmodellen auf HuggingFace
Man kann sehen, dass die Verwendung von objektiven Benchmarks als „Maturitätsprüfung“ für die KI klare Vorteile hat: Objektivität, Effizienz und Reproduzierbarkeit.
Zugleich kann man schnell die „harte Stärke“ eines Modells in einem bestimmten Bereich oder einer bestimmten Aspekt messen.
Aber mit der „Maturitätsprüfung“ kommen auch die inhärenten Nachteile des Prüfungsunterrichts.
Ein Modell kann durch Datenkontamination in den Tests beeinflusst werden, was zu einem überhöhten Ergebnis führt, aber in der praktischen Anwendung ist es bei einfachen Fragen ratlos.
Nach alledem hat unser früherer Test von Großmodellen gezeigt, dass auch einfache Berechnungen finanzieller Indikatoren fehlerhaft sein können.
Zugleich ist es für objektive Benchmarks schwierig, die „weiche Stärke“ eines Modells zu messen.
Texterzeugungskreativität, Emotionalintelligenz und Humor in den Antworten, die Schönheit der Sprache – diese schwer zu quantifizierenden Bewertungsstandards, über die man normalerweise nicht besonders nachdenkt, bestimmen aber unsere Erfahrung bei der Verwendung des Modells.
Wenn ein Modell also weitläufig darüber berichtet, dass es in einem bestimmten Benchmark die Spitze erreicht hat, wird es zum „Besten in einer einzelnen Disziplin“. Das ist schon eine bemerkenswerte Leistung, aber es ist noch weit entfernt von einem „Allrund-Könner“.
02 Typ 2: Die Arena der menschlichen Präferenzen, das anonyme Talentkonkurrenz
Wie bereits erwähnt, konzentrieren sich objektive Benchmarks stärker auf die „harte Stärke“ eines Modells, aber sie können die praktischste Frage nicht beantworten:
Spürt man beim Gebrauch eines Modells tatsächlich „Wohlbefinden“?
Ein Modell kann in einem MMLU-Test alles über Astronomie und Geografie wissen, aber bei einer einfachen Textbearbeitungsaufgabe ratlos sein.
Ein Modell kann in einem MATH-Test algebraische und geometrische Probleme in Sekundenschnelle lösen, aber die Humor und Ironie in den Worten des Benutzers nicht verstehen.
Angesichts dieser Schwierigkeiten hat das Team von LMSys.org, das aus Forschern von Universitäten wie der University of California, Berkeley besteht, eine Idee entwickelt:
„Da die Modelle schließlich für Menschen entwickelt sind, warum lassen wir sie nicht direkt von Menschen beurteilen?“
Diesmal liegt das Urteil nicht mehr in den Händen von Testblättern und Aufgabenbänken, sondern in denen der Benutzer.
Die LMSys Chatbot Arena ist eine große Crowdsourcing-Plattform, die Großsprachenmodelle über „blinde Tests“ in Duellen bewertet und klassifiziert.
Beim Duell treten zwei Modelle gleichzeitig auf und beantworten die gleiche Frage. Der Benutzer entscheidet, welches Modell gewinnt.
Der Benutzer weiß vor der Abstimmung nicht, welche „Identitäten“ die beiden „Teilnehmer“ haben, was Vorurteile effektiv eliminiert.
Für normale Benutzer ist die Verwendung der LMArena sehr einfach:
Nach der Anmeldung auf https://lmarena.ai/ stellt der