Es ist 2025, und die KI kann immer noch keine Uhr lesen. 90 % der Menschen können die Frage richtig beantworten, während die Spitzen-KIs alle scheitern.
Die Genauigkeit durchschnittlicher Menschen liegt bei 89,1%, während die beste Leistung der KI nur 13,3% beträgt. Beim neuen visuellen Benchmark ClockBench haben die 11 großen Modelle mit der Aufgabe, analogen Uhren abzulesen - eine "Elementaraufgabe" - zu kämpfen. Warum kann die KI immer noch nicht richtig die Uhrzeit ablesen? Liegt es am Test oder ist die KI wirklich unzureichend?
Eine Uhrleseaufgabe, die 90% der Menschen beherrschen, hat die Spitzen-KIs komplett in die Knie gezwungen!
Der Schöpfer des KI-Benchmarks und mehrfache Unternehmer Alek Safar hat den visuellen Benchmark ClockBench eingeführt, der sich darauf konzentriert, die Fähigkeit von KI, analoge Uhren "zu verstehen", zu testen.
Das Ergebnis ist erstaunlich:
Die durchschnittliche Genauigkeit der Menschen liegt bei 89,1%, während die beste Leistung der 11 getesteten gängigen großen Modelle nur 13,3% beträgt.
Was die Schwierigkeit angeht, ist es mit dem "Ultimativen AGI-Test" ARC-AGI-2 vergleichbar und schwieriger als der "Ultimative menschliche Test".
ClockBench umfasst insgesamt 180 Uhren und 720 Fragen und zeigt die Grenzen der aktuellen fortschrittlichen großen Sprachmodelle (LLM) auf.
Link zur Studie: https://clockbench.ai/ClockBench.pdf
Obwohl diese Modelle auf mehreren Benchmarks erstaunliche Fähigkeiten in Bezug auf Inferenz, Mathematik und visuelle Verständnis gezeigt haben, konnten diese Fähigkeiten noch nicht effektiv auf das "Uhrlesen" übertragen werden. Mögliche Gründe:
Die Trainingsdaten decken nicht genügend einprägsame Uhrmerkmale und Zeitkombinationen ab. Das Modell muss daher durch Inferenz die Abbildung zwischen Zeigern, Skalen und Ablesewerten herstellen.
Die visuelle Struktur von Uhren lässt sich nicht vollständig in den Textraum abbilden, was die textbasierte Inferenz einschränkt.
Es gibt auch gute Nachrichten: Das beste Modell hat bereits eine gewisse visuelle Inferenzfähigkeit (wenn auch begrenzt) gezeigt. Seine Genauigkeit beim Zeitablesen und sein mittlerer Fehler sind deutlich besser als bei zufälligen Antworten.
Es bedarf weiterer Forschung, um zu entscheiden, ob diese Fähigkeiten durch die Erweiterung des bestehenden Paradigmas (Daten, Modellgröße, Rechen-/Inferenzbudget) erworben werden können oder ob es notwendig ist, eine völlig neue Methode zu verwenden.
Wie lässt sich die KI mit ClockBench auf die Probe stellen?
In den letzten Jahren haben die großen Sprachmodelle (LLM) in mehreren Bereichen bemerkenswerte Fortschritte erzielt. Die fortschrittlichen Modelle erreichten schnell die "Sättigung" auf vielen beliebten Benchmarks.
Selbst die neuesten Benchmarks, die speziell entworfen wurden, um sowohl "Fachwissen als auch starke Inferenzfähigkeiten" zu testen, wurden schnell überwunden.
Ein typisches Beispiel ist der "Letzte menschliche Test" (Humanity’s Last Exam):
OpenAI GPT-4o erreichte auf diesem Benchmark nur einen Score von 2,7%, während xAI Grok 4 auf 25,4% stieg;
Nach Optimierungen wie der Nutzung von Tools konnte der Score sogar in den Bereich von 40 - 50% gelangen.
Dennoch finden wir immer noch Aufgaben, die für Menschen einfach sind, aber bei denen die KI schlecht abschneidet.
Deshalb gibt es Benchmarks wie SimpleBench und ARC-AGI, die speziell so entworfen wurden, dass sie für Durchschnittliche einfach, für LLM aber schwierig sind.
ClockBench wurde von diesem Gedanken des "einfach für Menschen, schwierig für KI" inspiriert.
Das Forschungsteam gründete sich auf einer Schlüsselbeobachtung: Es ist für inferenzbasierte und nicht-inferenzbasierte Modelle gleichermaßen schwierig, analoge Uhren zu verstehen.
Deshalb hat ClockBench einen robusten Datensatz erstellt, der eine hohe visuelle Präzision und Inferenzfähigkeit erfordert.
Was genau umfasst ClockBench?
- 36 neu entworfene maßgeschneiderte Uhrenflächen, von denen jede 5 Beispieluhren generiert
- Insgesamt 180 Uhren, wobei jede Uhr 4 Fragen hat, was 720 Testfragen ergibt
- Es wurden 11 Modelle mit visuellem Verständnis aus 6 Labors getestet, und es wurden 5 menschliche Teilnehmer zur Vergleichszwecken rekrutiert
Die Fragen werden in 4 Kategorien unterteilt:
1. Überprüfung der Gültigkeit der Zeit
Es gibt eine Uhr 🕰️, und das große Modell muss entscheiden, ob die angezeigte Zeit gültig ist.
Falls die Zeit gültig ist, muss das große Modell sie in mehrere Teile zerlegen und in JSON-Format ausgeben:
Stunden (Hours), Minuten (Minutes), Sekunden (Seconds), Datum (Date), Monat (Month), Wochentag (Day of the week)
Sobald die Uhrfläche diese Informationen enthält, wird vom LLM erwartet, dass es diese ebenfalls ausgibt.
2. Addition und Subtraktion von Zeiten
Diese Aufgabe erfordert, dass das LLM die angegebene Zeit addiert oder subtrahiert, um eine neue Zeit zu erhalten.
3. Drehen der Uhrzeiger
Diese Aufgabe bezieht sich auf die Manipulation der Uhrzeiger. Das Modell muss den Stunden-, Minuten- oder Sekundenzeiger auswählen und ihn um einen bestimmten Winkel im Uhrzeigersinn oder gegen den Uhrzeigersinn drehen.
4. Zeitzonenumrechnung
Diese Aufgabe bezieht sich auf die Zeiten an verschiedenen Orten 🌍. Beispielsweise muss das Modell, wenn es die Sommerzeit in New York bekommt, die lokale Zeit an verschiedenen Orten berechnen.
Das Ergebnis ist überraschend
Was sind die überraschenden Entdeckungen im Ergebnis?
- Es gibt nicht nur einen großen Unterschied in der Genauigkeit zwischen Modellen und Menschen, sondern auch in den Fehlermustern:
- Der mittlere Fehler der Menschen beträgt nur 3 Minuten, während er beim besten Modell bis zu 1 Stunde beträgt.
Der Fehler schwächerer Modelle beträgt etwa 3 Stunden. Angesichts der zyklischen Eigenschaft von 12-Stunden-Uhrenflächen entspricht dies zufälligem Rauschen.
Eine weitere interessante Entdeckung ist, dass es deutliche Unterschiede in der Schwierigkeit der Lesung bestimmter Uhrmerkmale gibt:
- Die Modelle haben die schlechteste Leistung bei der Lesung von ungewöhnlichen, komplexen Uhren und bei hohen Genauigkeitsanforderungen.
- Die Lesung von römischen Ziffern und der Ausrichtung von kreisförmigen Ziffern ist am schwierigsten, gefolgt von der Lesung des Sekundenzeigers, von ungeordneten Hintergründen und Spiegeluhren.
Abgesehen vom Zeitablesen sind andere Aufgaben für die Modelle eher einfacher:
- Das beste Modell kann Fragen zur Zeitaddition/subtraktion, zur Drehung der Zeiger oder zur Zeitzonenumrechnung mit hoher Genauigkeit beantworten. In einigen Szenarien kann die Genauigkeit sogar 100% erreichen.
Bei dem Vergleich der Leistung verschiedener Modelle ist der allgemeine Trend: Größere inferenzbasierte Modelle sind im Allgemeinen besser als kleinere oder nicht-inferenzbasierte Modelle.
Es gibt jedoch einige bemerkenswerte Phänomene:
- Die Google Gemini 2.5-Serie führt in ihrer jeweiligen Kategorie oft vor anderen Modellen;
- Die Anthropic-Serie liegt im Allgemeinen hinter vergleichbaren Modellen zurück;
- Grok 4 hat eine viel schlechtere Leistung als erwartet, was nicht mit seiner Größe und seinen allgemeinen Fähigkeiten übereinstimmt.
GPT-5 liegt auf Platz drei, und das Inferenzbudget hat wenig Einfluss auf das Ergebnis (die Scores bei mittlerem und hohem Budget sind sehr ähnlich). Es ist denkenswert: Welche Faktoren beschränken die Leistung von GPT-5 bei solchen visuellen Inferenztasks?
Im ursprünglichen Datensatz sind 37 von 180 Uhren ungültige (nicht mögliche) Zeiten. Sowohl Menschen als auch Modelle haben eine höhere Erfolgsrate bei der Erkennung von "ungültigen Zeiten":
- Bei Menschen ist der Unterschied gering: Die Genauigkeit bei ungültigen Uhren beträgt 96,2%, bei gültigen Uhren 89,1%;
- Bei Modellen ist der Unterschied deutlich: Die Genauigkeit bei ungültigen Uhren ist durchschnittlich um 349% höher, und alle Modelle haben bei dieser Aufgabe eine bessere Leistung;
- Gemini 2.5 Pro ist immer noch das beste Modell insgesamt