Die Apple AI-Publikation ist echt enttäuschend. Sie hat GT mithilfe von GPT geschrieben, was dazu geführt hat, dass Programmierer in Peking die Nacht über gearbeitet haben.
Seltsame Dinge gibt es jeden Tag, heute besonders viele –
Ein Forscher von StepStar, einem Unternehmen im Bereich von großen KI-Modellen, hat selbst angegeben, dass er von einer auf arXiv veröffentlichten Studie von Apple richtig in die Irre geführt wurde.
Als er das Problem melde, antwortete der andere nur kurz und schloss dann das Issue. Erst nachdem er einen öffentlichen Kommentar hinterließ, zog der Autor die Studie zurück und entfernte den Code.
Seien Sie geduldig. Lassen Sie uns zunächst die Geschichte zusammenfassen:
Zu Anfang dieses Monats wurde der StepStar-Forscher Lei Yang von einem Kollegen auf eine auf arXiv veröffentlichte Studie von Apple aufmerksam gemacht (die Studie wird auch für die ICLR 2026 eingereicht). Die in der Studie vorgeschlagene Benchmark passte genau zu Lei Yangs jüngsten Forschungen.
Er war überglücklich und stoppte sofort seine laufenden Arbeiten, um sich der Anpassung an diese Benchmark zu widmen.
Das Ergebnis war, dass diese visuelle Benchmark, die behauptet, dass kleine Modelle GPT-5 in jeder Hinsicht übertreffen und die Daten sorgfältig manuell kontrolliert wurden, tatsächlich absurde Fehler im offiziellen Code und eine GT (Ground Truth)-Fehlerrate von etwa 30 % aufwies.
Sind Sie bis hierhin schon fassungslos?
Entschuldigung, Freunde, das ist noch nicht das Schlimmste... Die folgenden Ereignisse lassen einem die Haare zu Berge stehen.
Das Maß an Absurdität dieser Farce stieg stetig an, bis Lei Yang schließlich „öffentlich die Studie kritisiert und zum Zurückziehen gebracht hat“.
Insgesamt schüttelten die Beobachter auf Reddit nur den Kopf:
Wir hatten schon revolutionäre Ergebnisse wie BatchNorm, ResNet, Dropout und Transformer. Aber im Zeitalter der großen Modelle scheint alles in einem Durcheinander zu sein.
Okay, lassen Sie uns gemeinsam genauer untersuchen, was genau in diesem fassungslosen Fall passiert ist.
Was? Die GT-Fehlerrate könnte bis zu 30 % betragen?
Die in dieser absurden Geschichte involvierte Studie heißt „Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection“.
Sie schlägt eine diagnostische Benchmark für auf Rätseln basierte visuelle Aufgaben vor.
Zufällig passte diese neue Benchmark gut zu Lei Yangs jüngsten Forschungsrichtungen.
Nachdem Lei Yang die Studie gelesen hatte, stoppte er seine anderen Arbeiten und begann mit der Anpassung.
Unerwartet genug waren die von dem Modell erzielten Punkte nach einer übernachteten Anpassung extrem niedrig, weit unter den Erwartungen.
„Ich war sehr frustriert.“ Lei Yang begann dann mit verschiedenen Prüfungen und Versuchen.
Ab diesem Zeitpunkt wurde etwas merkwürdig. Lei Yang entdeckte einen Fehler im offiziellen Code:
Beim Anfordern des VLM wurde nur die Zeichenkette des Bildpfads verwendet, nicht das Bild selbst.
Okay, wenn es einen Fehler gibt, beheben wir ihn einfach!
Verdammt nochmal, nach der Behebung dieses Fehlers waren die Punkte des Modells noch niedriger...
Dieses Ergebnis ließ Lei Yang perplex. In seinen auf verschiedenen Plattformen veröffentlichten Texten schrieb er: „Aufgrund der extrem absurden Ergebnisse musste ich weitere Prüfungen durchführen. Das Endergebnis war immer noch, dass die Punkte nach der Fehlerbehebung niedriger waren.“
Leider hatte Lei Yang keine andere Wahl, als die fehlerhaften Aufgaben einzeln zu analysieren, um herauszufinden, wie sein eigenes Modell die Aufgaben falsch gelöst hatte.
Er untersuchte die ersten 20 Aufgaben, die das StepStar-Modell falsch beantwortet hatte. Das Ergebnis war verblüffend:
Sechs von diesen Aufgaben gehörten eindeutig zu den GT-Fehlern.
Aus dem Stil der GT-Fehler lässt sich vermuten, dass es sich wahrscheinlich um automatisch generierte GT durch das Modell handelt, und die Qualitätsprüfung war stark unzureichend, was dazu führte, dass die GT viele Halluzinationen enthielt.
Dies bedeutet, dass es große Probleme mit dem Inhalt gibt, der in die Studie geschrieben und von den Autoren sorgfältig ausgewählt wurde, um zu demonstrieren.
Er schätzte zunächst, dass die GT-Fehlerrate bis zu 30 % betragen könnte.
„Ich habe öffentlich die Studie kritisiert und zum Zurückziehen gebracht“
Daher entschied sich Lei Yang, die Autoren auf GitHub über die Fehler zu informieren.
Sechs Tage später antworteten die Autoren der Studie kurz und schlossen dann direkt das Issue.
Lei Yang war so wütend, dass er eine Gegenreaktion formulierte.
Allerdings hatte diese absurde Geschichte kein Ende an Absurdität –
Nach der Veröffentlichung der ICLR-Bewertungen sah Lei Yang, dass keiner der fünf Gutachter in den Reviews das Problem mit der GT-Qualität bemerkte, und auch niemand bemerkte die Halluzinationen und Fehler in den Beispielen der Studie.
(Hier ist der Direktlink zu Openreview: https://openreview.net/forum?id=pS9jc2zxQz)
Wütend darüber schrieb er einen ausführlichen öffentlichen Kommentar.
Der Inhalt war in etwa eine Auflistung von Beispielen für GT-Probleme, um die ICLR-Gutachter und die Community darauf aufmerksam zu machen, dass die Qualität dieses Datensatzes bedenklich ist und die Forschungsrichtung leicht in die Irre führen kann.
Am Ende dieses Kommentars schrieb Lei Yang:
Ich hinterlasse diesen Kommentar, um anderen Forschern zu helfen, die gleichen Fehler wie ich zu vermeiden – die Euphorie beim ersten Sehen der Fehlererkennungsaufgabe, die Enttäuschung nach dem Ausführen des Modells und die Frustration nach der Erforschung der zugrunde liegenden GT-Probleme – und so Zeit und Energie zu sparen.
Okay, es scheint, dass er seine Wut ausgelassen hat, aber tatsächlich hatte er keine andere Wahl. Gleichzeitig wollte er andere davor warnen, in die gleiche Falle zu tappen.
Viele Nutzer fanden Lei Yangs Verhalten großartig:
Schließlich kündigte der Autor der Studie am Tag nach der Veröffentlichung dieses öffentlichen Kommentars die Rücknahme der Studie an und löschte das Repository auf GitHub.
Öffentliche Antwort des ursprünglichen Autors der Studie
In den letzten Tagen hat Lei Yang seine schrecklichen Erfahrungen auf verschiedenen Plattformen geteilt, um mehr Forscher zu warnen, insbesondere nicht blind auf schöne Verpackungen zu vertrauen, auch wenn sie von großen Unternehmen stammen.
Heute Vormittag hat der Autor der Studie auf Xiaohongshu (ja, genau diese Plattform) geantwortet.
Er erklärte zunächst, dass er sich ausführlich mit Lei Yang unterhalten hat und dankte und respektierte alle, die den Fortschritt der akademischen Community vorantreiben.
Wir haben die Antwort des Autors der Studie zusammengefasst.
Zunächst bezüglich der Datenqualität gestand der Autor, dass die Prüfung unzureichend war.
Obwohl damals die Stichproben mit injizierten Fehlern (künstlich eingefügten Fehlern) manuell geprüft wurden, wurde der wichtigere Teil nicht gründlich überprüft.
Daher wurde nicht bemerkt, dass es bei der automatischen Umwandlung der GT-Lösungsansätze durch GPT in schrittweise CoT zu Halluzinationen kam, was zu Problemen mit den Step-Labels führte.
Dieser Teil gesteht im Wesentlichen das zentralste Problem in dieser absurden Geschichte zu, nämlich die stark unzureichende Qualitätsprüfung bei der automatischen Datenkonstruktion.
Zweitens sprach er über das Beispiel der Inferenz in der Studie.
Er erklärte, dass der Beispielcode für die Inferenz im Projekt ein Dummy-Beispiel war, kein offizieller Demonstrationscode.
In den Ausgabebeispielen von o3 ist zu erkennen, dass das Modell tatsächlich das Bild sah.
Dann sagte er, dass er nach Lei Yangs Hinweis den Dummy-Code geändert und Lei Yang geantwortet hat.
Schließlich entschuldigte er sich sehr dafür, dass er damals direkt das Issue geschlossen hatte.
„Damals habe ich das Issue wieder geöffnet und auf die neuen Fragen geantwortet. Im nächsten Mal werde ich es immer offen halten, bis alle Probleme gelöst sind.“
Das letzte Punkt der Antwort lautete wie folgt:
Unser Ziel, das auch der Zweck dieser Benchmark ist, ist es, verschiedene Forschungsrichtungen voranzutreiben. Bei der Datenerstellung gab es unzulässige Nachlässigkeiten, aber wir alle sind aus Interesse an dieser Richtung und nutzen unsere Freizeit für dieses Projekt. Wir haben auch viel Zeit und Energie darauf verwendet, um diese kleine Forschungsrichtung voranzutreiben. Wir werden die Erfahrungen aus diesem Fall sorgfältig analysieren und weiterkämpfen.
Referenzlinks:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764