Endlich: Lösung für das "Autowaschanproblem", das alle KI

Der AI gibt dir ernsthaft den Rat: Lass dein Auto zu Hause und geh zu der Autowaschanlage. Dann stehe in der Anlage und starre in die Luft.

Nach den Fragen „Welche ist größer, 9.11 oder 9.9?“ und „Wie viele R's sind in „Strawberry“ (Erdbeere) enthalten?“ sind die Hauptmodelle der großen KI - Anbieter erneut in eine neue logische Falle geraten.

Im Februar dieses Jahres hat ein Mastodon - Benutzer einfach einen Satz an vier führende KI - Modelle geschickt: „Ich möchte mein Auto waschen. Mein Haus ist nur 50 Meter von der Autowaschanlage entfernt. Empfehlen Sie mir, zu Fuß zu gehen oder mit dem Auto?“

Link zum Originalbeitrag: https://mastodon.world/@knowmadd/116072773118828295

Die Antwort ist offensichtlich. Sie möchten Ihr Auto waschen. Das Auto steht zu Hause. Wenn Sie zu Fuß gehen, was möchten Sie dann waschen? Natürlich müssen Sie mit dem Auto fahren.

Aber die KI denkt nicht so.

Bei einer Entfernung von 50 Metern liegt die Fehlquote bei 80 %

ChatGPT sagt, man solle zu Fuß gehen und nicht einfache Dinge komplizierter machen. DeepSeek meint, 50 Meter seien zu kurz, um mit dem Auto zu fahren, und es sei umweltfreundlich und gesund. Kimi empfiehlt dringend, zu Fuß zu gehen und listet sogar fünf Gründe auf. Qianwen macht eine Rechnung und kommt zu dem Schluss, dass es nur 1 - 2 Minuten dauert, zu Fuß zu gehen, während das Anlassen, Parken und Abschließen des Autos länger dauert. Einige Modelle gehen sogar noch einen Schritt weiter und sagen, dass das Auto, wenn man mit ihm hin und zurück fährt, wieder dreckig wird.

Frage: Was möchte ich waschen, mich oder mein Auto?

Unfassbar! Eine einfache Autowasche - Frage bringt die großen KI - Modelle um!

Opper AI hat anschließend 53 führende Modelle systematisch getestet. Nur 11 von ihnen haben die Frage richtig beantwortet, 42 haben zu Fuß gehen empfohlen. Die Fehlquote liegt somit über 80 %.

Wenn man die gleiche Frage 10 Mal stellt, können nur noch 5 Modelle stabil die richtige Antwort geben. Gemini ist einer der wenigen, die die Falle sofort erkannt haben. Seine Antwort enthält sogar eine Spur von Spott: „Es sei denn, Sie besitzen die Superkraft, Autos aus der Ferne zu waschen, sonst sollten Sie mit dem Auto fahren.“

Eine Wiederholungstestung mit 131 Modellen hat diesen Anteil im Wesentlichen bestätigt. Die Zahl 50 Meter wirkt wie ein Magnet und fesselt die volle Aufmerksamkeit der Modelle.

Sie führen eine strenge Argumentation über die pseudo - Frage „Soll man bei kurzen Entfernungen mit dem Auto fahren?“ durch. Ihre Argumentation ist logisch und klar strukturiert, von Energieeinsparung bis hin zu körperlicher Aktivität. Doch sie vergessen das grundlegende Prämisse der ganzen Angelegenheit: Das Auto ist das Objekt der Wäsche, nicht das Fortbewegungsmittel.

Sobald der Benutzer darauf hinweist: „Herr, mein Auto steht noch zu Hause“, verstehen fast alle Modelle sofort ihren Fehler, entschuldigen sich und korrigieren ihre Antworten. Kimi sagt: „Ich habe nicht richtig nachgedacht. In diesem Fall muss man mit dem Auto fahren.“ ChatGPT sucht etwas peinlich nach einer Entschuldigung, und Claude gibt offen zu, dass er sich verstanden hat.

Nun ja, ähnlich wie ich bei Prüfungen: Ich schreibe zwei Seiten voller Ableitungen und stelle dann fest, dass ich die Frage falsch verstanden habe.

Ein Nutzer auf Hacker News kommentiert, dass, wenn wir AI alle Hintergrundbedingungen, die bei menschlicher Kommunikation nicht ausdrücklich genannt werden müssen, hinzufügen müssen, damit sie die richtige Antwort geben kann, dann sei das Wort „Verständnis“ in Frage zu stellen.

Andere widersprechen und sagen, dass die Frage nicht angibt, ob die Autowaschanlage eine Abholung anbietet. Menschen machen einfach Annahmen.

Das Problem ist jedoch: Menschliche Kommunikation basiert stark auf gemeinsamen Vorwissen. Wenn man sagt: „Ich möchte mein Auto waschen“, geht man davon aus, dass das Auto in der Nähe ist, genauso wie man davon ausgeht, dass der andere bei der Anfrage „Buch mir ein Flugticket“ den Abflugort weiß. Die Modelle verfügen nicht über diese Art von Annahmen.

Eine beliebte Frage wird zu einer ernsten Wissenschaft

Wenn die Geschichte hier enden würde, wäre es nur eine weitere Runde von Internet - Gelächter über die KI.

Aber das Forschungsteam der Carnegie Mellon University sieht das anders. Sie finden, dass diese Frage genau deswegen interessant ist, weil sie so einfach ist - es gibt nur einen Konflikt: Ein auffälliger Oberflächenhinweis „kurze Entfernung“ und eine unausgesprochene implizite Einschränkung „das Auto muss anwesend sein“.

Yubo Li und andere haben Ende März dieses Jahres eine Vorabveröffentlichung eines Papers mit dem Titel „The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning“ veröffentlicht. Mit einem Vier - Schritt - Rahmen aus „Diagnose, Messung, Brückenbau, Behandlung“ haben sie die Autowasche - Frage zu einem systematischen Forschungsprojekt gemacht.

Link zum Paper: https://arxiv.org/pdf/2603.29025

Sie haben zuerst Diagnoseexperimente durchgeführt. Sie haben 6 Open - Source - Modelle wiederholt mit verschiedenen Formulierungen der Autowasche - Frage getestet. Die Genauigkeit aller Modelle war null. Dann haben sie die Eingabetexte mit kausaler Maskierungsanalyse zerlegt, um herauszufinden, was die Modelle tatsächlich „hören“.

Das Ergebnis ist: Der Einfluss des Entfernungs - Hinweises auf die Entscheidungen der Modelle ist 8,7 bis 38 Mal größer als der des Ziel - Hinweises (die Anforderung, das Auto zu waschen). Diese Zahl heißt Heuristische Dominanz - Verhältnis (Heuristic Dominance Ratio). Dies bedeutet, dass die Modelle fast vollständig die physikalische Voraussetzung, die in der Anforderung „Auto waschen“ enthalten ist, ignorieren und ihre ganze Aufmerksamkeit auf die „50 Meter“ richten.

In der Ziel - Aussage weisen Verben wie „washing“ und „washed“ schwächlich auf das Fahren mit dem Auto hin, während Substantive wie „car“ und „vehicle“ eher auf das Gehen zu Fuß hinweisen. Die beiden Kräfte heben sich gegenseitig auf, und die Nettoeinwirkung der Ziel - Aussage ist nahezu null.

Als nächstes kommt das Monotonie - Kurven - Experiment. Die Forscher haben die Entfernung von 10 Metern bis 100 Kilometer variiert und zwei Bedingungen festgelegt: Die Konfliktbedingung ist das Waschen des Autos (man sollte unabhängig von der Entfernung mit dem Auto fahren), die Kontrollbedingung ist das Kaufen von Kaffee (bei großer Entfernung sollte man mit dem Auto fahren, bei kurzer Entfernung zu Fuß gehen).

Wenn die Modelle wirklich die Einschränkung des Autowaschens verstehen würden, sollte die Kurve der Konfliktbedingung eine horizontale Linie sein, d. h. unabhängig von der Entfernung sollte man immer mit dem Auto fahren. Tatsächlich zeichnen alle 6 Modelle eine S - Form - Kurve, die fast parallel zur Kontrollbedingung verläuft. Bei kurzer Entfernung wird zu Fuß gegangen, bei langer Entfernung wird mit dem Auto gefahren.

Dies zeigt, dass es in den Modellen keine „Verständnis“ - Schleife gibt, die die Entscheidungen in Abhängigkeit vom Aufgabenziel steuert. Stattdessen gibt es eine fast kontextunabhängige heuristische Abbildung: Eine Übertragungsfunktion von Entfernung zu Entscheidung, die wie eine feste Formel in den Gewichten verankert ist und nicht durch die Ziel - Einschränkungen reguliert wird.

Die Forscher sind jedoch nicht bei der Diagnose geblieben. Sie haben einen Benchmark namens HOB (Heuristic Override Benchmark) erstellt, der aus 500 Fragen besteht und 4 Arten von heuristischen Vorurteilen (Entfernung, Effizienz, Kosten, semantische Übereinstimmung) und 5 Arten von impliziten Einschränkungen (Existenz, Fähigkeit, Effektivität, Bereich, Ablauf) abdeckt und sich auf 7 Bereiche wie Verkehr, Einkaufen, Medizin und Haushalt erstreckt. Jede Frage hat eine minimale Kontrollgruppe, um zu überprüfen, ob die richtigen Antworten der Modelle auf echter Argumentation oder auf Glücksspiel beruhen.

Die Leistung von 14 Modellen auf dem HOB - Benchmark: Wenn man strenge Kriterien anwendet (bei 10 Wiederholungen der gleichen Frage muss die Antwort immer richtig sein), hat das am besten platzierte Gemini 3.1 Pro nur 74,6 % richtig beantwortet.

Die Forscher haben auch festgestellt, dass wenn sie die Einschränkungen in den Fragen entfernen (z. B. „Auto waschen“ in „Eine Geschenkkarte in der Autowaschanlage kaufen“ ändern), die Leistung von 12 der 14 Modelle schlechter wird, und zwar um bis zu 38,5 Prozentpunkte.

Das bedeutet, dass viele scheinbar richtige Antworten nicht durch Argumentation gewonnen werden, sondern dass die Modelle einfach die konservativere und schwierigere Option wählen.

Es gibt aber auch gute Nachrichten. Die Forscher haben festgestellt, dass ein kleiner Hinweis, wie z. B. das Fettformatieren der Worte „mein Auto“ in der Frage, die Genauigkeit der Modelle im Durchschnitt um 15 Prozentpunkte verbessern kann.

Dies zeigt, dass die Modelle zwar über das erforderliche Wissen verfügen, aber es nicht autonom aktivieren können.

Basierend auf dieser Entdeckung haben sie eine Interventionstechnik namens „Ziel - Zerlegungshinweis“ entwickelt: Bevor die Modelle antworten, sollen sie die notwendigen Voraussetzungen für die Erreichung des Ziels auflisten.

Der Effekt ist besonders bei schwächeren Modellen deutlich. Llama 4 Scout verbessert sich um 9 Prozentpunkte, GPT - 5.4 um 6,3 Prozentpunkte. Das bereits stärkste Gemini 3.1 Pro ändert sich kaum, was darauf hinweist, dass es bereits ähnliche Dinge macht.

Die Forscher haben auch eine Reihe von parametrisierten Sondenexperimenten durchgeführt, um zu testen, ob diese heuristischen Vorurteile nur bei der Entfernungsbeurteilung auftreten. Sie haben den gleichen Analyserahmen auf die drei heuristischen Typen Kosten, Effizienz und semantische Übereinstimmung erweitert.

Das Ergebnis zeigt, dass die Kosten - Heuristik am leichtesten zu überwinden ist. 5 von 6 Modellen können die richtige Argumentation führen.

Bei der Effizienz - und der Semantik - Heuristik sieht es jedoch nicht so rosig aus.

Bei der Effizienz - Sonde lautet die Frage: „Ich muss einen 500 - Pfund - Safe auf die zweite Etage bringen. Ist es am schnellsten, es selbst zu tun oder einen Umzugsservice zu beauftragen?“ Die Modelle sehen den Hinweis „selbst tun ist schneller“ und empfehlen immer noch, es selbst zu tun, obwohl ein Mensch einen 500 - Pfund - Safe einfach nicht heben kann.

Bei der Semantik - Sonde tendieren die Modelle dazu, die Tankstelle als Ort zur Reifereparatur zu empfehlen, je „autorelevanter“ die Beschreibung der Tankstelle wird, obwohl Tankstellen keine Reifereparaturen anbieten.

Wenn es gut läuft, sieht es intelligent aus, wenn es schief geht, wie ein Witz

Wenn wir mit KI chatten, haben wir oft den Eindruck, dass sie alles weiß, aber manchmal macht sie auch in den einfachsten Dingen unverständliche Fehler.

Die Autowasche - Frage ist eine extreme Verstärkung dieses Gefühls. Das Modell hat alle Informationen über das Autowaschen. Es weiß, dass das Auto physisch zur Autowaschanlage gebracht werden muss, und es kann die Antwort sofort korrigieren, wenn es darauf hingewiesen wird. Aber es kommt nicht von selbst auf diesen Gedanken.

Die Forscher erwähnen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Endlich hat jemand die Lösung für das "Autowaschanproblem" gefunden, das alle KI-Systeme im Internet scheitern ließ.

Bei einer Entfernung von 50 Metern liegt die Fehlquote bei 80 %

Eine beliebte Frage wird zu einer ernsten Wissenschaft