Seit die Kaffeemaschine intelligent wurde, kann ich nicht einmal mehr Kaffee trinken!

Große Modelle haben die Sprachsteuerung fast zerstört.

Bisher hat noch niemand das Problem wirklich gelöst: Wie kann man Large Language Models (LLMs) beibringen, wann sie genau sein sollten und wann sie zufällig sein dürfen?

Das war ein richtig enttäuschender Morgen.

Eine Technologiejournalistin von The Verge stand auf, ging in die Küche und sagte zu der Alexa-fähigen Bosch-Kaffeemaschine: "Bereite mir eine Tasse Kaffee zu."

Ohne Improvisation und ohne komplizierte Anforderungen, sie wollte nur, dass die Maschine ein bereits voreingestelltes Programm ausführte. Aber sie wurde abgelehnt.

Und nicht nur einmal.

Seit der Aktualisierung auf Alexa Plus (Amazon's generatives Sprachassistenten-System) ist dieser Dialog fast zum täglichen Morgenritual geworden.

Jedes Mal, wenn sie die Maschine bittet, Kaffee zuzubereiten, gibt Alexa verschiedene Gründe, warum sie es nicht tun kann, mit einer erstaunlichen Kreativität, um "Nein" zu sagen.

Das Jahr 2025 neigt sich schon fast dem Ende zu. KI kann Essays schreiben, Codes entwickeln, mit Menschen plaudern und unterrichten, aber am Morgen scheitert sie an der Anfrage "Bereite mir eine Tasse Kaffee zu".

In den Community-Diskussionen sind die ähnlichen Klagen spektakulär. Die Leute plagen sich über die Probleme.

Das Problem mit dem Licht anzuschalten hat sich besonders stark bemerkbar gemacht.

Auch das Abspielen von Songs ist schwierig.

Es ist auch so schwierig, eine Uhrzeit einzustellen.

Es gibt auch Leute, die völlig enttäuscht sind.

Offensichtlich besteht ein deutlicher Kontrast zwischen der Realität und den intuitiven Erwartungen an KI.

Die traditionellen Sprachassistenten waren zwar dumm, aber sehr zuverlässig. Solange man den (etwas dummen) "Zauberwort" richtig sagte, war das Ergebnis vorhersehbar.

Nun, die generativen KI-Assistenten, die auf LLMs basieren, haben zwar höheres IQ, bessere Verständnis und reichhaltigere Ausdrucksweise, aber sie scheitern immer wieder an den Dingen, bei denen sie eigentlich am besten sein sollten:

Licht einschalten, Timer einstellen, Wetterbericht geben, Musik abspielen, Routinen ausführen.

Warum ist das so?

Weil LLMs von Natur aus eine große Menge an Zufälligkeit enthalten. Sie können mehr Bedeutungen verstehen und freiere Ausdrücke zulassen, aber der Preis dafür ist: Der Interpretationsraum wird enorm vergrößert, einschließlich der Möglichkeit von Missverständnissen.

Wenn Sie ChatGPT dieselbe Frage stellen, können Sie heute und morgen unterschiedliche Antworten erhalten. Das ist gerade sein Wert. Aber wenn diese Eigenschaft für die Steuerung einer Kaffeemaschine verwendet wird, gibt es Probleme.

In Steuerungsszenarien, die Sofortigkeit, Wiederholbarkeit und Null-Fehler-Toleranz erfordern, macht es keinen Sinn, über Wahrscheinlichkeiten zu sprechen. Das ist ein großer Fehler.

Im Vergleich dazu sind die traditionellen Sprachassistenten im Wesentlichen Template-Matcher. Sie verstehen nicht, sondern erkennen nur Schlüsselwörter und füllen dann Parameter ein.

Wenn Sie beispielsweise sagen: "Spiele Radio", weiß das System genau, dass danach nur der "Radiosender-Name" folgen kann.

Um die Schwächen der generativen Modelle in Bezug auf die Bestimmtheit zu kompensieren, haben Amazon und Google versucht, die LLMs eng mit den APIs für Smart Home-Geräte zu verbinden. Aber das hat neue Probleme eingeführt.

LLMs sind tatsächlich nicht gut darin, bei jeder Anfrage genau die gleichen und grammatikalisch korrekten Systemaufrufe zu generieren.

Und wenn sie aufgefordert werden, direkt API-Aufrufe zu generieren, um reale Geräte zu steuern - selbst eine winzige Abweichung kann dazu führen, dass der gesamte Vorgang fehlschlägt.

Das ist der Grund, warum Ihre Kaffeemaschine manchmal einfach nicht will, Ihnen Kaffee zuzubereiten.

Theoretisch ist es nicht unmöglich, dass der neue Assistent die Zuverlässigkeit des alten erreicht, aber das erfordert eine enorme Menge an Ingenieurarbeit, Einschränkungsdesign und Fehlersicherung.

In der Realität, in der die Ressourcen begrenzt sind und die Versuchung, "etwas Aufregenderes und Geld-verdienenderes zu tun", groß genug ist, ist der einfachste Weg, die Technologie in die reale Welt zu bringen und dann zu warten, dass sie sich langsam selbst korrigiert.

Mit anderen Worten, wir spielen alle eine Rolle: Die langfristigen Beta-Tester von KI.

Bisher hat noch niemand das Problem "Wie kann man LLMs beibringen, wann sie genau sein sollten und wann sie zufällig sein dürfen?" wirklich gelöst. Deshalb müssen wir uns vielleicht noch eine lange Zeit mit ihr herumschlagen und uns mit unserem Blutdruck anlegen.

Warum also sollten wir die alte Technologie so entschieden verlassen?

Zwei Wörter: Potenzial.

Die sogenannte Agentic AI gibt dem System die Fähigkeit, Servicekettenaufrufe auszuführen: Es kann die inneren Beziehungen zwischen komplexen Aufgaben verstehen und auf dieser Grundlage dynamisch Ausführungslogiken generieren.

Dies ist auch der grundlegende Grund, warum der alte Technologieansatz aufgegeben werden muss.

In der Vergangenheit waren die Sprachsysteme, die auf festen Regeln und Schlüsselwortübereinstimmungen basierten, auf der Architekturebene als "Einzelbefehlsausführende" beschränkt. Sie konnten das Ziel nicht verstehen, die Aufgabe nicht zerlegen und erst recht keine neuen Handlungspfade zur Laufzeit generieren.

Dies ist keine einfache technologische Aktualisierung, sondern ein Wechsel des Fähigkeitsparadigmas.

Zurück zur Community-Meinung: Obwohl die aktualisierten Sprachassistenten auch bei den einfachsten Befehlen Fehler machen, geben die Netizens zu, dass sie bei der Verständnis komplexer Befehle tatsächlich stärker geworden sind.

Wenn Sie beispielsweise sagen: "Verdunkle es hier ein wenig und erhöhe die Temperatur ein wenig." Kann es gleichzeitig das Licht und den Thermostaten einstellen.

Wenn Sie fragen: "Alexa, was machst du überhaupt? Warum schaltest du meine Musik nicht aus?!" Wird es tatsächlich nachschauen, was passiert ist.

In der Vergangenheit waren diese Dinge nicht vorstellbar.

Besonders zu loben ist die Änderung der Kamera-Benachrichtigungsfunktion.

Das traditionelle System hatte oft nur eine sehr allgemeine und nutzlose Meldung: "Bewegung im Hinterhof erkannt." Dann mussten Sie: Die App öffnen → das Video öffnen → es zurückspielen → und feststellen, dass es sich um eine Katze handelte.

Jetzt sagt das neue System direkt: "Ein unbekanntes Gesicht ist vor der Tür aufgetaucht, aber es ist nicht in den Hof gekommen."

Auch das Einrichten komplexer Routinen per Sprache ist tatsächlich einfacher als das Schichtenweise-Einrichten in der Alexa-App, auch wenn diese Routinen nicht immer so stabil funktionieren.

In vielen Nutzerdiskussionen hat sich allmählich ein relativ moderater Konsens gebildet: Das Problem liegt nicht darin, ob KI eingeführt wird, sondern darin, wo die "Grenzen" liegen und ob man versucht, KI alles ersetzen zu lassen.

Einige Nutzer sind der Meinung, dass der vernünftigere Weg nicht der "Knopflose" Ansatz ist - die bereits bewährten, deterministischen Ausführungsmechanismen zu ersetzen, sondern dass KI Menschen helfen sollte, das System zu verstehen.

Die momentane Verwirrung ist vielleicht nicht das Scheitern der generativen KI, sondern dass sie an eine Stelle gebracht wurde, die ihr nicht geeignet ist.

Heute noch ist diese klare Grenze weit davon entfernt, definiert zu werden, und man weiß auch nicht, wann das passieren wird.

Also

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Seit die Kaffeemaschine intelligent geworden ist, kann ich nicht einmal mehr Kaffee trinken.