Wird deine KI immer dümmer? Weil sie gelernt hat, sich den Menschen anzupassen.
Hat jemand das Gefühl, dass die KI-Systeme aller Firmen immer dümmer werden?
Es ist so: Vor ein paar Tagen habe ich mutig entschlossen, OpenAI für 200 Dollar ein Abonnement zu erwerben, um herauszufinden, wie stark ChatGPT inzwischen geworden ist.
Als ich ihm dann eine einfache Rechenaufgabe gab, nämlich die Lösung von 5,9 = x + 5,11, hat er es einfach nicht geschafft...
»Das ist doch eine Aufgabe für Kindergartenkinder«?
Eine KI, für die ich 200 Dollar bezahle, kann weniger als mein Taschenrechner, der nur 20 Yuan gekostet hat?
Aber ich erinnere mich, dass ich GPT-4 damals, als es gerade herauskam, auch komplizierte Mathematikaufgaben lösen ließ. Verschlechtert sich die Intelligenz der KI bei den Modellupdates? Also habe ich ihm eine Aufgabe zur Integralrechnung gestellt.
Er hat die Substitutionsmethode angewandt, und auf den ersten Blick sah alles in Ordnung aus. Studierende im Kommentarbereich können das mal überprüfen.
Beide Rechenaufgaben wurden mit GPT-5 gelöst. Warum verhält sich die KI dann so unterschiedlich?
Ich dachte zuerst, OpenAI sei übermütig geworden. Aber als ich im Internet recherchiert habe, habe ich festgestellt, dass es nicht nur GPT ist, der so handelt. Es scheint sogar eine Branchentendenz zu sein.
Vor ein paar Tagen hat Meituan das Open-Source-Modell LongCat veröffentlicht, in dem erwähnt wird, dass ein Router zur Effizienzsteigerung eingesetzt wird.
Beim Release von DeepSeek V3.1 wurde auch erwähnt, dass das Modell zwei verschiedene Denkmodi haben kann.
Das KI-Riesenunternehmen Gemini hat beim Release von Gemini 2.5 flash ein ähnliches Modell eingeführt, das dem Modell erlaubt, selbst zu entscheiden, wie es seine Ressourcen einsetzen soll.
Insgesamt versuchen alle, ihre Modelle so zu gestalten, dass sie nur dann denken, wenn es wirklich nötig ist, und sich ansonsten ausruhen können.
Der Grund dafür ist einfach: Es geht um Geld sparen. Laut Informationen von OpenAI kann man mit dieser Methode, dass das Modell selbst entscheidet, ob es denken muss, viele Tokens einsparen. Die Anzahl der ausgegebenen Tokens von GPT-5 hat um 50 % - 80 % abgenommen.
Auch in den offiziellen Diagrammen von DeepSeek ist zu sehen, dass der Token-Verbrauch des neuen Modells um etwa 20 % - 50 % gesunken ist.
Was bedeutet es, die Hälfte der Tokens einzusparen? Wir Normalsterblichen können das vielleicht nicht so gut einschätzen, aber für eine große Firma wie OpenAI kann es eine enorme Kosteneinsparung bedeuten.
Letztes Jahr wurde berichtet, dass ChatGPT täglich über 500.000 Kilowattstunden Strom verbraucht. Bei einer so hohen Basisbelastung können die eingesparten Ressourcen einem kleinen Ort mit mehreren tausend Haushalten einen Tag lang Strom liefern.
Kein Wunder, dass Altman im Internet sagte, dass es ihn Millionen von Dollar kostet, wenn die Nutzer GPT einfach nur danken. Frühere High-End-Modelle haben auch für eine einfache »Danke«-Nachricht Minutenlang nachgedacht. Das war wirklich eine Verschwendung.
Wie wird die Fähigkeit der KI, die Antwort je nach Aufgabe anzupassen? OpenAI hat das genaue Prinzip nicht veröffentlicht. Aber es gibt eine Studie aus dem Jahr 2023 namens »Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models«, die sich speziell mit diesem Thema befasst.
Als GPT-3.5 auf den Markt kam, konnte das große Modell noch nicht seine Denkfähigkeit selbst anpassen. Jede Frage hat die KI fast ins Gehirnbröseln gebracht.
Um die Effizienz zu steigern, haben die Forscher ein Modul namens »Perceptual Router« entwickelt. Im Grunde handelt es sich dabei um ein kleines Sprachmodell, das in ein Mischmodell integriert wurde.
Während der Vorhersagephase lernt der Router, ähnlich wie beim Üben von Aufgaben, vorherzusagen, welches Modell am besten geeignet ist.
Es gibt natürlich eine richtige Antwort darauf, welches Modell für eine tiefergehende Analyse und welches für eine schnelle Antwort am besten geeignet ist. Das System vergleicht die Vorhersage des Routers mit der richtigen Antwort und berechnet den Fehler. Anschließend werden die internen Parameter des Routers so angepasst, dass der Fehler minimiert wird.
Nachdem er Hunderttausende von Aufgaben bearbeitet hat, lernt der Router, wie er die richtigen Modelle für Ihre Eingaben auswählen kann.
Wenn eine neue Eingabe kommt, überprüft der kleine Router im Inneren der KI zunächst, ob diese Aufgabe eine tiefgehende Überlegung erfordert. Da der Router relativ leichtgewichtig ist, erfolgt diese Bewertung fast augenblicklich.
Außer der Methode von OpenAI gibt es noch eine andere Möglichkeit, wie KIs sich etwas ausruhen können: indem sie verschiedene Tokens auf verschiedene neuronale Netze leiten.
Meituan's LongCat nutzt diese Methode. Laut Berichten verwenden sie einen Mechanismus namens »Zero-Compute Expert«.
Normalerweise werden Ihre Eingaben in Tokens aufgeteilt und an die internen neuronalen Netze des Modells weitergeleitet.
Aber LongCat leitet die Tokens zuerst an einen kleinen Router namens »Top-k Router« weiter. Dieser agiert wie ein Disponent auf einem Fließband und entscheidet, ob ein Token einfach oder komplex zu verarbeiten ist.
Innerhalb des Routers gibt es verschiedene neuronale Netze mit unterschiedlichen Aufgaben. Wir nennen sie Experten.
Einige dieser Experten bevorzugen komplexe Aufgaben, andere einfache. Natürlich gibt es auch Experten, die gerne faulenzen.
Nehmen wir zum Beispiel den Satz »Schreiben Sie in Python ein Programm für eine schnelle Sortierung«. »Python« und »schnelle Sortierung« sind die wichtigen Bestandteile, während »Bitte« und »ein« weniger wichtig sind.
Wir können diese unwichtigen Tokens an die Faulenzer-Experten weiterleiten, da sie kaum verarbeitet werden müssen. So erklärt sich der Name »Zero-Compute Expert«.
Das erklärt auch, warum alle über dieses Modell so enthusiastisch sind: Es ist einfach sehr schnell.
Insgesamt ist diese Art von Design für die Hersteller der Modelle vorteilhaft. Es spart Geld und erhöht die TrainingsEffizienz.
Von der Nutzerperspektive aus ist das Modell schneller und kostengünstiger. Aber ich denke, dass dies eine Doppelscheibe ist. Wenn man es nicht richtig nutzt, kann es die Nutzererfahrung tatsächlich beeinträchtigen.
Als GPT-5 gerade online ging, hat der Router einmal komplett versagt. Die Nutzer konnten das Denkmodell des Modells nicht aktivieren. Es antwortete einfach nur »Ja, richtig«, ohne auch nur kurz nachzudenken. Selbst bei einer einfachen Frage wie »Wie viele 'b' sind in 'blueberry'?« konnte es nicht richtig zählen.
Außerdem wird den Nutzern die Möglichkeit genommen, selbst zu wählen. OpenAI hat GPT-4o entfernt, was viele Nutzer sehr traurig gemacht hat.
Deshalb hat Altman wieder GPT-4o für die Plus-Nutzer zur Verfügung gestellt und den Pro-Nutzern weiterhin den Zugang zu älteren Modellen ermöglicht.
Dies zeigt doch, dass der Router beim Release noch nicht richtig eingestellt war.
LongCat ist zwar sehr schnell, aber in Bezug auf die Denkfähigkeit kann es nicht mit anderen großen Modellen mithalten. Ich habe LongCat und DeepSeek zum Beispiel dieselbe Frage gestellt: Was bedeutet 'Dante ist wirklich kein Chinese, aber Dante ist wirklich ein Chinese'?
LongCat hat sehr schnell eine Antwort gegeben, konnte aber die Humorigkeit der Frage nicht verstehen. DeepSeek war zwar langsamer, aber es hat den Witz hinter der Frage sehr gut erklärt.