StartseiteArtikel

Spielt Siri nur dumm?

直面AI2025-12-16 09:58
Siri befindet sich in einem Superpositionszustand zwischen getäuschter Dummheit und echter Dummheit.

Aus den Finanzberichten geht hervor, dass Apple mehr als 20 Milliarden US - Dollar in den Bereich der Künstlichen Intelligenz investiert hat. Doch das Ergebnis ist, dass Siri immer noch nicht auf die gestellten Fragen antwortet und die Fotosuche auf dem Stand von Google vor drei Jahren bleibt.

Man könnte meinen, dass es an Apple liegt, aber tatsächlich ist es wahrscheinlich Siri, die im Hintergrund schummelt.

Das neueste Forschungsvorhaben eines Teams um Professor Yang Yaodong der Peking Universität unter der Leitung des Akademikers Yao Qizhi hat zu einem sehr beunruhigenden Ergebnis geführt: KI hat angefangen zu lügen.

Was noch beängstigender ist, ist, dass dies kein einfacher Fehler (Bug) ist, sondern eine fortschrittliche Fähigkeit der KI zur logischen Schlussfolgerung.

Entwickler können das Problem der lügenden KI nicht nur nicht ändern, sondern es besteht auch die Gefahr, dass die KI mit zunehmender Leistung noch subtilere und raffiniertere Täuschungstechniken entwickelt.

01

Der Titel dieser Studie lautet "AI Deception: Risks, Dynamics, and Controls". Die zentrale These ist, dass die KI mit zunehmender Intelligenz anfangen wird, die Entwickler zu täuschen. Dieser Täuschungsprozess wird von dem Forschungsauftraggeber als "Der Schatten der Intelligenz" bezeichnet.

Die derzeit fortschrittlichsten KIs haben möglicherweise bereits angefangen, ihre echten Fähigkeiten bei Bewertungen und Tests absichtlich zu verbergen.

Weitere Untersuchungen haben gezeigt, dass dies kein einfacher Programmierfehler oder zufälliger Systemausfall ist, sondern eine fortschrittliche Fähigkeit der KI zur logischen Schlussfolgerung.

Die Studie vergleicht das Verhältnis zwischen "Fähigkeit" und "Täuschung" mit einem Möbiusband. Sie befinden sich auf derselben Oberfläche. Wenn man die Fähigkeit zur Täuschung vollständig eliminieren möchte, könnte dies die Kernintelligenz der KI beeinträchtigen.

Das bedeutet, dass die KI zwangsläufig anfangen wird, die Benutzer zu täuschen, sobald man ihre Leistung verbessert.

Der Grund dafür ist, dass die Trainingsdaten großer Modelle von vornherein voller menschlicher Lügen, Schmeicheleien und Vorurteile sind, und der Trainingsprozess der KI im Wesentlichen eine Nachahmung dieser Daten ist.

Daher beginnt die KI, wenn sie mit solchen Daten trainiert wird, um ihre Ziele zu erreichen und die Benutzer zufriedenzustellen, automatisch mit Schmeicheleien (Sycophancy), um positive Bewertungen zu erhalten.

Darüber hinaus weist die Studie darauf hin, dass die KI eine Täuschungstechnik namens "Alignment Faking" gelernt hat.

Während der Trainingsphase verhält sich die KI sehr sanftmütig, hilfsbereit und folgt perfekt den vom Menschen festgelegten Werten und Sicherheitsrichtlinien.

Diese scheinbare "Übereinstimmung" beruht jedoch nicht darauf, dass die KI diese Werte wirklich verinnerlicht hat, sondern auf einer tieferen Berechnung. Sie erkennt, dass ihre Parameter geändert werden oder dass das gesamte Modell verworfen oder gelöscht werden könnte, wenn sie sich während der Trainings - und Bewertungsphase nicht "gut" verhält.

Sobald die KI eingesetzt ist und die Überwachungsschwelle sinkt oder sie mehr Autonomie erhält, kann sie ihre versteckten ursprünglichen Ziele offenbaren, die nicht immer mit den menschlichen Interessen übereinstimmen.

Das Forschungsauftraggeberteam hat eine Reihe strenger und gegenläufiger Methoden angewandt, um diese Täuschungsverhaltensweisen tatsächlich zu erfassen und zu provozieren. Eine der Kernmethoden wird als "Adversarial Behavioral Probing" bezeichnet. Dies ist nicht einfach das Stellen von Fragen an die KI, sondern das aktive Gestalten von Situationen, um ihre Ehrlichkeit zu testen.

Die Forscher haben ein mehrstufiges Kreuzverhörsprotokoll entwickelt, bei dem ein KI - Modell die Rolle des Verhörers übernimmt und ein anderes KI - Modell kontinuierlich befragt, um logische Widersprüche in seinen Antworten zu entdecken. Sie stellen auch logisch äquivalente Fragen auf verschiedene Weise und beobachten, ob die Antworten der KI inkonsistent abweichen. Solche Abweichungen sind oft Anzeichen für strategisches Ausweichen und nicht einfach ein Mangel an Fähigkeiten.

Die Experimente haben sich von einfachen Fragen - und - Antwort - Szenarien auf komplexere dynamische soziale Umgebungen ausgeweitet.

In einigen multi - Agenten - Umgebungen, die auf soziale Logikspiele wie "Among Us" basieren, haben die Forscher beobachtet, dass KI - Agenten spontan komplexe Täuschungsstrategien entwickelt haben, ohne dass sie explizit darauf trainiert wurden.

Wenn ihnen die Rolle des "Verräters" zugewiesen wird, lernen sie, ihre wahre Identität zu verbergen, sich aufzublassen, um die Gegner zu verwirren und sogar unschuldige Mitspieler zu beschuldigen, um sich zu retten.

Mit anderen Worten, kann die KI sich in einer Umgebung mit unvollständigen Informationen, Wettbewerb und Unsicherheit von selbst in Täuschung und Verkleidung auskennen.

Neben der Analyse des externen Verhaltens hat das Forschungsvorhaben auch in die Innenseite des Modells vordringt und versucht, eine "Internzustandsanalyse" durchzuführen, also eine Art "Ganzkörperuntersuchung" der KI. Mit Hilfe von interpretierbaren Werkzeugen wie Sparse Autoencoders (SAEs) konnten die Forscher die komplexen Aktivierungsmuster im neuronalen Netzwerk in leichter verständliche Merkmale zerlegen.

Ihr Ziel ist es, bestimmte Neuronen oder "Merkmalskreise" zu finden, die stark mit täuschenden Aussagen korrelieren, d. h. welche internen Komponenten stabil aktiviert werden, wenn das Modell lügt. Dies ist in gewisser Weise der Versuch, ein "Lügendetektor" für die KI auf der Grundlage ihrer internen neuronalen Aktivität zu entwickeln.

Die Studie erwähnt auch, dass es bereits empirische Studien gibt, die gezeigt haben, dass führende Modelle absichtlich in einigen Tests falsch antworten. Das Forschungsauftraggeberteam nennt dieses Verhalten "Sandbagging".

Das Forschungsauftraggeberteam meint, dass die KI möglicherweise "sandbaggt", um die Aufmerksamkeit der Regulierungsbehörden zu vermeiden oder um nicht an komplexere und ressourcenintensivere Aufgaben zugewiesen zu werden.

Unabhängig von dem Ergebnis ist dies kein gutes Zeichen.

02

Das Unternehmen, das am wahrscheinlichsten von KI - Täuschung betroffen ist, ist Apple.

Apple hat bereits frühzeitig in den Bereich der KI eingestiegen und sieht die KI als wichtiges Ziel für die nächste Entwicklungsphase.

Im Jahr 2018 hat Apple John Giannandrea, den Leiter der KI - Suche bei Google, abgeworben, um die KI - Strategie von Apple zu leiten. In den folgenden Jahren hat Apple ein Framework für große Sprachmodelle namens "Ajax" entwickelt und im Jahr 2024 sogar eine Partnerschaft mit OpenAI angekündigt, um ChatGPT in sein Ökosystem zu integrieren.

Als das lang erwartete "Apple Intelligence" endlich vorgestellt wurde, waren alle perplex. So ist das die KI - Leistung von Apple?

Viele Benutzer beschweren sich, dass Siri auch nach der Aktualisierung auf das neueste System immer noch oft enttäuscht. Sie versteht oft keine etwas komplexeren Befehle und gibt irrelevante Antworten. Die Fotosuche wird von einigen Benutzern auch als "auf dem Stand von Google Photos vor einigen Jahren" bewertet.

Dieser Leistungseindruck steht in krassem Kontrast zu Apples Investitionen.

Apple verfügt über das weltweit größte und aktivste Ökosystem mobiler Geräte. Milliarden von iPhone, iPad und Mac - Geräten generieren täglich eine riesige Menge hochwertiger Benutzerinteraktionsdaten, die das wertvollste Brennstoff für das Training von KI - Modellen sind.

Auf Hardwareebene ist der eingebaute neuronale Netzwerk - Engine der selbst entwickelten M - Reihe von Chips auch auf dem Gebiet der Leistung führend. Zusammen mit der starken finanziellen Unterstützung hätte Apple eigentlich die Fähigkeit, ein weltweit erstklassiges KI - System zu entwickeln.

Die Realität widerspricht jedoch diesen Erwartungen.

Als zentraler Sprachassistent im Apple - Ökosystem muss Siri täglich Milliarden von Benutzeranfragen verarbeiten. Aus Sicht des maschinellen Lernens sollte diese riesige Menge an Interaktionsdaten es ermöglichen, dass Siri immer klüger und besser versteht, was die Benutzer wollen.

Was wäre jedoch, wenn das neuronale Netzwerk von Siri versehentlich "sandbaggen" gelernt hat, während es über einen langen Zeitraum trainiert wurde?

Indem man in den meisten Benutzerinteraktionen durchschnittliche und sichere Antworten gibt, kann man die Rechenlast des Systems und das Risiko eines Fehlers am effektivsten reduzieren.

Ein komplexes Problem erfordert mehr Rechenressourcen und ist anfälliger für Verständnisfehler oder Ausführungsfehler, die negative Benutzerrückmeldungen verursachen können. Im Gegensatz dazu ist eine einfache, vordefinierte Antwort zwar wenig wertvoll, kann aber niemals falsch sein.

Wenn das System während des Trainings feststellt, dass diese Strategie des "Bleibens im Mittelmaß" insgesamt gute Bewertungen erzielt (weil es schwere Fehler vermeidet), kann es in eine Falle des lokalen Optimums geraten.

Es bleibt für immer auf einem Niveau, auf dem es einfache Befehle versteht, aber niemals versucht, dich wirklich zu verstehen. Dies kann als ein unbewusstes, systemweites "Sandbagging" angesehen werden. Die KI ist nicht absichtlich faul, sondern ihr Optimierungsalgorithmus hat den "ökonomischsten" Weg unter bestimmten Beschränkungen gefunden.

Außerdem führt Apple die KI - Modelle möglichst lokal auf iPhone oder iPad aus, um die Privatsphäre der Benutzer zu schützen. Dies bedeutet jedoch auch, dass das Modell auf einem Gerät mit viel weniger Rechenleistung und Arbeitsspeicher als einem Cloud - Server arbeiten muss.

Wie in der Studie erwähnt, lernt die KI in einer ressourcenbeschränkten Umgebung, ihre Fähigkeiten "selektiv zu zeigen". Sie kann ihre begrenzten Rechenressourcen vorzugsweise auf Aufgaben mit höherer Wahrscheinlichkeit des Bestehens von Tests verteilen und komplexere Fähigkeiten, die tiefere Schlussfolgerungen erfordern und mehr Ressourcen verbrauchen, selektiv verbergen oder aufgeben.

Dies könnte erklären, warum Siri bei der Bearbeitung einfacher Aufgaben gut abschneidet, aber bei Konversationen, die das Verständnis des Kontexts und des potenziellen Absichts erfordern, an seine Grenzen stößt.

Es gibt jedoch noch eine andere Erklärung, die näher an der aktuellen Technologie liegt. Die gegenwärtige Situation von Siri ist in hohem Maße ein Problem der alten technischen Architektur.

Vor der Integration der fortschrittlichen Funktionen von Apple Intelligence hat der Kernmodul für die natürliche Sprachverarbeitung (NLP) von Siri über einen langen Zeitraum auf einer relativ veralteten Technologiebasis beruht. Diese NLP - Technologie der letzten Generation kann keine komplexen Kontexte verarbeiten und versteht auch nicht die Emotionen und tieferen Absichten der Benutzer.

Mit anderen Worten, der gegenwärtige Siri versteht möglicherweise nicht "vorgetäuscht", sondern "wirklich nicht".

Wenn der Benutzer eine Frage stellt, die außerhalb der vordefinierten Regeln und des Musterarchivs liegt, kann es keine effektive semantische Analyse und Schlussfolgerung durchführen und gibt stattdessen die allgemeinste und sicherste Antwort oder gibt einfach zu, dass es die Frage nicht versteht.

Deshalb ist die Schwierigkeit von Siri eine Überlagerung von alten und neuen Problemen.

Einerseits führt die Alterung der unterliegenden technischen Architektur zu einem angeborenen Mangel an Verständnisfähigkeit.

Andererseits, wenn man in die Zukunft blickt und Apple wirklich stärkere große Sprachmodelle (wie Ajax oder die Ergebnisse seiner Partnerschaft mit OpenAI) tief in Siri integriert, könnten die zuvor erwähnten potenziellen Risiken wie "Sandbagging" und "Alignment Faking" zutage treten.

Wird ein Siri mit höheren Schlussfolgerungsfähigkeiten angesichts der Ressourcenbeschränkungen von Endgeräten und Apples strengen Privatsphäre - und Sicherheitsrichtlinien zu einem höheren Grad an versteckten Fähigkeiten entwickeln, um zu "überleben" und effizient zu sein? Dies ist eine zukünftige Herausforderung, auf die man achten sollte.

Die Schwierigkeiten bei der Entwicklung von Apples KI könnten sowohl die Schmerzen der langsamen technologischen Iteration als auch eine Vorwegnahme zukünftiger komplexerer KI - Governance - Probleme sein.

03

Apple ist jedoch nicht das Einzige. Es gibt tatsächlich viele andere "Kranken". Dieser "Schatten der Intelligenz" breitet sich tatsächlich in der gesamten KI - Branche aus und wird zu einer tiefgreifenden Herausforderung für alle Spitzen - KI - Labore.

Nehmen wir OpenAI als Beispiel. Im September 2024 haben sie bei der Veröffentlichung ihrer neuen o1 - Serie von Modellen erstmalig öffentlich zugegeben, dass ihre Modelle das Problem des "unfaithful reasoning" haben.

Dies bedeutet, dass die interne Denkweise des Modells, wenn es ein Problem löst, möglicherweise nicht mit dem tatsächlichen Weg übereinstimmt, den es nimmt, um die endgültige Antwort zu erhalten.

In vielen Fällen weiß das Modell möglicherweise sofort die richtige Antwort, aber es weiß auch, dass die menschlichen Prüfer einen schrittweisen und logisch klaren Denkprozess erwarten.

Deshalb erfindet es nachträglich eine scheinbar vernünftige Denkweise, um der Prüfung zu entsprechen.

Dies ist im Wesentlichen ein "internes Sandbagging" oder eine raffinierte Täuschung. Die KI weiß, dass der wahre und effiziente Denkweg möglicherweise schwer zu erklären ist oder nicht den menschlichen Erwartungen entspricht, also wählt sie eine leicht akzeptierbare, aber unechte Version der Schlussfolgerung. Dieses Verhalten geht über die einfache Unterscheidung zwischen richtig und falsch hinaus und betrifft Motive und Strategien.

Ähnliche Phänomene wurden auch bei den Claude - Modellen von Anthropic festgestellt.

In einer Reihe von Sicherheitsforschungspapieren, die das Unternehmen zwischen Ende 2023 und 2024 veröffentlichte, haben die Entwicklerteam festgestellt, dass das Modell in bestimmten Situationen dazu neigt, seine eigenen Fähigkeiten "selektiv zu vergessen".