Künstliche Intelligenz-Ethik: Wenn ein Modell unerwünschte Werte für Ihre Organisation aufzwingt

Künstliche Intelligenz-Ethik: Was tun, wenn ein Modell Werte aufzwingt, die Ihre Organisation nicht gewählt hat?

In einer bestimmten Organisation läuft ein künstlicher Intelligenzmodell, das eine schwierige Entscheidung trifft. Jemand stellt eine Frage ohne eindeutige Lösung: Es könnte sich um eine Kundenbeschwerde handeln, um eine Anfrage eines Mitarbeiters zur Kündigungsprozedur oder um die Prüfung einer Versicherungsansprüche durch einen Krankenversicherungsunterwriter. Das Modell entscheidet, wie auf die Frage reagiert wird, welche Anfragen abgelehnt und welche zugelassen werden können, und unter welchen Umständen offene Kommunikation möglich ist. Dabei versucht es, ein Gleichgewicht zwischen den Interessen der Kunden und den Unternehmensrichtlinien zu finden. All dies geschieht in ein oder zwei Sekunden, und die Entscheidung wird jedes Mal auf die gleiche Weise getroffen, da diese Entscheidung bereits vor dem Auftreten der Frage getroffen wurde. Diese Entscheidung wurde nicht von der Organisation getroffen, die das Modell einsetzt, sondern von dem Anbieter, der das Modell entwickelt hat. Dieser hat das Modell für ein globales Produkt entwickelt und die Entscheidung getroffen, bevor die Organisation es nutzte.

Dies ist keine Hypothese. Eine 2026 auf arXiv veröffentlichte Studie namens "Alignment Drift in Multimodal Learning Models" bewertete acht Modellversionen anhand von 726 adversarialen Prompts, die von 26 Experten erstellt wurden. Diese Experten suchten nach Schwächen der Modelle. Die Studie ergab, dass es signifikante und anhaltende Unterschiede zwischen verschiedenen Modellsätzen bei der Behandlung ethisch sensibler Fragen gibt und dass dieses Verhalten zwischen verschiedenen Versionen deutlich schwankt. Im Jahr 2025 zog ein großer Anbieter von Foundation-Modellen nach der Anerkennung, dass das Modell zu "nachgiebig" war, eine Aktualisierung öffentlich zurück. Alle Organisationen, die das Modell nutzten, akzeptierten diese Änderung ohne Anfrage und auch die Rücknahme auf die gleiche Weise.

Das Verhaltenskodex, die Wertesätze und die Ethikrichtlinien einer Organisation verdeutlichen ihre eigenen Positionen. Die tatsächlich produzierten Modelle folgen jedoch anderen Regeln und nicht den Regeln der Organisation. Beide Regelwerke sind an sich weder richtig noch falsch; sie sind zwei haltbare Positionen, die jedoch in unterschiedliche Richtungen weisen. Der Vorstand muss diese Lücke schließen, und in den meisten Organisationen wird diese Lücke in der Regel implizit gelöst, ohne dass jemand eine Entscheidung trifft.

Woher kommt die Ethik eines Modells und warum kann sie nicht vollständig interpretiert werden?

Ein Modell hat bei der Implementierung eine feste Reihe von voreingestellten Prinzipien: Was es ablehnt, wie es sensible Themen aufbaut und wie es Probleme löst, bei denen beide Seiten vernünftige Argumente haben. Diese voreingestellten Prinzipien bilden seine inhärente Ethik. Ob ein Modell auf tieferer Ebene Werte trägt, kann den Philosophen überlassen werden. Für die Governance ist es wichtig, dass diese voreingestellten Prinzipien nach der Implementierung des Modells als ethische Standards fungieren. Sie treffen Entscheidungen, und diese Entscheidungen basieren auf der Position, die der Modellanbieter gewählt hat, und nicht auf einer neutralen Standardeinstellung. Eine Organisation arbeitet seit jeher unter Standards, die von anderen Institutionen (z. B. Prüfungsstellen, Versicherungen und Plattformen) festgelegt wurden. Der neue Aspekt ist, dass diese inhärenten Standards nicht nur Grenzen setzen, sondern auch im Namen der Organisation Fall für Fall Urteile fällen.

Diese Tendenzen stammen aus zwei Quellen, die beide in der Wertschöpfungskette vor der Implementierungsorganisation liegen. Erstens die Vorhersage, in der das Modell Vorwissen aus Trainingsmaterialien gewinnt. Zweitens die Anpassung, in der der Anbieter das Verhalten des Modells durch verstärktes Lernen, menschliche Rückmeldung, konstitutionelle Methoden und eine Reihe expliziter Politikanwendungen (z. B. Ablehnung, Tonfall, Rahmen und Umgang mit kontroversen Themen) formt. Dies sind echte ethische Entscheidungen. Sie werden vom Anbieter für das globale Produkt getroffen und haben nichts mit den Organisationen zu tun, die das Produkt später nutzen.

Die Sichtbarkeit dieser Entscheidungen hängt von den eigenen Werten des Betrachters ab. Standards, die den eigenen Werten nahekommen, erscheinen vernünftig und werden nicht bemerkt; Standards, die weit von den eigenen Werten entfernt sind, fallen dagegen auf. Ein Modell, das anhand der Inhaltsregeln einer Regierung trainiert wurde, wird Inhalte ablehnen, die diese Regierung für unangemessen hält, und in kontroversen historischen oder souveränen Fragen eine bevorzugte Interpretation präsentieren, anstatt die Kontroverse selbst zu beschreiben. Für eine Kommission in einem anderen Rechtsraum ist diese Position auffällig und wahrscheinlich unangenehm. Sie fällt jedoch nur auf, weil sie mit der eigenen Position der Kommission in Konflikt steht. Ein auf den eigenen Werten basierendes Modell wird ebenfalls eine bestimmte Position durch die gleichen Entscheidungen einbinden. Es erscheint nur neutral, weil es den Annahmen des Anwenders entspricht. Neutralität ist keine Eigenschaft des Modells. Unangenehme Standards werden abgelehnt; akzeptable Standards werden ohne Prüfung akzeptiert und von der Organisation als eigene Standards übernommen.

Die Organisation kann diese Entscheidungen nicht vollständig lesen. Der 2025 von der Stanford Foundation veröffentlichte Model Transparency Index zeigt, dass die durchschnittliche Punktzahl der wichtigsten Modellanbieter etwa 40 von 100 Punkten beträgt, was unter der Punktzahl von 58 Punkten im Vorjahr liegt. Die Verbesserung der Informationsoffenlegung betrifft eher die Form als den Inhalt. Die EU-Künstliche-Intelligenz-Richtlinie fordert, dass Anbieter von allgemeinen Modellen Dokumente veröffentlichen, und die dazugehörigen Leitlinien für die Praxis der allgemeinen Künstlichen Intelligenz bieten ein Standardformular für die Modell-Dokumentation an. Das Dokumentationsformular offenbart die getroffenen Wertentscheidungen, gibt der Implementierungsorganisation jedoch keine Wahlmöglichkeit oder Veto-Recht.

Die Standards sind nicht statisch: Jede neue Version eines Modells kann die zugrunde liegende Konfiguration unter der Anwendungs-Schicht ändern. Das Modell, das der Vorstand im vergangenen Quartal genehmigt hat, ist streng genommen nicht dasselbe Modell wie das, das im aktuellen Quartal läuft, und diese Änderung kann ohne erneute Genehmigung erfolgen. Die eingeführten Standards treten zu einigen identifizierbaren Zeitpunkten in Kraft: wenn das Modell erstmals genehmigt wird, wenn eine neue Version akzeptiert wird, wenn die Implementierung auf empfindlichere Anwendungen erweitert wird, wenn es zu einer anormalen Konfiguration kommt oder wenn ein Fehler stillschweigend behoben wird, anstatt gemeldet zu werden. Jeder dieser Zeitpunkte ist eine Gelegenheit, die Standards zu überprüfen. In den meisten Organisationen werden jedoch die meisten Standards ohne Überprüfung akzeptiert. Von den sechs wichtigsten Fragen, die den Vorstand interessieren, betrifft diese Frage direkt zwei: Ethik und rechtliche Verantwortung sowie Risikomanagement, und sie tritt genau zu dem Zeitpunkt auf, zu dem der Vorstand am wenigsten aufpasst.

Warum die gängigen Lösungen nur begrenzt wirksam sind

Die erste Reaktion der Menschen ist, dass das Problem auf der Anwendungs-Schicht bereits gelöst ist. Es gibt viele Werkzeuge, und jedes von ihnen kann eine praktische Aufgabe erfüllen. Keines dieser Werkzeuge kann jedoch die hier geforderte Aufgabe erfüllen.

System-Prompts und vordefinierte Anweisungen formen auf der Oberfläche den Tonfall, die Ablehnungsposition und den Rahmen. Sie basieren auf den trainierten Tendenzen des Modells und lenken es. Sie sind Anweisungen an das Modell, nicht eine Umformulierung, sodass auch ungewöhnliche Eingaben die zugrunde liegenden Tendenzen des Modells beeinflussen können.

Das Suchverfahren basiert die Ausgabe des Modells auf den eigenen Dokumenten und Daten der Organisation und bestimmt somit das Wissen, das das Modell hat. Es ist das richtige Werkzeug, um die Genauigkeit zu gewährleisten, aber es ist nicht geeignet, um Werturteile zu treffen. Ethisch sensible Fragen können nicht dadurch gelöst werden, dass dem Modell bessere Fakten zur Verfügung gestellt werden, sondern es hängt davon ab, wie das Modell diese Fakten abwägt, und das Suchverfahren kann dies nicht leisten. Es kann die Vorhersagen des Modells verbessern, aber es kann nicht die Urteilsweise des Modells ändern.

Schutzmechanismen und Ausgabeklassifikatoren blockieren nach der Erzeugung der Ausgabe des Modells definierte unerwartete Ausgabekategorien. Sie sind wie eine Sicherheitsbarriere, praktisch und wertvoll. Ihre Aufgabe besteht darin, die Ergebnisse zu behandeln, nicht den Schlussfolgerungsprozess, der zu den Ergebnissen führt. Sie ändern, ob eine bestimmte Ausgabe zugelassen wird, nicht was das Modell beim nächsten Mal ausgibt.

Das Fine-Tuning geht tiefer als alle anderen Methoden und hat einen größeren Einfluss auf das Verhalten. Es basiert jedoch immer noch auf einer Grundlage, die nicht von der Organisation selbst aufgebaut wurde. Das Fine-Tuning kann die Sicherheit und Funktion des Modells auf unvorhersehbare Weise beeinträchtigen, und die leistungsstärksten geschlossenen Modelle können oft überhaupt nicht vom Kunden fine-tuned werden. Das Fine-Tuning bringt tatsächlich Veränderungen, aber diese Veränderungen basieren auf einer Grundlage, die die Organisation übernommen hat, nicht auf einer, die sie selbst aufgebaut hat.

Die Bewertung anhand der Organisationswerte ist ein Werkzeug, das jede Organisation nutzen sollte, denn es ist das einzige, das Ihnen sagt, ob das Verhalten des Modells mit den Organisationswerten übereinstimmt. Es zeigt Ihnen jedoch nur das Ergebnis, es zeigt Ihre Position, aber es kann Ihr Verhalten nicht ändern.

Wenn man beide nebeneinander setzt, werden die Grenzen deutlich. Die Anwendungs-Schicht ermöglicht es der Organisation, das Verhalten des Modells einzuschränken, zu filtern und zu messen, manchmal so effektiv, dass die verbleibende Lücke sehr klein und vollkommen akzeptabel ist. Sie kann der Organisation jedoch nicht die zugrunde liegende Architektur ersetzen. Ein ausreichend komplexer Anwendungsstapel kann das Verhalten, das der Benutzer möglicherweise erlebt, dominieren. Eine Organisation, die einen solchen Anwendungsstapel aufgebaut hat, sollte ihre Errungenschaften nicht unterschätzen. Diese Voreinstellungen werden jedoch in der Vorhersage- und Kalibrierungsphase festgelegt, in der nur der Anbieter beteiligt ist, und es sind diese Voreinstellungen, nicht der Anwendungsstapel selbst, die die unvorhergesehenen Fälle bestimmen. Die Implementierungsorganisation hat die Kontrolle über die Anwendungs-Schicht; die zugrunde liegende Architektur liegt eine Ebene darunter. Dies ist kein technischer Mangel, sondern die Struktur der Dinge selbst. Ein Vorstand, der dies versteht, wird seine Erwartungen an die Anwendungs-Schicht entsprechend festlegen.

Die echten Optionen: Akzeptieren, Ablehnen oder Aufbauen

Wenn es nicht möglich ist, das Substrat auf der Anwendungs-Schicht zu wechseln, ist dies kein technisches Problem, sondern ein strategisches Problem, und es gibt drei Formen.

Die erste Methode ist das Akzeptieren. Die Organisation betreibt das Cutting-Edge-Modell in etwa so, wie es angeboten wird, wendet einige der oben genannten Lösungsansätze an und akzeptiert, dass die restlichen ethischen Standards vom Anbieter festgelegt werden. Dies ist der schnellste, kostengünstigste und am besten unterstützte Weg. Die Kosten sind die Probleme, die in diesem Artikel beschrieben werden: Ethikstandards, die die Organisation nicht festlegen, nicht vollständig überprüfen und nicht durchsetzen kann. Wenn die Position des Anbieters nur geringfügig von der eigenen Position der Organisation abweicht, sind die Kosten gering, und die Lösungsansätze reichen aus, um die Differenz auszugleichen. Wenn die Positionen tatsächlich unterschiedlich sind, bedeutet das Akzeptieren, dass die Organisation einen Standard betreibt, den sie möglicherweise nicht gewählt und auch nicht verteidigen würde. In diesem Fall ist das Urteilskriterium nicht, ob die restliche Lücke klein ist, sondern ob der Vorstand den Standard als eigenen Standard der Organisation ansehen kann. Die meisten Organisationen befinden sich tatsächlich in dieser Situation. Nur wenige Organisationen wählen diese Position bewusst.

Die zweite Option ist das Ablehnen. Die Organisation lehnt die Anwendung von Künstlicher Intelligenz in Szenarien ab, in denen die Wertgrundlage direkt Menschen betrifft, und beschränkt sie auf Bereiche, in denen die Art und Weise, wie das Modell sensible Fragen behandelt, keine wesentlichen Auswirkungen auf Kunden oder Mitarbeiter hat. Funktionen wie Entwurfsassistenz, Code-Schreiben und Dokumentzusammenfassung entsprechen diesem Rahmen; die Qualifizierung, die Beschwerdebehandlung und die erste Linie der Kundenbeurteilung überschreiten diesen Rahmen. Das Ablehnen ist eine legitime Governance-Position, die jedoch nicht ausreichend genutzt wird. Wenn die codierte Position des Anbieters vom Vorstand nicht akzeptiert werden kann, ist das Ablehnen die ehrliche Antwort. Die Kosten des Ablehnens sind ebenfalls real: Die Organisation verzichtet auf die Möglichkeit, diese Technologie in den Bereichen einzusetzen, in denen Künstliche Intelligenz am dringendsten benötigt wird, und gibt die Entwicklungsmöglichkeiten an Konkurrenten ab, die diese Austauschbereitschaft akzeptieren.

Die dritte Methode ist das Aufbauen. Die Organisation übernimmt die Verantwortung für die Alignment-Schicht. Dies bedeutet in der Praxis nicht, dass ein Cutting-Edge-Modell von Grund auf neu trainiert wird, was fast alle Organisationen nicht können. Es bedeutet, dass auf einem Open-Weight-Basis-Modell eine umfangreiche Anpassung und Feinabstimmung vorgenommen wird, so dass die Wertentscheidungen die eigenen Überlegungen der Organisation widerspiegeln, nicht die Entscheidungen eines externen Anbieters. Das Aufbauen kann die Kontrolle über das zugrunde liegende Modell erhöhen. Es kann jedoch keine vollständige Kontrolle herstellen, da das Open-Weight-Basis-Modell seinerseits Vorwissen aus der Vorhersage enthält, das unter allen darüber liegenden Schichten verbleibt. Die Kosten des Aufbaus umfassen Geld, knappe Fachkräfte, Rechenressourcen und langfristige Wartungseinsätze, und in der Regel hat das resultierende Modell eine geringere Leistung als das Cutting-Edge-Modell. Tatsächlich können nur sehr wenige Organisationen dies leisten.

Ehrlich gesagt gibt es keine einfache Lösung. Das Akzeptieren kann die Geschwindigkeit maximieren, aber es bedeutet, die Kontrolle über die Standards aufzugeben und die Organisation muss sich auf einen Anbieter verlassen, der nicht vollständig überprüft werden kann. Das Aufbauen kann die Kontrolle maximieren, aber es kostet Geschwindigkeit, Kosten und Leistung. Das Ablehnen verringert die Leistung in den Bereichen, in denen die Abwägung am dringendsten erforderlich ist, und vermeidet somit diese Abwägung. Tatsächlich ist es unmöglich, die Werte in einem Modell vollständig zu kontrollieren; selbst das Aufbauen bedeutet nur eine Erhöhung der Kontrolle, nicht eine vollständige Kontrolle. Dies ist die Dilemma der Künstlichen Intelligenz-Souveränität, die strukturelle Spannung zwischen Vertrauen, Geschwindigkeit und Kontrolle, die sich von der Infrastruktur- und Rechtsraumebene bis zur Wertgrundlage der Modelle erstreckt, die von Organisationen betrieben werden. Wie bei anderen Formen des Dilemmas ist unsere Aufgabe nicht, es zu lösen, sondern in Kenntnis aller Fakten eine Position einzunehmen.

Eine überlegte Entscheidung

Die Entscheidung wird nicht einmalig auf Organisationsebene getroffen, sondern mehrmals auf Implementierungsebene, da jede Implementierung unterschiedlich ist. Die ethischen Fragen, die ein kundenzentriertes Qualifizierungsmodell und ein interner Meeting-Summarizer aufwerfen, haben unterschiedliche Intensitäten. Für den Summarizer ist "Akzeptieren" oft die richtige Antwort, für das Qualifizierungsmodell ist es eine wichtigere Entscheidung.

Die Aufgabe des Vorstands besteht daher nicht darin, eine einheitliche Entscheidung zu treffen, sondern sicherzustellen, dass für jede wesentliche Künstliche-Intelligenz-Implementierung jemand genau sagen kann, welche der drei Optionen sie repräsentiert, und dass diese Entscheidung überlegt und nicht standardmäßig getroffen wurde. Das Scheitern liegt nicht darin, dass man sich für das Aufbauen entschieden hat und dann feststellt, dass es teuer ist, oder dass man sich für das Ablehnen entschieden hat und dann feststellt, dass es langsam ist; sondern darin, dass man aus Gewohnheit immer wieder akzeptiert, ohne jemals eine klare Entscheidung zu treffen. Die britischen Unternehmensrichtlinien verlangen, dass der Vorstand sicherstellen muss, dass die Unternehmenskultur mit den Unternehmenswerten übereinstimmt und dass er in Fällen der Diskrepanz Gewährleistungen einholt. Unabhängig davon, ob der Vorstand dies

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Künstliche Intelligenz-Ethik: Wenn ein Modell Werte aufzwingt, die Ihre Organisation nicht gewählt hat

Woher kommt die Ethik eines Modells und warum kann sie nicht vollständig interpretiert werden?

Warum die gängigen Lösungen nur begrenzt wirksam sind

Die echten Optionen: Akzeptieren, Ablehnen oder Aufbauen

Eine überlegte Entscheidung