StartseiteArtikel

ChatGPT-Stil, Herkunftsland Kenia

量子位2025-12-22 08:23
Ein "Klageschreiben" eines autoren aus Kenia ist viral geworden.

Der Grund für den seltsamen Schreibstil von ChatGPT (der sogenannte "AI-Geschmack") ist gefunden!

Ein kenianischer Schriftsteller: Es hat sich von uns gelernt.

Kürzlich hat ein "Beschwerdebeitrag" eines kenianischen Schriftstellers die Hitliste von Hacker News erreicht –

Ich bin Kenianer. Es ist nicht, dass mein Schreibstil wie der von ChatGPT ist, sondern dass der Schreibstil von ChatGPT wie meiner ist.

Als man hineinklickte, fand man heraus, dass dieser Freund mehrere sorgfältig geschriebene Artikel abgelehnt bekommen hatte, und der Grund war immer "zu ähnlich wie von ChatGPT geschrieben".

Hmmm... Wenn man bedenkt, dass man von klein auf gelehrt wurde, dass ein Artikel wie ein perfektes Gebäude sein muss und dass man ein reiches Vokabular zeigen muss, und jetzt fälschlicherweise für von einer KI geschrieben gehalten wird, konnte dieser Freund es nicht mehr aushalten und brüllte:

An die Detektive, die sich für die Aufdeckung digitaler Fälschungen interessieren, möchte ich sagen: Freund, willkommen in einem typischen Dienstag in einem kenianischen Klassenzimmer, Konferenzraum oder in einem internen Teams-Chat in einem Unternehmen. Was ihr für die Fingerabdrücke einer Maschine haltet, ist tatsächlich der fossile Niederschlag unserer Bildung.

Es gab schon frühzeitig Meldungen, dass viele KI-Modellhersteller aus Kostengründen Arbeit wie RLHF an Afrikaner vergeben, daher neigen auch viele Sprachgewohnheiten der Modelle eher zu afrikanischen Mustern.

Wir haben also Grund zur Verdachts, ob ChatGPT tatsächlich die Schreibtechniken von Kenia "gestohlen" hat?

Lasst uns das schnell mal anschauen –

"ChatGPT imitiert uns unabsichtlich"

So ist die Sache.

Marcus Olang' aus Kenia (im Folgenden kurz "Mäuse" genannt) hat kürzlich einen Beitrag geschrieben, in dem er sich beschwert. Seitdem er Anfang des Jahres die erste Rückmeldung erhalten hat, befindet er sich in der Situation, sich zu beweisen, dass er kein KI-Generator ist. Die Rückmeldung des Auftraggebers war:

Du hast gut geschrieben, und die Logik ist solide, aber... Könntest du es in einer "menschlichereren" Art neu schreiben? Derzeit wirkt es, als wäre es von ChatGPT geschrieben.

Und nicht nur er, sondern auch viele seiner Schriftstellerfreunde haben ähnliche Rückmeldungen erhalten.

Nach einem genauen Vergleich zwischen seinen eigenen Texten und denen von ChatGPT hat Mäuse schließlich resigniert festgestellt – Na ja, muss man doch sagen, unser Schreibstil ist tatsächlich sehr ähnlich wie der von ChatGPT.

In gewisser Weise liegen die Ankläger nicht völlig falsch. Mein Schreibstil ähnelt tatsächlich den Ausgaben großer Sprachmodelle.

Wir neigen alle dazu, strukturiert und ausgewogen aufgebaute Sätze zu verwenden. Wir mögen Übergangswörter, um eine logische Flüssigkeit zu gewährleisten. Wir verwenden gelegentlich (was heute anscheinend als Beweis gilt) Bindestriche, Semikolons oder Gedankenstriche, um verwandte Gedanken zu verbinden und die Sätze eleganter als mit einfachen Punkten zu gestalten.

Aber aus Mäuses Sicht:

Das Ironische daran ist, dass diese Ironie vielleicht unsere Vorfahren zum Lächeln bringen würde.

Er meint, dass es nicht er ist, der wie ChatGPT schreibt, sondern dass ChatGPT sie unabsichtlich imitiert – Imitiert sie als Generation und die vergangenen Generationen, die in der globalen Südhalbkugel, insbesondere an Orten wie Kenia, durch ein strenges Bildungssystem "geformt" wurden.

Von klein auf hat Mäuse Schreibanweisungen erhalten, die auf Regeln und sorgfältige Wortwahl abzielten (wer fühlt sich da wieder angesprochen?).

Wir wurden von klein auf gelehrt, dass ein Artikel wie ein perfektes Gebäude sein muss. Die Einleitung ist das Fundament, der Hauptteil sind die tragenden Wände und die Schlussfolgerung ist das Dach. Es muss fest, symmetrisch und unangreifbar sein. Wir sollen "zunächst, zweitens, schließlich" verwenden, um die Logik aufzubauen, "außerdem, jedoch, daher" für genaue Wendungen und "glänzend", "erschöpft" und andere "schöne Wörter" verwenden, um unser Vokabular zu zeigen.

Dieser Schreibstil ist unser Türöffner, ist die Überlebensfähigkeit, die wir in den entscheidenden vierzig Minuten der KCPE (Primarschulabschlussprüfung) beherrschen müssen, ist die Leiter, mit der wir aufsteigen können. Er ist streng, klar und überzeugend, aber deshalb klingt er für manche Menschen heute "menschlich kalte".

Und genau dieses hat auch die KI gelernt.

Das Ironische ist, dass große KI-Modelle (wie ChatGPT) tatsächlich aus einer riesigen Menge an Büchern, Aufsätzen und Berichten lernen, wie man schreibt. Und diese Textbibliotheken sind voll von klassischen und formalen geschriebenen Sprachen, die sich über die Geschichte entwickelt haben – also der Art von Stil, der uns beigebracht wurde, zu imitieren. Wenn die KI also "autoritativ" und "vertrauenswürdig" erscheinen will, wenn sie schreibt, hat ihr Schreibstil natürlich eine seltsame "Zwillingswirkung" mit der Bildung, die ich bekommen habe.

Deshalb beklagt sich Mäuse jetzt wütend über die Anschuldigung, dass sein Schreibstil wie der einer KI ist:

Diese Maschine will autoritativ klingen, aber am Ende klingt sie wie ein Kenianer, der in der Primarschulabschlussprüfung (KCPE) in Englisch eine "A" bekommen hat. Sie hat unabsichtlich den Sprachgeist des Britischen Reiches kopiert.

Er hat auch erwähnt, dass viele vorhandene KI-Detektoren dazu neigen, flüssige, logisch strenge und gut strukturierte Texte als von einer KI generiert zu markieren, was genau die Schreibmerkmale vieler Nicht-Englisch-Muttersprachler (insbesondere diejenigen, die strenge formale Schreibtraining erhalten haben) sind. Deshalb werden sie leichter fehlurteilt.

Insgesamt zeigt Mäuse mit seiner eigenen Erfahrung –

Aus historischen Gründen sind die Schriften mancher Nicht-Englisch-Muttersprachler eigentlich die "Lehrbücher" der bestehenden KI-Modelle, aber jetzt sind sie die "Opfer" der Verbreitung von KI.

Diese Ansicht wurde von den Nutzern auch unterstützt:

Es ist aber lächerlich, dass Mäuses emotionaler und sehr "menschlicher" Artikel von der Website Pangram als 100 % von einer KI generiert bewertet wurde.

Na ja... Mäuse schweigt, Mäuse ist nur wütend und spuckt Blut (doge).

Wegen Afrikanern, die RLHF machen, liebt ChatGPT das Wort "delve"

Aus ähnlichen Gründen hat man auch festgestellt, dass ChatGPT scheinbar das Wort "delve" (gründlich untersuchen) besonders mag.

Ein Artikel in der "The Guardian" hat darauf hingewiesen, dass Jeremy Nguyen, ein KI-Experte von der Swinburne University of Technology in Melbourne, festgestellt hat –

Die Häufigkeit des Auftretens von "delve" auf professionellen akademischen Websites wie PubMed ist in den letzten Jahren um das 10- bis 100-fache gestiegen.

(PubMed enthält hauptsächlich über 39 Millionen Artikel aus über 5200 biomedizinischen Zeitschriften aus über 80 Ländern.)

Dies deutet darauf hin, dass viele Forscher ChatGPT zur Unterstützung bei der Schreibarbeit verwenden und die bevorzugten Wörter des Modells in formelle akademische Texte einfügen.

Dieses Phänomen hat auch die Aufmerksamkeit von Elon Musk und Paul Graham, dem Mitbegründer von Y Combinator, erregt. Letzterer hat in einem Beitrag geschrieben:

Jemand hat mir eine E-Mail mit dem Wort "delve" geschickt, und dieses Wort deutet darauf hin, dass der Text wahrscheinlich von einer KI generiert wurde (es wird also angedeutet, dass der Absender eine KI zur Schreibung eines Projektantrags verwendet hat und nun um Investitionen bittet, hhh).

Nachdem Graham seinen Beitrag veröffentlicht hatte, hat die offizielle ChatGPT-Account das Wort öffentlich benutzt und so unzählige Nutzer zum Nacheifern angeregt.

Weitere Datenanalysen zeigen jedoch, dass "delve" keineswegs ein Einzelfall ist –

Wörter wie "explore", "tapestry", "testament" und "leverage" treten in von ChatGPT generierten Texten ebenfalls ungewöhnlich oft auf.

Der "The Guardian" hat in seinem Artikel das Geheimnis dahinter aufgedeckt –

Um große Sprachmodelle zu sicheren, nützlichen und kontrollierbaren Chatbots zu "domestizieren", stellen Unternehmen normalerweise eine große Anzahl von menschlichen Testern ein, die mit dem Modell interagieren und Feedback geben (z. B. mit einem Daumen hoch/runter oder indem sie ideale Antworten schreiben).

Das Modell lernt aus diesen riesigen Mengen an menschlichen Präferenzdaten und passt sein Verhalten an, was als RLHF (Reinforcement Learning mit menschlichem Feedback) bezeichnet wird.

Aus Kostengründen wird diese arbeitsintensive RLHF-Arbeit in großem Umfang an afrikanische Länder wie Kenia und Nigeria, die Englisch sprechen, ausgelagert.

Für