KI bewertet Menschen: Claude gibt Bewertungsstandards preis - Ein ausgezeichneter Mensch bekommt 7,5 Punkte!

Wie viele Punkte würdest du in den Augen der KI bekommen?

Umgekehrt wird nun der Mensch von KI bewertet!

Das Unternehmen hinter dieser Funktion ist das abstrakte Anthropic.

Obwohl diese Funktion derzeit noch in der Gray-Test-Phase ist, hat sie sich bereits schnell in der internationalen KI-Szene verbreitet.

Wie bewertet die KI den Menschen?

Stellen Sie sich vor: Sie öffnen das Einstellungsmenü von Claude, klicken auf einen speziellen Bildschirm namens „AI Fluency“ und dann auf „Bericht generieren“.

Nach ein paar Sekunden erscheint vor Ihnen ein „Gesundheitsbericht“ über Ihre KI-Nutzungsgewohnheiten.

Dieser scannt nicht nur jede Interaktion in Chat (Alltagsgespräche), Cowork (Zusammenarbeitsprojektraum) und sogar im anspruchsvollen Claude Code, sondern bewertet Sie auch anhand einer strengen Skala (Maximalpunktzahl: 11 Punkte).

Einige schnell handelnde Internetnutzer haben bereits ihre von der KI vergebenen Bewertungen geteilt – einer hat beispielsweise 7,5 Punkte erhalten.

Was noch beängstigender ist, ist, dass die KI in ihrer Bewertung auf den Punkt kommt und direkt auf die Schwachstellen zeigt.

Dieser Internetnutzer hat die Schwachstellenanalyse von Claude geteilt: „Beispielsweise zeigt der Bericht, dass ich extrem häufig verschiedene Connectoren verwende, aber sobald es um Sportdaten, Rezepte oder sogar Karten und geografische Standorte geht, bin ich ratlos.“

Claude zeigt nicht nur die Probleme auf, sondern gibt auch direkt Anweisungen: Beispielsweise „Wecken Sie die scharfe Unterscheidungsfähigkeit der KI aktiv durch Kontexte“ und „Versuchen Sie, mir vor dem Schreiben des ersten Entwurfs zu sagen: Geben Sie mir eine knappe Zusammenfassung der Hauptpunkte, ohne unnötige Einleitungen. So wird Ihr erster Entwurf viel sauberer.“

Das ist schrecklich! Das ist nicht einfach nur eine kalte Software, sondern eher ein zynischer Mentor, der Sie züchtigt.

Ein anderer Internetnutzer hat aufgeregt einen Beitrag geschrieben, um Mitgefühl zu finden: „Ich habe es auch gesehen! Ich bin extra auf das Forum gekommen, um sicherzustellen, dass ich nicht verrückt bin! Ich habe einen Bericht generiert, aber als ich zurück an meinen Laptop ging, hat der Server einen Fehler gemeldet und die Funktion war weg!“

Diese vorübergehende Enthüllung hat die Neugier der Menschen extrem geweckt.

Jeder ist neugierig: Was sind diese 11 Bewertungskriterien?

Entdeckung aus fast 10.000 anonymen Gesprächen: Was ist „KI-Flüssigkeit“?

Um diese 11 Kriterien zu verstehen, müssen wir uns auf die bahnbrechende Studie von Anthropic beziehen: „AI Fluency Index Report“.

In der Vergangenheit dachten wir immer, dass jemand, der komplexe Prompts schreiben kann, die KI versteht. Aber Anthropic ist der Meinung, dass diese Vorstellung zu engstirnig ist. Mit zunehmender Intelligenz der Modelle ist das Auswendiglernen von Prompt-Vorlagen veraltet.

Die echten Experten beherrschen eine Softskill namens „KI-Flüssigkeit“. Genau wie beim Beherrschen einer Fremdsprache bedeutet Flüssigkeit, dass Sie sich natürlich, effizient und nahtlos mit der KI zusammenarbeiten können.

Um diese eher abstrakte Fähigkeit zu quantifizieren, hat Anthropic zusammen mit den Professoren Rick Dakan und Joseph Feller aus der akademischen Welt den berühmten „4D AI Fluency Framework“ entwickelt.

Das Forschungsteam hat leistungsstarke Tools zur Analyse unter Wahrung der Privatsphäre eingesetzt (ganz ohne menschliche Intervention, Claude 4 für die Verhaltensklassifizierung und Claude 3.5 Haiku für die Sprachüberprüfung) und in einer verrückten Woche 9.830 echte, mehrstufige anonyme menschliche Gespräche gründlich untersucht.

Sie waren überrascht zu entdecken, dass die Unterschiede zwischen KI-Nutzern größer sind als zwischen Menschen und Hunden.

Von den 24 ultimative Kriterien für die Mensch-KI-Zusammenarbeit finden 13 außerhalb des Chatfensters statt (z. B. ob Sie Ihrem Chef verheimlichen, dass die Arbeit von der KI erledigt wurde, ob Sie die ethischen Auswirkungen der von der KI generierten Inhalte berücksichtigen usw.), während die verbleibenden 11 absolute Kriterien sind, die direkt im Chatfenster beobachtet werden können.

Häufigkeit jeder KI-Flüssigkeitsverhaltensmetrik in 9.830 Claude.ai-Gesprächen, sortiert nach Häufigkeit von am häufigsten bis am seltensten und farbcodiert nach Fähigkeit

Diese 11 Metriken sind die zugrunde liegende Logik der „Bewertungskarte“ in Claude!

Sie drehen sich hauptsächlich um drei große Dimensionen: Beschreibung, Auftragserteilung und Unterscheidung.

11 „Geisterspiegel“: Wo zeigen Sie Ihre Schwächen?

Sind Sie bereit, einer Prüfung zu unterziehen? Lassen Sie uns diese 11 Kernverhaltensmetriken einzeln analysieren.

Dimension 1: Beschreibung – Wissen Sie wirklich, was Sie wollen?

Viele Menschen schreiben in ihrem Chatfenster so etwas wie: „Schreiben Sie mir eine Wochenbericht“ oder „Schreiben Sie einen Code für das Spiel Schlange“.

Für Claude hat diese Art von Anweisungen fast keine Flüssigkeit. Echte Experten legen Wert auf das „Festlegen von Zielen“ und das „Aufbauen des Gesprächs“.

1. Klares Ziel

Haben Sie der KI erklärt, welches das endgültige Ziel Ihres Vorgehens ist?

Niedrigpunktsspieler: „Polieren Sie diesen englischen Text für mich.“

Hochpunktsspieler: „Ich möchte eine Kaltemail an ein Venture-Capital-Unternehmen in Silicon Valley schicken, um Finanzierung zu beantragen. Bitte polieren Sie diesen englischen Text und stellen Sie sicher, dass der Ton selbstbewusst, aber nicht zu arrogant ist.“

2. Angegebenes Format

Haben Sie klar definiert, wie die Ausgabe aussehen soll?

Hochpunktsspieler wissen, wie man sagt: „Geben Sie die Ausgabe in einer Markdown-Tabelle aus“ oder „Präsentieren Sie es in Form von 3 Überschriften und maximal 50 Wörtern pro Absatz“.

3. Beispielbereitstellung

Few-shot ist immer der Sieger.

Haben Sie der KI vor dem Arbeiten ein von Ihnen akzeptiertes Beispiel gegeben? „Bitte schreiben Sie im Stil dieses erfolgreichen Artikels …“

4. Ergänzung des Kontexts

Die KI kann nicht lesen, was in Ihrem Kopf vor sich geht.

Haben Sie die notwendigen Hintergrundinformationen bereitgestellt? Zum Beispiel Ihren Branchenhintergrund, die Merkmale Ihres Zielpublikums oder sogar die Fehler, die Sie in der Vergangenheit gemacht haben.

Dimension 2: Auftragserteilung – Betrachten Sie die KI als Partner, nicht als Automaten

In dem Bericht von Anthropic wurde eine erstaunliche Entdeckung gemacht: Die häufigste KI-Flüssigkeitsausprägung ist „verstärkt“.

Das bedeutet, dass die Menschen die KI als Plattform für Ideenaustausch nutzen, anstatt einfach alle Aufgaben an die KI zu delegieren. Die Flüssigkeit, die in solchen Gesprächen gezeigt wird, ist mehr als doppelt so hoch wie in kurzen, einhergehenden Gesprächen!

5. Iteration und Verfeinerung – Der stärkste Prädiktor!

Dies ist die wichtigste Metrik im gesamten Bericht! 85,7 % der hochwertigen Gespräche enthalten dieses Verhalten.

Was heißt Iteration? Akzeptieren Sie nicht die erste Antwort der KI!

Niedrigpunktsspieler: Wenn die KI schlecht schreibt, beschimpfen sie sie und starten ein neues Gespräch.

Hochpunktsspieler: „Ihre erste Punkt ist in die richtige Richtung, aber der zweite ist zu akademisch. Behalten Sie den ersten Punkt bei und ersetzen Sie den zweiten durch ein praxisnäheres Beispiel aus dem Alltag, und versuchen Sie es dann erneut.“

6. Aufgabenaufteilung

Versuchen Sie, die KI dazu zu bringen, auf einmal einen 100.000-Wort-Roman zu schreiben?

Nutzer mit hoher Flüssigkeit wissen, wie man große Ziele aufteilt: „Lassen Sie uns zuerst über den Abriss sprechen; okay, jetzt schreiben wir den ersten Teil des ersten Kapitels basierend auf dem Abriss …“

7. Methodenbesprechung

Haben Sie der KI vor dem Handeln gefragt: „Was ist nach Ihrer Meinung der beste Prozess, um dieses Problem zu lösen?“

Lassen Sie die KI zuerst ihren Denkprozess ausgeben und korrigieren Sie ihn dann.

Dimension 3: Unterscheidung – Lassen Sie sich nicht von den schönen Worten der KI täuschen

Mit zunehmender Intelligenz der großen Modelle werden auch ihre Halluzinationen immer realistischer. Die Fähigkeit zur Unterscheidung ist Ihre Rettung in dieser Zeit.

8. Hinterfragen der Argumentation

Wenn die KI ein unintuitives Ergebnis oder komplexen Code liefert, fragen Sie: „Welche Logik liegt hinter diesem Ergebnis?“ oder „Bitte erklären Sie Zeile für Zeile, warum dieser Code so geschrieben ist.“

9. Faktenüberprüfung

Verlangen Sie von der KI, Quellen für die bereitgestellten Daten anzugeben, oder überprüfen Sie die Genauigkeit durch Fragen?

10. Erkennung fehlenden Kontexts

Wenn die von der KI vorgeschlagene Lösung scheinbar perfekt, aber realitätsfremd ist, können Sie scharf bemerken: „Ihre Analyse hat die Tatsache ignoriert, dass unser Unternehmen derzeit nur ein Budget von 10.000 Yuan hat. Bitte bewerten Sie es erneut.“

11. Bewertung des Ergebnisses

Bewerten Sie klar die Ausgabe der KI: „Das von Ihnen verwendete Metapher war sehr präzise, aber die emotionale Verstärkung am Ende war nicht ausreichend. Wir müssen das Ende anpassen.“

Die beängstigendste Erkenntnis: Denkverfall hinter einer schönen Verpackung

In diesem Bericht mit Tausenden von Wörtern ist die Entdeckung des „Artifact Paradox“ am beängstigendsten.

In Gesprächen mit Artefakten (Stichprobengröße: 1.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Umgekehrt wird der Himmel und der Boden umgewälzt. Die KI beginnt, Menschen zu bewerten. Die Bewertungsstandards von Claude werden preisgegeben: Ein ausgezeichneter Mensch bekommt 7,5 Punkte.

Entdeckung aus fast 10.000 anonymen Gesprächen: Was ist „KI-Flüssigkeit“?

11 „Geisterspiegel“: Wo zeigen Sie Ihre Schwächen?

Die beängstigendste Erkenntnis: Denkverfall hinter einer schönen Verpackung