1500 wissenschaftliche Artikel über Prompt Engineering zeigen, dass alles, was du weißt, falsch ist.
Die Unternehmen, die ein Jahreseinkommen von über 50 Millionen US - Dollar erzielen, tun genau das Gegenteil von dem, was man üblicherweise lehrt. Nach sechsmonatiger eingehender Forschung, dem Lesen von über 1500 Artikeln und der Analyse der Technologien, die tatsächlich die Geschäftsergebnisse vorantreiben, bin ich zu einer beunruhigenden Schlussfolgerung gekommen: Die meisten Tipps für Prompt - Engineering, die in Online - Communities kursieren, sind nicht nur nutzlos, sondern auch kontraproduktiv.
Die Unternehmen, deren Jahreseinkommen (ARR) über 50 Millionen US - Dollar beträgt, folgen nicht den in den sozialen Medien vorherrschenden „Best Practices“. Sie setzen systematisch das Gegenteil der herkömmlichen Meinung um. Es besteht eine enorme Kluft zwischen dem, was gut klingt, und dem, was tatsächlich funktioniert.
Es geht hier nicht nur um akademisches Interesse. Das Verständnis, was in der Prompt - Engineering wirklich funktioniert und was in Konferenzvorträgen gut klingt, kann entscheiden, welche KI - Funktionen die Nutzer zufriedenstellen und welche das Budget verschwenden, ohne Wert zu schaffen.
Nach der Analyse von Hunderten von Forschungsartikeln und realen Umsetzungen habe ich sechs weit verbreitete Irrtümer entdeckt, die Teams in die Irre führen, während erfolgreiche Unternehmen realistische, von Forschung gestützte Ansätze verfolgen.
Die Studie, die alles verändert
Bevor wir uns mit den konkreten Irrtümern befassen, ist es wichtig zu verstehen, warum das herkömmliche Wissen in der Prompt - Engineering oft falsch ist. Die meisten Tipps stammen aus frühen Experimenten mit weniger leistungsfähigen Modellen, aus Anekdoten aus kleinen Tests oder aus theoretischen Rahmenwerken, die die Komplexität der Produktionsumgebung nicht berücksichtigen.
Im Gegensatz dazu beinhaltet die akademische Forschung kontrollierte Experimente mit großen Datensätzen, systematische Vergleiche verschiedener Modellarchitekturen und strenge statistische Analysen darüber, welche Methoden tatsächlich die Leistung verbessern und nicht nur auf Intuition beruhen. Ein Forscher, der viele Artikel über schnelle Optimierung veröffentlicht hat, sagte mir: „Im Bereich der Künstlichen Intelligenz besteht eine enorme Kluft zwischen dem, was klug erscheint, und dem, was tatsächlich funktioniert. Menschen treffen Entscheidungen auf der Grundlage von Intuition, nicht von Beweisen.“
Die sechs von mir gefundenen Irrtümer repräsentieren die größten Kluft zwischen populären Tipps und empirischen Beweisen.
Irrtum 1: Je länger und detaillierter der Prompt, desto besser das Ergebnis
Der am weitesten verbreitete Irrtum in der Prompt - Engineering ist, dass je detaillierter und länger der Prompt ist, desto besser das Ergebnis. Diese Intuition ist sinnvoll – wenn Sie einem Menschen um Hilfe bitten, führt die Bereitstellung von mehr Hintergrundinformationen und konkreten Anweisungen normalerweise zu besseren Ergebnissen.
Aber KI - Modelle funktionieren anders als Menschen. Studien zeigen übereinstimmend, dass gut strukturierte kurze Prompts in der Regel besser funktionieren als lange und gleichzeitig die Kosten erheblich senken können.
Eine kürzlich durchgeführte Studie, die die Länge von Prompts für verschiedene Aufgabenarten verglich, ergab, dass strukturierte kurze Prompts die API - Kosten um 76 % senkten, während die Qualität der Ausgabe gleich blieb. Der Schlüssel liegt in der Struktur, nicht in der Länge.
Zu lange Prompts können tatsächlich die Leistung verschlechtern, da sie Rauschen einführen, widersprüchliche Anweisungen erzeugen oder wichtige Kontexte aus dem Fokus des Modells drängen. Die effektivsten Prompts sind präzise und knapp formuliert.
Die Realität: Die Struktur ist wichtiger als die Länge. Ein gut strukturierter Titel mit 50 Wörtern funktioniert in der Regel besser als ein langatmiger Titel mit 500 Wörtern und ist auch erheblich kostengünstiger in der Ausführung.
Irrtum 2: Mehr Beispiele helfen immer (Few - Shot - Prompting)
Das Few - Shot - Prompting (das Bereitstellen von Beispielen für gewünschte Eingabe - Ausgabe - Paare) wurde in der frühen Entwicklung von großen Sprachmodellen populär, da die damaligen Demos die Leistung der Modelle erheblich verbesserten. Dies führte zu der Annahme, dass je mehr Beispiele, desto besser das Ergebnis.
Neuere Studien zeigen, dass diese Annahme nicht nur falsch ist, sondern auch für fortschrittliche Modelle wie GPT - 4 und Claude schädlich sein kann.
Moderne Modelle sind komplex genug, um Anweisungen ohne viele Beispiele zu verstehen. Das Bereitstellen unnötiger Beispiele kann das Modell tatsächlich verwirren oder es zu Mustern neigen lassen, die sich nicht gut auf neue Eingaben übertragen lassen.
Die Realität: Fortgeschrittene Modelle wie OpenAI's o1 funktionieren tatsächlich schlechter, wenn Beispiele eingegeben werden. Sie sind komplex genug, um direkte Anweisungen zu verstehen, und Beispiele können unnötige Verzerrungen oder Rauschen einführen.
Irrtum 3: Die perfekte Formulierung ist am wichtigsten
Einer der zeitaufwändigsten Aspekte der Prompt - Engineering ist die Formulierung – das sorgfältige Finden der perfekten Worte, das Anpassen des Tonfalls und die Optimierung der Wortwahl. Viele Teams verbringen Stunden damit, zu diskutieren, ob man „bitte“ verwenden sollte oder ein bestimmter Begriff.
Studien zeigen, dass diese Bemühungen größtenteils fehlgeleitet sind. Das Format und die Struktur des Prompts sind weitaus wichtiger als die konkret verwendeten Wörter.
Insbesondere für das Claude - Modell führt das XML - Format im Vergleich zum natürlichen Sprachformat unabhängig vom konkreten Inhalt immer zu einer 15 %igen Leistungssteigerung. Dieser Formatvorteil ist oft wertvoller als eine sorgfältige Optimierung der Wortwahl.
Die Realität: Das Format ist wichtiger als der Inhalt. XML - Tags, klare Trennzeichen und strukturierte Formate bringen stetige Verbesserungen, die wichtiger sind als die perfekte Formulierung.
Irrtum 4: Chain - of - Thought funktioniert für alles
Das Chain - of - Thought - Prompting (das Anfordern, dass das Modell „schrittweise nachdenkt“) wurde äußerst populär, nachdem Studien eine erhebliche Verbesserung bei mathematischen Schlussfolgertasks gezeigt hatten. Dieser Erfolg führte zu seiner breiten Anwendung auf alle Arten von Problemen.
Aber das Chain - of - Thought - Prompting ist keine allumfassende Lösung. Es funktioniert gut für mathematische und logische Schlussfolgertasks, hat aber für viele andere Anwendungen nur geringe Wirkung und kann tatsächlich die Leistung bei bestimmten Tasks verschlechtern.
Insbesondere für Datenanalyseaufgaben zeigt die Forschung, dass die Table - Chain - Methode (das Aufbauen von Schlüsselelementen um Tabellendaten herum) die Leistung um 8,69 % verbessert im Vergleich zur herkömmlichen Chain - of - Thought - Methode.
Die Realität: Chain - of - Thought ist auf bestimmte Aufgaben zugeschnitten. Es ist gut für Mathematik und Logik, aber spezialisierte Methoden wie Table - Chain eignen sich besser für Datenanalyseaufgaben.
Irrtum 5: Menschliche Experten schreiben die besten Prompts
Die Annahme, dass menschliche Experten die besten Prompt - Engineer sind, ist intuitiv sinnvoll. Menschen können Kontext, Feinheiten und die Anforderungen eines bestimmten Bereichs verstehen, und es scheint, dass dies nicht durch Automatisierung erreicht werden kann.
Neuere Studien über die automatische Prompt - Optimierung zeigen, dass diese Annahme falsch ist. KI - Systeme können Prompts effizienter und deutlich schneller optimieren als menschliche Experten.
Studien, die menschliche Prompt - Engineer mit automatischen Optimierungssystemen verglichen haben, haben festgestellt, dass KI - Systeme kontinuierlich bessere Prompts generieren können und dies in nur 10 Minuten, während Menschen 20 Stunden benötigen.
Die Realität: Künstliche Intelligenz kann Prompts in kürzester Zeit besser optimieren als Menschen. Das menschliche Fachwissen sollte eher für die Definition von Zielen und die Bewertung der Ergebnisse eingesetzt werden, als für die sorgfältige Gestaltung von Prompts.
Irrtum 6: Set it and forget it
Vielleicht der gefährlichste Irrtum ist, dass die Prompt - Engineering nur eine einmalige Optimierungsaufgabe ist. Teams investieren Zeit und Energie in die Erstellung von Prompts, setzen sie in die Produktionsumgebung ein und nehmen an, dass sie immer in optimaler Form bleiben werden.
Die tatsächlichen Daten zeigen, dass die Leistung von Prompts im Laufe der Zeit abnimmt, wenn sich die Modelle, die Datenverteilung und das Benutzerverhalten ändern. Die Unternehmen, die mit KI - Funktionen dauerhaft erfolgreich sind, betrachten die Prompt - Optimierung als einen kontinuierlichen Prozess, nicht als eine einmalige Aufgabe.
Studien zur kontinuierlichen Prompt - Optimierung zeigen, dass ein systematisches Verbesserungsverfahren im Vergleich zu statischen Prompts die Leistung innerhalb von 12 Monaten um 156 % verbessern kann.
Die Realität: Kontinuierliche Optimierung ist entscheidend. Mit einem systemischen Verbesserungsverfahren steigt die Leistung im Laufe der Zeit erheblich.
Was Unternehmen mit einem ARR von über 50 Millionen US - Dollar tatsächlich tun
Die Unternehmen, die skalierbare, hochverdächtige KI - Funktionen entwickeln, folgen nicht den Empfehlungen aus den sozialen Medien. Sie verfolgen völlig andere Strategien:
Sie optimieren Geschäftskennzahlen, nicht Modellkennzahlen. Sie konzentrieren sich nicht auf technische Leistungskennzahlen, sondern auf die Benutzerzufriedenheit, die Task - Abschlussrate und die Einnahmeauswirkungen.
Sie automatisieren die Prompt - Optimierung. Anstatt manuell Prompts zu iterieren, verwenden sie ein systematisches Verfahren, um die Leistung der Prompts ständig zu testen und zu verbessern.
Sie bauen alles auf. Format, Organisation und klare Trennzeichen sind wichtiger als geschickte Formulierungen oder lange Beispiele.
Sie entwickeln spezielle Techniken für die Aufgabenart. Sie wenden nicht Chain - of - Thought auf alle Probleme an, sondern passen die Optimierungstechniken an die konkrete Problemart an.
Sie betrachten Prompts als Produkte. Genau wie jede andere Produktfunktion müssen Prompts auf der Grundlage echter Benutzerdaten ständig gewartet, verbessert und optimiert werden.
Die methodische Kluft
Diese Irrtümer halten an, weil es eine grundlegende methodische Kluft zwischen akademischer Forschung und Branchenpraxis gibt. Akademische Forscher führen kontrollierte Experimente mit angemessenen Baseline - Messungen, statistischen Signifikanztests und systematischer Bewertung auf mehreren Modellarchitekturen durch.
Branchenpraktiker verlassen sich in der Regel auf Intuition, kleine A/B - Tests oder Anekdoten aus bestimmten Anwendungsfällen. Dies bildet einen Feedback - Zyklus, in dem ineffektive Techniken verstärkt werden, weil sie richtig erscheinen, nicht weil sie dauerhaft effektiv sind.
„Das größte Problem bei der Anwendung von Künstlicher Intelligenz ist, dass Menschen sich auf das konzentrieren, was sinnvoll erscheint, nicht auf das, was tatsächlich funktioniert“, erklärte mir ein Machine - Learning - Ingenieur eines großen Technologieunternehmens. „Die Forschung liefert die grundlegenden Fakten, die die Intuition oft übersieht.“
Praktische Auswirkungen
Das Verständnis dieser Forschungsergebnisse hat unmittelbare praktische Auswirkungen für alle, die KI - Funktionen entwickeln:
Beginnen Sie mit der Struktur, nicht mit dem Inhalt. Nehmen Sie sich Zeit, das Format und die Organisation zu strukturieren, bevor Sie sich um die Formulierung kümmern.
Automatisieren Sie die Optimierung frühzeitig. Bauen Sie Systeme, um Prompts systemisch zu testen und zu verbessern, anstatt auf manuelle Iterationen zu vertrauen.
Passen Sie die Techniken an die Aufgabenart an. Verwenden Sie Chain - of - Thought für mathematische Schlussfolgerungen, Table - Chain für Datenanalyse und direkte Anweisungen für die meisten anderen Anwendungen.
Messen Sie die Geschäftswirkung. Verfolgen Sie die Kennzahlen, die für Ihre Benutzer und Ihr Geschäft wichtig sind, nicht abstrakte Modellleistungsscores.
Entwickeln Sie einen Plan für kontinuierliche Verbesserungen. Integrieren Sie die schnelle Optimierung in den kontinuierlichen Entwicklungsprozess, anstatt sie als eine einmalige Aufgabe zu betrachten.
Wettbewerbsvorteil
Die Unternehmen, die die Prompt - Engineering auf der Grundlage von Forschung und nicht von herkömmlichen Vorstellungen gestalten, werden einen erheblichen Wettbewerbsvorteil haben:
Sie erreichen eine höhere Leistung bei geringeren Kosten. Sie bauen robusteres, kontinuierlich verbesserte Systeme. Sie vermeiden die Sackgassen, in die Teams geraten, die populären, aber ineffektiven Empfehlungen folgen.
Am wichtigsten ist, dass sie das menschliche Fachwissen auf hochwertige Aktivitäten wie die Definition von Zielen und die Bewertung der Ergebnisse konzentrieren können, anstatt es für die manuelle Erstellung von Prompts zu verwenden.
Die Fragen, die jedes Team stellen sollte
Stellen Sie nicht die Frage: „Wie können wir bessere Prompts schreiben?“, sondern: „Wie können wir unsere KI - Interaktionen auf der Grundlage von empirischen Beweisen systemisch optimieren?“
Dieser Perspektivwechsel bringt Sie von der Verfolgung von Trends zu der Verfolgung von Daten. Es ermöglicht es Ihrem Team, wirklich skalierbare KI - Funktionen zu entwickeln, nicht solche, die in Demos gut klingen, aber keinen nachhaltigen Wert bieten.
Welche Annahmen hat Ihr Team in Bezug auf die Prompt - Engineering auf der Grundlage von herkömmlichen Vorstellungen und nicht von Forschungsergebnissen? Wie können Sie diese Annahmen hinterfragen, um die Leistung zu verbessern und die Kosten zu senken?,
Die Unternehmen, die in der KI - Branche erfolgreich sind, sind nicht diejenigen, die den lautesten Stimmen in den sozialen Medien folgen. Sie werden diejenigen sein, die den Beweisen folgen, auch wenn diese der Mehrheitsmeinung widersprechen. Die Forschungsergebnisse sind eindeutig. Die Frage ist, ob Sie bereit sind, die Mythen zu ignorieren und dem, was wirklich funktioniert, zu folgen.
Dieser Artikel stammt aus dem WeChat - Account „Data -,Driven Intelligence“ (ID: Data_0101), geschrieben von Xiaoxiao und mit Genehmigung von 36Kr veröffentlicht.