StartseiteArtikel

Anwendungen mit einer einzigen AI-Satzgenerierung: Die Träume sind groß, aber die Realität bleibt hart.

航通社2025-12-01 17:10
Dieser Fall hängt stark von der Intelligenz des Basis-Modells ab.

Im Jahr 2025 ereigneten sich im Bereich Künstliche Intelligenz (KI) viele markante Ereignisse, die alle auf eine Eigenschaft hinweisen: Eingabe eines Satzes, Ausgabe eines Ergebnisses.

Im Bereich der Texterzeugung zeigte uns DeepSeek Anfang des Jahres, was eine erschwingliche und breite nutzbare Form der "One - Shot" - Texterzeugung (mit wenigen oder sogar null Beispielen) ist. Das Canvas - Modus von ChatGPT und anderen kann gezielt lokale Textbearbeitungen vornehmen.

Im Bereich der Bildgenerierung ermöglichen Modelle wie Nano Banana und SeeDream die Erzeugung von Bildern mit wenigen Hinweisen und sogar die Bearbeitung von Bildern per Spracheingabe. Die Bilder können in großer Menge und fast kostenlos generiert werden.

Im Bereich der Videogenerierung gibt Sora 2 Videoclips mit einer abwechslungsreichen Handlung aus, wenn nur ein Satz eingegeben wird.

Im Bereich der Audiobearbeitung hat Suno 4 sich zu einem professionellen Werkzeug entwickelt, das präzise Audiospuren bearbeiten kann.

Der Bedarf an KI - generierter Web - Frontend - und Backend - Programmierung ist in der Branche hoch. Erst mit Gemini 3 ist die Zeit der "Eingabe eines Satzes, Ausgabe einer lauffähigen Web - App" endlich für alle erschwinglich geworden.

Hier sei eine kontroverse Meinung geäußert: Wer über Programmierkenntnisse verfügt, kann entweder Claude (wenn er es sich leisten kann) oder Gemini (wenn er sparsam sein möchte) nutzen. Es gibt zahlreiche Möglichkeiten, Google One kostenlos oder zu günstigen Konditionen zu nutzen. Die meisten Anforderungen an Gemini, insbesondere die "Eingabe - eines - Satzes" - Anforderungen, können über das Chatfenster und nicht unbedingt über die API gelöst werden.

Das Prompt - Engineering stirbt langsam ab, und die natürliche Sprache dominiert alles. Wenn die Fähigkeiten eines Modells ausreichen, können die früher so wichtigen Prompt - Techniken und komplexen Engineering - Ansätze vernachlässigt werden. Wie Manus sagte: "Weniger Struktur, mehr Intelligenz".

Warum betonen wir das "Eingabe - eines - Satzes"?

Unterschätzen Sie nie die psychologische Suggestion, die ein einzelner Satz vermittelt.

Beim Testen von Nano Banana 2 stellte ich fest, dass die meisten Beispiele im Internet die bestehenden Weltwissen des Modells nutzen, um Informationen in Form von Bildern zu generieren, wie z. B. "Generiere ein Bild, das den Arbeitsablauf einer Kaffeemaschine erklärt".

Nachdem viele Beispiele, in denen alles mit "nur einem Satz" möglich war, im Netz viral wurden, wurde nicht die technische Schwelle, sondern die psychologische Schwelle gesenkt. In vielen Branchen verfügen Experten, die wenig Erfahrung mit KI haben, über tiefgreifendes Fachwissen. Früher wurden sie durch Code daran gehindert, KI zu nutzen. Selbst wenn die Nutzung tatsächlich einfach ist, war es für sie schwierig, sich zu überwinden.

Jetzt gibt ihnen das "nur ein Satz" den Mut, einen Schritt vorwärts zu machen. Wenn sie KI nutzen, verwenden sie möglicherweise andere Methoden als die Hauptstrom - Nutzer. Sie müssen selbst experimentieren, um ihre eigenen Nutzungsmethoden zu entwickeln, selbst wenn jemand sie schulen würde, wäre das Ergebnis nicht so gut. Alles, was sie brauchen, ist Mut.

Dieser Prozess hängt stark von der Intelligenz des Basis - Modells ab

Das Erstellen von Anwendungen mit nur einem Satz gibt mir den Mut, auch als Schüler mit nur 30 Punkten in Mathe im Abitur programmieren zu können.

Vor der Veröffentlichung von Gemini 3 waren einige Modelle von Claude als stark in der Programmierung bekannt. Ich konnte jedoch nie direkt auf Claude Code zugreifen und nutzte es über Manus. Ich habe sogar über 10.000 Punkte ausgegeben, um meine persönliche Website zu erneuern.

Mein direkter Eindruck war: Mehrfache Änderungen der Anforderungen verbrauchen extrem viele Token, und sobald das Modell "dumm wird", ist es unbrauchbar. Deshalb musste ich geduldig mit dem hochwertigen Inferenzmodell arbeiten.

Ich habe einige Ein - Seite - WebApp - Beispiele von Gemini 3 gesehen, und sie sind wirklich beeindruckend. Es scheint, dass die Nutzbarkeit von Gemini 3 mindestens so gut wie die von Claude ist, wenn nicht sogar besser. Dies gibt mir mehr Vertrauen, dass ich die Qualität meiner Produkte besser kontrollieren kann, auch wenn ich noch keine speziellen Tests mit Gemini 3 durchgeführt habe. Ich glaube, dass Gemini 3 alles tun kann, was ich zuvor Manus lassen habe.

Ich habe jedoch die neue Produkt "Lingguang" von Ant Group getestet, da sie einen Wettbewerb für die Erzeugung von KI - Anwendungen mit nur einem Satz veranstaltet. Lingguang nennt diese WebApps "Flash - Anwendungen".

Die Frontend - und Engineering - Fähigkeiten von Ant Group sind unbestritten. Ich habe gesehen, dass der Inferenzprozess elegant in einem Rahmen dargestellt wird, und die Denkweise ist weder langwierig noch kann man den Fortschritt verfolgen. Leider scheint die Qualität des Endprodukts immer noch von der Intelligenz des Modells selbst abzuhängen.

Die Flash - Anwendung, die ich erstellen wollte, war eine "Flash - Anwendung, die Prompts für andere Flash - Anwendungen erzeugt", also eine "Meta - Anwendung". Ich wollte es in einer spielerischen Art und Weise umsetzen. Zuerst plante ich, einen Casino - Würfel - Simulator zu erstellen, der eine Karte mit einem Prompt erzeugt. Wenn man darauf klickt, kann man den Prompt kopieren und in Lingguang einfügen, um eine neue Flash - Anwendung zu generieren.

Um sicherzustellen, dass alles funktioniert, habe ich Gemini 3, das selbst eine starke Texterzeugungsfähigkeit hat, bitten lassen, meine Anforderungen zu verstehen und die Prompts zu optimieren. Ich habe alle Aspekte genau definiert.

In der ersten Version reagierte der Würfel selbst nicht auf Klicks, nur die sechs Buttons darunter.

Das Pop - up - Fenster erschien beim ersten Klick nicht. Seltsamerweise musste man zuerst auf das "Fragezeichen" klicken, um die Bedienungsanleitung anzuzeigen. Erst nach dem Schließen der Anleitung und einer Sekunde Wartezeit erschien das eigentliche Pop - up - Fenster.

Außerdem waren die Namen der Ideen in dieser Version dieselben wie die Beschriftungen der Buttons. Wenn man z. B. auf "Gesundheits - Runde" klickte, erschien "Gesundheits - Roulette", was nicht das war, was ich wollte.

Bei der ersten Testphase sah das Ergebnis grob richtig aus. Das Problem lag jedoch in der Änderungsphase. Ich habe festgestellt, dass das Modell nach mehr als drei Runden des Dialogs den Kontext verliert und vergisst, was ich ursprünglich mit dieser "Flash - Anwendung" erreichen wollte. Beispielsweise habe ich es zuerst gebeten, das Problem der unrealistischen Würfel und Chips zu lösen, aber am Ende hat es daraus ein reines Zahlen - Ratespiel gemacht.

Um dieses Problem zu lösen, habe ich versucht, alle Anforderungen auf einmal in den Prompt zu schreiben. Dies führte jedoch zu einem Informationsüberlastungsproblem und der Generierung fehlgeschlagen. Das endgültige Ergebnis zeigte auch, dass das Modell die natürliche Sprache nicht gut versteht. Ich war so wütend, dass ich die Chat - Historie gelöscht habe und habe sogar vergessen, dass ich noch einen Artikel schreiben musste 😂

Da der Kartentisch möglicherweise zu komplex war, habe ich es stattdessen gebeten, eine Püppchenmaschine zu erstellen, was für Gemini 3 normalerweise kein Problem ist. Aber auch hier war der Prozess holprig.

Die Chat - Historie habe ich behalten, und Sie können sie sich ansehen:

Ab hier ging es downhill:

Ich habe die vorherige Anweisung direkt geändert, aber das Ergebnis war völlig unbrauchbar:

Schließlich habe ich es nur noch gebeten, die Kernfunktion - die Optimierung der Prompts - zu implementieren, und die Anforderungen über ein Eingabefeld einzugeben. So habe ich endlich mein Ziel erreicht, aber das Ergebnis war auch zu einfach.