Open-Source-Modell mit 9,3 Milliarden Parametern übertrifft 80-Milliarden-Parameter-Modelle und behebt Midjourney-Schwächen blitzschnell

Das Open-Source-Modell Ideogram 4.0 löst das Problem der schwierigen Texterstellung in KI-generierten Bildern

Wenn Sie schon einmal KI-generierte Bilder erstellt haben, sollten Sie diese ganz besondere Form des Zusammenbruchs kennen.

Volle Erwartungen heben Sie ein: "Bitte erstellen Sie mir eine Werbeplakat für eine Veranstaltung. Der Titel soll lauten: 'Sommer-Sonderangebot - 50% Rabatt auf alles!'". Nur wenige Sekunden später präsentiert Ihnen die KI ein Bild. Die Komposition ist perfekt, das Licht und der Schatten sind ausgezeichnet, und die Farbpalette wirkt so edel, als hätte ein renommiertes 4A-Werbebüro 200.000 Yuan in die Gestaltung investiert.

Aber wenn Sie das Bild genauer betrachten, sehen Sie, dass die Schrift so aussieht: "Xia Yue Da Zu, Quan Tu Wu Xi."

Entweder sind Wörter falsch geschrieben oder Buchstaben fehlen. Oder es ist einfach nur eine Folge von Zeichen, die Sie nicht identifizieren können.

Lacht nur! Das hat nichts mit schlechter Laune zu tun. Dies ist ein seit über drei Jahren andauerndes Problem in der gesamten Branche der KI-gestützten Bildgenerierung: Die Bilder sehen fantastisch aus, aber die Texte sind ein Desaster. Egal, ob Sie Midjourney oder Stable Diffusion verwenden, das Ergebnis bei Bildern mit Texten ist in der Regel ähnlich.

Heute hat eine kanadische Firma namens Ideogram ein Open-Source-Modell namens Ideogram 4.0 mit 9,3 Milliarden Parametern vorgestellt. Bei der Textwiedergabe, einem langjährigen Schmerzpunkt in der Branche, hat es etwas getan, das alle überrascht hat.

*Screenshot der offiziellen Website

Drei Jahre lang zeichnen, und man kann noch nicht einmal "STOP" richtig schreiben

Sie mögen sich fragen: Sind Texte nicht einfach nur eine Anordnung von Strichen? Ist es nicht viel schwieriger, ein Gesicht zu zeichnen als einen Text? Die KI kann Gesichter mit jedem einzelnen Poren zeichnen. Warum hat sie dann Schwierigkeiten mit vier Buchstaben?

Tatsächlich ist das nicht das Gleiche.

Die gängigsten KI-gestützten Bildgenerierungsmodelle wie Stable Diffusion, Midjourney und DALL-E haben zwei "Hirnregionen": Eine für die Textverstehen, den Text-Encoder, und eine für das Zeichnen, den Bildgenerator. Die Kommunikation zwischen diesen beiden Teilen erfolgt über "Cross-Attention".

In einfachen Worten ausgedrückt: Sie geben einen Text ein, der Encoder übersetzt ihn in eine "interne Sprache" und leitet diese Information an den Bildgenerator weiter. Das Problem liegt in der Übertragungsphase, in der Informationen verloren gehen können.

Stellen Sie sich vor, Sie lassen jemandem ein Schild mit dem Wort "STOP" zeigen und bitten ihn, es einem anderen zu beschreiben, damit dieser es zeichnen kann. Das Ergebnis könnte sein, dass das gezeichnete "STOP" eher wie "SOTP" aussieht. Das ist der Informationsverlust bei der Übertragung.

Herkömmliche Text-Encoder wie CLIP und T5 haben ihre Fähigkeiten im Wesentlichen durch "Beschreibung von Bildern" erlernt. Sie sind gut darin, zu verstehen, "was auf einem Bild zu sehen ist", aber nicht darin, "wie ein Buchstabe aussieht". Für sie ist ein Buchstabe nicht anderes als die Textur eines Blatts. Beides sind nur Muster.

Deshalb hat Midjourney trotz dreijähriger Entwicklung und sieben großen Versionen immer noch nur eine Textgenauigkeit von etwa 40%. Es ist nicht, dass es es nicht will, sondern die zugrunde liegende Architektur macht es einfach schwierig, dies zu verbessern.

Was macht Ideogram dann? Es hat beschlossen, die Übertragungsphase zu umgehen und stattdessen Text und Bild gleichzeitig zu generieren.

*Selbst erstelltes Bild

Wie schlägt ein kleines Modell mit 9,3 Milliarden Parametern ein Gigant mit 80 Milliarden Parametern?

Schauen wir uns zunächst eine überraschende Statistik an.

Ideogram 4.0 hat nur 9,3 Milliarden Parameter. Im Vergleich dazu hat FLUX.2 32 Milliarden und das von Tencent entwickelte Hunyuan Image 3.0 sogar 80 Milliarden Parameter. Dennoch übertrifft Ideogram beide Modelle bei der Textwiedergabe.

Wie gelingt es Ideogram? Ein Blick in die technischen Dokumente auf GitHub zeigt, dass das Geheimnis in drei Worten liegt: Den unbequemen Pfad gehen.

Der erste unkonventionelle Ansatz ist die "Single-Stream DiT-Architektur".

Die herkömmliche Methode verwendet einen Zwei-Strom-Ansatz: Ein Kanal für den Text und ein anderer für das Bild, die über Cross-Attention miteinander verbunden sind. Ideograms Single-Stream-Architektur hingegen kombiniert Text-Token und Bild-Token zu einer einzigen Sequenz und verarbeitet diese in einem 34-Schichten-Transformer.

Was bedeutet das? In Ideograms "Gehirn" wird der Text nicht als externe Information behandelt, die erst übersetzt werden muss. Stattdessen werden Text, Pixel, Farben und Komposition zusammen als "ursprüngliche Bestandteile" des Bildes betrachtet.

Es ist wie wenn jemand gleichzeitig schreiben und zeichnen kann. Nicht wie wenn jemand schreibt und ein anderer die Schriften zeichnet.

Der zweite unkonventionelle Ansatz betrifft den Text-Encoder. Anstatt CLIP oder T5 zu verwenden, nutzt Ideogram Qwen3-VL, ein echtes visuelle Sprachmodell. Dieses Modell kann nicht nur "Bilder beschreiben", sondern auch "sie verstehen". Darüber hinaus extrahiert es Merkmale nicht nur aus einer Ebene, sondern aus 13 Zwischenschichten, was gleichbedeutend ist mit einer Analyse von "Überblick" bis "Detail".

Der dritte unkonventionelle Ansatz ist noch radikaler.

Ideogram wird nicht auf "Bildern mit Beschreibungen" trainiert, sondern auf strukturierten JSON-Annotationen. Jedes Trainingsbild hat detaillierte Annotationen: Wo sich der Titel befindet, welche Schriftart der Haupttext hat und welche Farbe der Hintergrund hat.

Das bedeutet, dass das Modell nicht nur lernt, "ein Bild mit Text zu zeichnen", sondern auch die "Layoutlogik zu verstehen".

Wie ist das Ergebnis? ContraLabs hat eine Blindtest-Rangliste für Textwiedergabe erstellt, bei der echte Designer die Modelle bewerten.

Beachten Sie, dass dies ein Test speziell für die Layoutqualität ist, an dem echte Designer teilnehmen. Es ist kein Abstimmung von Enthusiasten oder eine Bewertung in der Community, sondern eine Entscheidung von professionellen Benutzern.

*Screenshot der Blindtest-Rangliste von ContraLabs für Textwiedergabe

Aber Ideogram ist nicht nur gut in der Textwiedergabe.

Mit einer nativen Auflösung von 2K, der Unterstützung von 6:1 Ultrabreitbildern, der Kontrolle der Farbpalette und der JSON-strukturierten Eingabe bietet Ideogram folgende Möglichkeiten:

Sie können es nicht nur für Plakate und Logos verwenden, sondern auch für horizontale Titelbilder, vertikale Mobilhintergründe, und sogar die Farben können Sie exakt festlegen.

Wir können es nicht nur "Zeichnen" nennen. Es ist eher wie "das Liefern eines Designentwurfs".

Wen trifft das Open-Source-Modell?

Sie mögen sich jetzt fragen: Das ist technisch beeindruckend, aber was hat das mit mir zu tun?

Hier kommt das Wichtige: Ideogram 4.0 ist Open-Source. Genauer gesagt, es ist "Open-Weight", was bedeutet, dass Sie es auf Ihrem eigenen Computer ausführen, es mit Ihren eigenen Daten anpassen und es in Ihre eigenen Produkte integrieren können.

Natürlich gibt es eine Bedingung: Für kommerzielle Nutzung müssen Sie eine Lizenz erwerben.

Klingt auf den ersten Blick wie "kommerzielle Nutzung hinter dem Vorwand von Open-Source", oder? Aber eigentlich ist dies der cleverste Schachzug von Ideogram.

Betrachten Sie die letzten Jahre der KI-gestützten Bildgenerierung. Es haben sich drei Strategien herausgebildet: Stable Diffusions "Open-Source-Strategie", die auf die Ökosystementwicklung setzt, ist mit SD3 gescheitert, und sogar der Gründer hat das Unternehmen verlassen. Midjourneys "Closed-Source-Strategie", die auf Qualität setzt, hat Geld eingefahren, aber die Benutzer sind in Discord gefangen. Die von großen Unternehmen wie GPT-Image und Imagen verfolgte "Paket-Strategie" bietet zwar technologisch leistungsstarke Lösungen, ist aber teuer.

Ideogram hat sich für einen vierten Weg entschieden: Die Gewichte sind kostenlos nutzbar, die kommerzielle Nutzung wird später geregelt. Der Vorteil dieser Strategie ist, dass das Ökosystem in kürzester Zeit aufgebaut werden kann.

Und tatsächlich: Innerhalb von 24 Stunden nach der Veröffentlichung haben mehr als 14 Plattformen wie HuggingFace, ComfyUI, Replicate, Leonardo AI, Krea AI, Picsart und Cloudflare die Integration von Ideogram 4.0 angekündigt.

Das bedeutet, dass Designer ihre gewohnten Tools wie ComfyUI oder Krea weiterhin nutzen können, um Ideogram 4.0 zu verwenden. Im Vergleich dazu ist Midjourney noch immer an Discord gebunden.

Übrigens, die API-Preise sind auch sehr attraktiv: 0,03 US-Dollar pro Bild im Schnellmodus und 0,1 US-Dollar pro Bild in der höchsten Qualität. Mit weniger als einem Yuan können Sie ein direkt verwendbares Plakat generieren.

*Vergleich der Parameter-Effizienz von Open-Source-Bildgenerierungsmodellen

Jetzt die Frage: Wer ist jetzt besorgt?

Zunächst einmal Midjourney. Die Textwiedergabe war immer sein Schwachpunkt, aber solange alle Modelle Probleme hatten, konnte es sagen, "Das ist einfach so bei KI-gestützten Bildern". Jetzt hat Ideogram einen deutlichen Vorsprung, und dieser Ausweg existiert nicht mehr. Insbesondere in kommerziellen Designbereichen wie Plakaten, Logos, Titelbildern und Social-Media-Materialien ist Text ein Muss, und Midjourney wird in diesem Bereich stark beeinträchtigt.

Designer hingegen brauchen sich nicht zu sehr zu sorgen. Selbst wenn die Tools sehr leistungsstark sind, müssen Sie wissen, wo "50% Rabatt" am besten platziert ist, welche Schriftart am besten passt und wie die Farbpalette gewählt werden sollte. Diese Entscheidungen sind derzeit noch menschliche Aufgabe.

Diejenigen, die tatsächlich von Ideogram betroffen sein könnten, sind Template-Tools wie Canva und Gaoding Design. Wenn die KI präzise Designentwürfe mit Text generieren kann, wie viel Sinn haben dann noch Hunderten von Vorlagen?

Allerdings müssen wir auch ehrlich sein. Die Qualität der chinesischen Textwiedergabe von Ideogram 4.0 ist noch unklar, da die Tests hauptsächlich auf Englisch basieren. Und seine "Open-Source"-Nutzung ist eingeschränkt: Nicht-kommerzielle Nutzung ist kostenlos, aber für kommerzielle Nutzung muss eine Lizenz erworben werden. Dies unterscheidet sich von echten Open-Source-Modellen wie Stable Diffusion, die uneingeschränkt kommerziell genutzt werden können.

Nach der Textwiedergabe: Der nächste Kampfplatz

Das eigentliche Interesse an Ideogram 4.0 liegt nicht darin, "ein weiteres Open-Source-Modell" zu haben. Es hat bewiesen, dass das bisher am stärksten unterschätzte Problem der KI-gestützten Bildgenerierung, die Textwiedergabe, durch architektonische Innovationen behoben werden kann, ohne immer größere Modelle zu trainieren.

Aber dies ist nicht das Ende.

Nach der Verbesserung der Textwiedergabe gibt es noch einige offene Fragen in der KI-gestützten Bildgenerierung.

Das erste Problem ist die Charakter-Konsistenz. Wenn Sie zehn Bilder eines Protagonisten generieren, sehen alle Gesichter unterschiedlich aus. Obwohl es in diesem Bereich Fortschritte gibt, ist noch kein Modell in der Lage, dieses Problem vollständig zu lösen. Selbst für eine kontinuierliche Produktdarstellung ist es noch eine Glückssache.

Das zweite Problem ist die feine Bearbeitung. Wenn Sie sagen, "Ändern Sie den Titel in Grün", ignorieren die meisten Modelle Sie oder zeichnen das gesamte Bild von neuem. Die gute Nachricht ist, dass Ideogram bereits angekündigt hat, dass die Funktion für die bearbeitbaren Texte und Ebenen bald verfügbar sein wird. Wenn dies wirklich geschieht, wäre es das "Photoshop der KI".

Das dritte Problem ist die Unterstützung von chinesischen Texten. Ja, das ist für uns besonders wichtig. Die weltweit führenden Bildgenerierungsmodelle haben derzeit fast keine Unterstützung für chinesische Texte. Dies ist eine Gelegenheit für chinesische Modelle wie Tongyi Wanxiang und Jimeng AI.

Allerdings wird das Zeitfenster für die Verbesserung der Textwiedergabe nicht lange sein. Midjourney V8 testet bereits Verbesserungen bei der Textwiedergabe, und FLUX folgt dicht hinterher. Wir können davon ausgehen, dass "die KI kann schreiben" innerhalb von 6 bis 12 Monaten von einem Differenzierungsfaktor zu einem Standardmerkmal werden wird.

Ab dann wird es darum gehen, "wer designen kann", nicht mehr "wer schreiben kann".

*Rangliste der Open-Source-Bildgenerierungsmodelle auf Design Arena

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein Open-Source-Modell mit 9,3 Milliarden Parametern übertrifft Modelle mit 80 Milliarden Parametern und behebt blitzschnell die Schwächen von Midjourney.

Drei Jahre lang zeichnen, und man kann noch nicht einmal "STOP" richtig schreiben

Wie schlägt ein kleines Modell mit 9,3 Milliarden Parametern ein Gigant mit 80 Milliarden Parametern?

Wen trifft das Open-Source-Modell?

Nach der Textwiedergabe: Der nächste Kampfplatz