StartseiteArtikel

Innerhalb eines halben Monats zweimal weltweit an der Spitze: Ein chinesisches Startup hat im Bereich der KI-Bildgenerierung für Aufsehen gesorgt

机器之心2026-06-11 11:13
Zhi Xiang Future HiDream-O1-Image-1.5 erreicht erneut SOTA.

Jede bedeutende Umstellung des technologischen Paradigmas ist ein Zeitfenster, in dem die alte Ordnung erschüttert wird und neue Spezies entstehen.

Als der Wettbewerb um große Modelle 2026 erreicht hat und die Branche AI als ein unendliches Spiel der Parametergröße und der Rechenleistung ansieht, hat ein chinesisches Startup, HiDream.ai, das erst seit etwas über drei Jahren besteht, mit Innovationen in der unteren Architektur eine Lücke im Bereich der Bildmodelle zwischen den Giganten gerissen.

Rang 1 in China, Rang 2 weltweit

HiDream.ai setzt neue Rekorde für chinesische Bildgenerierungsmodelle

Kürzlich hat HiDream.ai mit seinem neuen kommerziellen Bildgenerierungsmodell HiDream - O1 - Image - 1.5 erneut das SOTA (State - of - the - Art) erreicht. Auf der Text - to - Image - Leaderboard der weltweit renommierten unabhängigen AI - Modellbewertungs - und Analyseplattform Artificial Analysis hat es den ersten Platz unter den chinesischen Bildgenerierungsmodellen errungen und sich als chinesisches Großmodellunternehmen mit der zweithöchsten Punktzahl nach OpenAI etabliert, indem es Mainstream - Bildgenerierungsmodelle von großen Unternehmen wie Google Nano Banana 2 (Gemini 3.1 Flash Image Preview), NVIDIA Cosmos3 - Super - Text2Image und ByteDance's Seedream 4.0 übertroffen hat.

Dies war keine zufällige technologische Explosion. Nur einige Wochen zuvor hat das Open - Source - Modell HiDream - O1 - Image - Dev - 2604 der nativen, ganzheitlichen HiDream - O1 - Serie den ersten Platz in der Text - to - Image - Leaderboard für Open - Source - Modelle weltweit errungen.

Zwei Mal innerhalb von zwei Wochen auf den Weltspitzenplatz zu steigen, lässt einen neugierig werden: Wie kann ein Startup, das erst seit drei Jahren besteht, in der autoritativen Rangliste der Bildgenerierung Google und ByteDance übertreffen? Ist dies eine zufällige Optimierung der Bewertung oder ein Wettkampf um harte Kernkompetenzen? Was spiegeln die Ergebnisse dieser Bewertung über die Trends unserer Zeit wider?

Hinter der Rangliste - Der Sieg des UiT - Architekturansatzes

Die Text - to - Image - Leaderboard der Artificial Analysis verwendet ein anonymes Vergleichssystem, Benutzerstimmen und ein dynamisches ELO - Rangierungssystem, um den Einfluss der Markenwahrnehmung auf die Bewertungsergebnisse so gering wie möglich zu halten und die Präferenzen echter Benutzer in offenen Generierungsszenarien besser abzubilden. In diesem professionellen Bewertungssystem hat HiDream - O1 - Image - 1.5 in einem Vergleich von über 4000 Stichproben 1265 ELO erreicht. Die Leistung von HiDream - O1 - Image - 1.5 zeigt nicht nur die Wettbewerbsfähigkeit des Modells in Bezug auf die Bildqualität, sondern auch die Verbesserung seiner Gesamtfähigkeit in Bezug auf die Semantikbefolgung, die Generierung komplexer Bilder, die Textrendering und die Kontrolle mehrerer Subjekte.

Im gesamten "Wettkampf" treten HiDream.ai gegen Giganten mit Billionenmarktwert an: Google verfügt über TPU - Cluster und die weltweit besten Talente, und ByteDance hat einen riesigen Traffic - Einstieg und ein ideales Anwendungsökosystem. Trotz des Nachteils bei der Rechenleistung, den Daten und dem Ökosystem hat dieses Startup die Überholung geschafft, und der Kern liegt in der Wahl eines völlig anderen technologischen Weges.

Die derzeitigen weltweit führenden Text - to - Image - Modelle verwenden in der Regel die modulare Architektur "Text - Encoder + VAE (Variational Autoencoder) + DiT (Diffusion Transformer)", und die Branche hat lange Zeit die Erhöhung der Parametergröße und die Anhäufung von Rechenleistung als Hauptrichtung für die Iteration verfolgt. HiDream.ai hat diesen etablierten Weg verlassen und sich für einen schwierigeren, aber vielversprechenderen Weg entschieden - die pixelgenaue, native, ganzheitliche Architektur UiT.

Traditionelle Text - to - Image - Modelle verwenden in der Regel den modularen Ansatz "Text - Encoder + VAE + DiT / Diffusionsmodell", der eher wie ein sich verzweigender Baum aussieht: Der Text hat seinen eigenen Tokenizer, Bilder und Videos haben jeweils eigene Encoder / Decoder, und Audiosignale, Bewegungen und räumliche Beziehungen werden oft auf verschiedenen Wegen verarbeitet. Zwischen den Modulen muss das Information mehrmals umgewandelt werden. Bei komplexen Aufgaben wie der Layoutung langer Texte, der UI - Gestaltung, der Erstellung von Bildern mit mehreren Subjekten, der Kopplung mehrerer Referenzbilder und der Erstellung von kontinuierlichen Storyboards kann die mehrfache Informationstransformation zu einem Verlust von Details, einer semantischen Abweichung und einer instabilen Bildstruktur führen, was auch das allgemeine Problem der meisten kommerziellen Bildmodelle ist.

Die native, ganzheitliche Architektur, die von der HiDream - O1 - Serie von HiDream.ai verwendet wird, hat die Informationverarbeitung komplett neu strukturiert. Diese Architektur entfernt den unabhängigen VAE und den speziellen Text - Encoder aus dem traditionellen Ansatz und projiziert die ursprünglichen Signale wie Bildpixel, Text - Tokens, Videovoxel, Audiosignale, Bewegungen und räumliche Beziehungen in einen gemeinsamen Repräsentationsraum. Über ein einziges UiT (pixelgenauer, einheitlicher Transformer) werden die ganzheitlichen Informationen verstanden, berechnet und generiert. Im Gegensatz zu den üblichen "späten Multi - Modal - Zusammenfügungen" in der Branche ermöglicht diese Architektur die Integration und Interaktion verschiedener Signale auf der untersten Modellschicht und reduziert von Grund auf die Verluste, die durch die Modalumwandlung entstehen.

Die Wahl der technologischen Strategie eines Unternehmens hängt oft stark von der kognitiven Struktur und der praktischen Erfahrung des Teams ab. Um die technologische Strategie von HiDream.ai zu verstehen, müssen wir uns in die historische Entwicklung dieses Teams einbeziehen.

Das Kernteam von HiDream.ai hat sich seit über 10 Jahren auf das Gebiet des AIGC konzentriert und hat an der technologischen Entwicklung von drei Generationen von AI - Modellen maßgeblich teilgenommen. Es ist eines der wenigen chinesischen Multi - Modal - AI - Teams, das von einem Akademiker geleitet wird und sowohl einen vollständigen technologischen Ansatz als auch Branchenerfahrung hat. Bereits 2017 hat das Team das TGANs - C vorgeschlagen, einer der weltweit ersten Artikel über Videogenerierungsmodelle. Das Team hat auch an der Entwicklung von großen Systemen wie der weltweit zweitgrößten Videosuchemaschine und der Bildsuchmaschine der größten chinesischen Eigen - E - Commerce - Plattform maßgeblich teilgenommen und die Multi - Modal - Technologie in hochkomplexe Branchenscenarios wie die logistische Embodied Intelligence und die quasi - Echtzeit - Videoinferenz auf Tausenden von Karten umgesetzt.

Dies bedeutet, dass HiDream.ai nicht nur Erfahrung in der Modellentwicklung hat, sondern auch den vollständigen Zyklus von fortschrittlichen Algorithmen, technischen Systemen und realen Geschäftsszenarien durchlaufen hat. Was die Entwicklungshöhe bestimmt, ist die Fähigkeit, sich kontinuierlich auf die Innovation auf der untersten Ebene zu konzentrieren; was die Laufstrecke bestimmt, ist die Erfahrung in der Umsetzung in komplexen Branchenscenarios.

HiDream.ai fehlt nie an Mut zur Innovation.

In der technologischen Architektur von HiDream.ai wird das Bild als der räumliche Grundstein für die Modellierung der realen Welt definiert. Ein einzelnes Bild trägt die vollständigen Informationen über eine Szene, das Licht, die Struktur und das Subjekt in einem Moment. Es ist nicht nur eine einzelne Fähigkeit, sondern der Schlüsselzugang zur Videogenerierung und sogar zum nativem, ganzheitlichen Weltmodell. Basierend auf dieser vorausschauenden Einschätzung hat das Unternehmen die Entwicklungstrategie "Bilder als Grundlage, zur Video - und ganzheitlichen Erweiterung" festgelegt.

Betrachtet man die Branchenlandschaft, haben die führenden Unternehmen lange Zeit um das große Sprachmodell herum ihre Multi - Modal - Architektur aufgebaut. Da der Text das Hauptmedium der Kognition ist, sind die technologischen Stacks, die Produktökosysteme und die geschäftlichen Barrieren, die darum herum aufgebaut wurden, tief verwurzelt. Dies macht es für die großen Unternehmen schwierig, die bestehende Architektur komplett zu überarbeiten. HiDream.ai, das erst vor kurzem gegründet wurde, hat keine historischen technologischen Ballasten. Das Team hat eine neue Idee vorgeschlagen: In der neuen Phase der Multi - Modal - Entwicklung kann das Signal selbst als Kognitionsträger dienen, und der Text ist kein notwendiges Zwischenmedium mehr.

Derzeit hat sich die globale Multi - Modal - Technologie noch nicht vollständig etabliert, und die Branche befindet sich immer noch in der Phase des Wettbewerbs um die beste Strategie. Wenn die Giganten aufgrund ihrer etablierten Technologien Schwierigkeiten haben, sich umfassend zu verbessern, haben Startups dank ihrer leichten Organisation und des flexiblen Fehlertoleranzraums die Chance, einen generationalen technologischen Sprung zu schaffen, indem sie auf der untersten Architekturebene innovieren.

Das Durchbrechen von HiDream.ai kann auf drei Ebenen analysiert werden:

Erstens: Suchen Sie generationale Vorteile auf der Architekturebene und nutzen Sie die begrenzten Ressourcen für die Kernaktivitäten.

HiDream.ai hat sich nicht in den Wettlauf um Rechenleistung und Parameter im DiT - Mainstream - Bereich involviert, sondern sich stattdessen auf die Weiterentwicklung seiner eigenen UiT - nativen, ganzheitlichen Architektur konzentriert. Dieser Weg erfordert hohe Forschungs - und Entwicklungsinvestitionen und hohe Fehlertoleranzkosten in der Anfangsphase, aber sobald er funktioniert, besteht die Möglichkeit, generationale strukturelle Vorteile zu erzielen. Laut Angaben des Teams kann sein 8 - Milliarden - Parameter - Modell bei ähnlichen Trainingsdaten und Rechenressourcen eine Gesamtdarstellung erreichen, die mit der von traditionellen Modellen mit Milliarden von Parametern vergleichbar oder sogar besser ist, was auf eine höhere Parametereffizienz hinweist.

Diese extreme Orientierung an der untersten Architektur hat HiDream.ai nicht in die Selbstzufriedenheit der "Innovation für die Innovation" verfallen lassen. Im Gegenteil, auf der Ebene der technischen Umsetzung zeigt HiDream.ai eine hohe Praktikabilität. Am Beispiel der Videogenerierung: Das Team verfolgt den Ansatz "erst Bilder, dann Videos". Zuerst wird die Technologie mit dem Bildmodell validiert und schnell getestet, und dann werden die erprobten Fähigkeiten auf den Videobereich übertragen. Diese Strategie reduziert die Trainingskosten auf ein Fünftel bis ein Zehntel des Branchendurchschnitts - es ist diese Überlebensweise, mit begrenzten Ressourcen die Kernaktivitäten zu betreiben, die es einem Startup ermöglicht, im Umfeld der Giganten seinen eigenen Rhythmus zu finden.

Zweitens: Koppeln Sie das Modell tief mit vertikalen Szenarien und bauen Sie eine unnachahmliche Schutzmauer.

HiDream.ai ist nicht nur ein Modellunternehmen. Wie bereits erwähnt, war die Kommerzialisierung seit der Gründung des Unternehmens ein zentrales Anliegen. Nach Jahren der Erforschung hat sich derzeit ein "1 + 1+3" - Layout entwickelt: Eine HiDream - Modellbasis, eine Plattform für die externe Leistungserbringung und drei Anwendungsfälle für intelligente Agenten: Der intelligente Agent für die Film - und Fernsehproduktion und - kollaboration "Zhenzan" für professionelle Filmteams, HiBurst für die Massenproduktion von Marketinginhalten für E - Commerce (insbesondere für grenzüberschreitende Händler) und vivago für professionelle Social - Media - Inhaltserzeuger. Dadurch wird die stärkste Kopplung zwischen Modell und Produkt erreicht.

Der kommerzielle Marketing - Agent HiBurst ist bereits unter den Top 5 der offiziellen TikTok - Dienstleister. Es werden jährlich über eine Million E - Commerce - Marketingvideos produziert, die einen Umsatz von über einer Million Yuan generieren. Der AI - Film - und Fernsehproduktions - und - kollaborations - Agent "Zhenzan" hat den gesamten Prozess von der Idee über das Storyboard bis zum fertigen Film abgedeckt. Es wurden bisher über 5000 Minuten Kurzcomics produziert, und es sind Film - und Fernsehunternehmen wie die Yangtze Film Group und Ciwen Media angeschlossen. Der Social - Media - Inhaltserzeugungs - Agent vivago hat kürzlich den ersten Platz in der Product Hunt - Tagesrangliste erreicht und deckt über 100 Länder und Regionen weltweit ab, mit über 40 Millionen Nutzern.

HiDream.ai's professionelle Film - und Fernsehvideogenerierungsdienstleistung kann derzeit stabil Videos von 1 - 3 Minuten in einem Schritt generieren, mit einer Erfolgsrate von über 70%. In der heutigen Zeit des großen Zufallsgenerators ist diese Zahl beeindruckend.

Drittens: Behalten Sie extreme strategische Entschlossenheit und eine kontinuierliche kognitive Verbesserung.

Während die meisten Akteure in der Branche noch auf der traditionellen Architektur arbeiten, hat HiDream.ai den Mut, "alles von vorne zu beginnen" und sich auf die native, ganzheitliche Architektur zu konzentrieren. Dieser Mut, "die Identität zu löschen", kommt aus zwei Überzeugungen des Gründerteams: Strategische Entschlossenheit einerseits und kognitive Verbesserung andererseits. Sie lassen sich nicht von dem Wettlauf um Rechenleistung und die Parameterinflation ablenken und sind fest davon überzeugt, dass "die ganzheitliche Integration der Modalitäten der einzige Weg zum Weltmodell ist". Gleichzeitig überprüfen sie bei jeder technologischen Iteration ihren Weg und aktualisieren ihre Kognition. Diese Fähigkeit, sich zu stabilisieren und mitzuhalten, gibt dem Unternehmen die ständige Kraft zur Innovation.

Schreiben, Layouten, Storyboarden können

Die native, ganzheitliche Architektur tritt in die Produktionsvalidierungsphase ein

Diese ständige Innovationsfähigkeit wird allmählich in sichtbare strategische Ergebnisse umgesetzt. Die Spitzenplatzierung von HiDream1.5 in der weltweit autoritativen Rangliste ist ein lebendiges Beispiel.

HiDream - O1 - Image - 1.5 zeigt eine allumfassende Bildgenerierungsfähigkeit, die weit über das hinausgeht, "schöne Bilder" zu erzeugen. Es ist nicht mehr zufrieden mit der Ausgabe eines schönen statischen Bildes, sondern kann komplexe Layouts verstehen, mehrsprachige Texte rendern und die Logik von kontinuierlichen Storyboards kontrollieren.

Zugleich markiert die kommerzielle Ausrichtung des HiDream1.5 - Modells den Eintritt der nativen, ganzheitlichen Architektur in die Produktionsvalidierungsphase, in der sie die verschiedenen Schwierigkeiten in der praktischen Produktion lösen kann. Viele frühere AI - Bildmodelle konnten oft nicht in kommerziellen Szenarien eingesetzt werden, insbesondere in komplexen Layouts, bei der Kontrolle mehrerer Subjekte und der Rendering von langen Texten. HiDream1.5 hat hier einen großen Durchbruch erzielt.

HiDream1.5 richtet sich an kommerzielle Szenarien mit höheren Anforderungen wie Werbung, Markenbildung, E - Commerce - Design, Spiel