Wenn KI-Großmodelle neu bewertet werden: Unisound veröffentlicht U2 und erlebt den "DeepSeek-Moment"
Die Branche der Large Language Models (LLMs) hat sich lange Zeit in einem Konsens bewegt, der fast als selbstverständlich richtig galt.
Es braucht große Parameter, damit das Modell leistungsstark wird; es braucht einen langen Kontext, damit es umfassende Fähigkeiten entwickelt; und es braucht komplexe Inferenzketten, um sein Intelligenzniveau zu demonstrieren.
In den letzten Jahren haben die LLM-Unternehmen den technologischen Grenzwert ständig erhöht, von Milliarden- zu Billionenparametern, von Hunderttausenden von Tokens im Kontext zu Millionen, von Einzeleinzelantworten zu immer längeren Reasonings. Das Kapitalmarkt ist auch gerne bereit, für diese stärkere Vorstellung zu bezahlen. Die Ranglisten der Modelle ändern sich häufig, die Trainingskosten steigen stetig, und die GPU ist zu einer der teuersten Produktionsfaktoren geworden.
Als die Leidenschaft für das blinde Anhäufen von Parametern nachließ, sah die Branche sich jedoch einer unausweichlichen und peinlichen Realität gegenüber: Die dichten Modelle mit Milliarden oder gar Billionen von Parametern treiben die astronomischen Trainings- und Inferenzkosten in die Höhe und schaffen hohe Einstiegshürden für die Implementierung.
Es besteht ein großer Abstand zwischen der idealen „Intelligenzexplosion“ und der realen Situation, in der es zu teuer und schwierig ist, die Modelle zu nutzen, sowohl für etablierte Unternehmen als auch für Einzelpersonen.
Je verrückter die erste Phase war, desto realistischer wird die zweite.
Einige farsichtige Akteure haben bereits erkannt, dass ein Paradigmenwechsel stattfindet: Generative KI entwickelt sich zunehmend zu produktiver KI.
Es geht darum, hochentwickelte Intelligenzfähigkeiten mit geringeren Gesamtkosten und stabileren Liefermodalitäten nahtlos in die realen Industrieprozesse zu integrieren.
An diesem entscheidenden Punkt für die Branche hat ein KI-Altkanter mit einer harten Basisaktualisierung eine Lösung für die Effizienzverbesserung gefunden.
Heute hat iFlytek Voice offiziell das neue Generation-Allgemeine Large Language Model-Grundgerüst - U2 - veröffentlicht.
Dies ist nicht nur die wichtigste technologische Iteration des Basismodells seit der Börsengänge von iFlytek, sondern auch ein entscheidender Meilenstein auf dem Weg zur „Agent-Nativen Large Language Model Company“.
Während die Branche noch auf die Chat-Skills der generativen KI setzt, hat iFlytek frühzeitig das Konzept der „produktiven KI“ eingeführt. Die Bedeutung dahinter ist klar: Der ultimative Wert der KI liegt nicht in der Erzeugung von Inhalten, sondern in der Lösung komplexer Aufgaben in der realen Welt.
Durch die Einführung dieses Konzepts hat iFlytek sich als unangefochtene Pionierin etabliert: Während die Konkurrenten noch über die „Intelligenzexplosion“ sprechen, denkt iFlytek bereits über die „Arbeit“ nach; während andere die Parametergröße verglichen, hat iFlytek die kommerzielle Essenz der Intelligenzdichte und des Tokenwerts erkannt. Diese vorausschauende Sichtweise hat iFlytek bereits vor dem Start des Hauptwettbewerbs die Macht über die Regeldokumentation gegeben.
Dieses Unternehmen, das sich seit über einem Jahrzehnt in der KI-Branche bewegt, hat sich entschieden, nicht an dem blinden Parameterverbrauchskrieg teilzunehmen, sondern an diesem Punkt die Geschäftswertberechnung der Large Language Models mit der neuen Basislogik von U2 neu zu definieren. Mit dem Know-how aus über einem Jahrzehnt in vertikalen Szenarien hat iFlytek eine fast unverwechselbare Schutzmauer errichtet, die es ihm ermöglicht, in der Spitzengruppe der chinesischen Large Language Models zu bleiben.
Stimme, aber nicht nur Stimme
Um die zweite Phase der Large Language Models zu verstehen, muss man zuerst die Akteure am Tisch kennen.
In der Gruppe der chinesischen Large Language Models ist iFlytek, das 2012 gegründet wurde, ein besonderer Akteur. Es hat zunächst mit Spracherkennung begonnen und war in Szenarien wie intelligenter Medizin, Heimautomatisierung und Fahrzeugkabinen aktiv. In den letzten zehn Jahren hat es den gesamten technologischen Zyklus von statistischer Lernmethode über Deep Learning bis hin zur Large Language Model-Ära durchlaufen. Deshalb wird es oft als ein etwas „altmodischer“ KI-Spieler angesehen.
Über einen langen Zeitraum wurde iFlytek aufgrund des Wortes „Stimme“ in seinem Namen gerne als Spezialist für Spracherkennung kategorisiert. Während der Höhepunkt der Large Language Model-Welle, als die Aufmerksamkeit der Öffentlichkeit von den neuen Internet-Unternehmen und den „Sechs Tiger“ mit Milliarden-Dollar-Finanzierungen und hoher Medienpräsenz angezogen wurde, war iFlytek während der Börsengänge-Silence-Period eher diskret.
Glücklicherweise endete die Ära der chatfähigen generativen KI 2025, und alle erkannten, dass die produktive KI, die Aufgaben erledigen kann, der wichtigste Aspekt ist. Jetzt hat die Branche plötzlich festgestellt, dass das bisher unterschätzte Kerngeschäft von iFlytek seine breitesten Schutzmauern im Zeitalter der Agenten geworden ist.
„Hinter der Stimme steckt die Sprache, und hinter der Sprache steckt die Absicht. Wir hören nicht die Stimme, sondern das Bewusstsein hinter der Stimme.“ So erklärt Huang Wei, der Gründer von iFlytek, das Wort „Stimme“ in seinem Unternehmensnamen.
In seiner Auffassung gibt es immer drei Ebenen der Mensch-Maschine-Interaktion: Die erste Ebene ist das „Verstehen“, d. h. die Spracherkennung, die den Ton in Text umwandelt; die zweite Ebene ist das „Verstehen der Absicht“ – wenn ein Benutzer sagt „Mir ist kalt“, will er nicht nur eine Antwort, sondern dass die Klimaanlage automatisch die Temperatur anpasst und die Vorhänge sich schließen; die dritte Ebene ist das Verstehen des tieferen Bewusstseins und des Szenarios – wenn ein allein lebender Senior leise sagt „Heute ist nichts los“, kann die KI aus Tonfall und Pausen die Einsamkeit erkennen und automatisch Begleitung oder Erinnerungen auslösen.
Von der Spracherkennung und der natürlichen Sprachverarbeitung bis hin zu den heutigen Large Language Models und Agenten hat iFlytek immer das gleiche Ziel verfolgt: Die Maschine soll den Menschen wirklich verstehen und ihm helfen, Aufgaben zu erledigen.
In der realen Welt der Mensch-Maschine-Interaktion müssen eine Reihe von Ingenieurproblemen wie mehrfache Interaktion, langfristige Aufgaben, Störgeräusche in komplexen Umgebungen und Mensch-Maschine-Kooperation gelöst werden, damit die Maschine wirklich für den Menschen arbeiten kann.
Das Know-how und die Erfahrung in der mehrfachen Interaktion, die in seriösen und komplexen vertikalen Szenarien gewonnen wurden, sind die natürlichen Nährböden für die Agenten.
Basierend auf dieser tiefgreifenden Einsicht hat iFlytek das neu veröffentlichte universelle Basismodell U2 intern als Agent-Natives Large Language Model positioniert. Seine Größe, Trainingsziele und Optimierungsrichtungen sind alle auf die „Aufgabenausführung“ ausgerichtet.
Bei der technologischen Route hat iFlytek nicht dem üblichen Weg der Branche gefolgt, der darin besteht, ein fertiges Modell zu trainieren und dann ein Agent-Framework hinzuzufügen. Stattdessen hat es einen radikaleren Ansatz entwickelt:
Erstens, das Agent-Native Modell + Harness-Koevolution-Mechanismus. In der Vergangenheit war das meiste Agentensystem eher wie eine Hülle um ein universelles Chatmodell – das Modell spricht nur, und die Planung, das Tool-Management und die Aufgabenausführung werden an ein externes Framework delegiert. Das Modell selbst versteht diese Dinge nicht wirklich. Im Gegensatz dazu hat U2 die vollständigen Fähigkeiten der Planung, Ausführung und Ergebnisüberprüfung bereits in der Trainingsphase in die Modellschicht integriert. Während des Trainingsprozesses entwickeln sich das Modell und das Harness (Aufgabenausführungsgerüst) kontinuierlich zusammen: Je komplexer die Hauptstruktur des Modells wird, desto feiner werden die Stützpunkte und die Prüfgenauigkeit des Gerüsts; und das präzisere und strengere Gerüst wiederum gewährleistet die Stärke jeder logischen Ebene des Modells, was zu einem sich ständig verstärkenden Zyklus führt.
Zweitens, die systematische Anwendung der Prozessüberwachung und des Curriculum Learnings. Um den Agenten so effizient wie ein ordentlicher Arbeiter zu machen, hat U2 in der Trainingsphase die Methode des „Curriculum Learnings“ eingeführt, damit das Modell von einfachen zu schwierigen Aufgaben, von kurzem zu langem Kontext und von einfacher zu komplexer Tool-Nutzung fortschreitet. Bei der Ausführung langfristiger Aufgaben hat U2 eine fortschrittliche Prozessüberwachungsmethode eingeführt, die die Schlüsselpunkte der Aufgabenausführung mit einem besseren Modell analysiert und korrigiert. U2 kann nicht nur das Endergebnis sehen, sondern auch jeden Schritt des Ausführungsprozesses optimieren, um ein schnelles Lernen zu erreichen.
Drittens, die industrielle Datenverteilung, die stärker auf die Realwirtschaft und die harten Branchen ausgerichtet ist. Während viele Large Language Models noch stark auf allgemeine Internet-Corpora für die Generalisierungstraining angewiesen sind, hat iFlytek bewusst den Anteil an Corpora aus niedrigwertigen Szenarien wie Unterhaltung gesenkt und mehr Datenressourcen auf hochwertige Branchen wie Medizin, Krankenversicherung, Versicherung, Verwaltung und Industrie verschoben. Es hat auch die anonymisierten Daten aus realen Szenarien, die in den Jahren der Geschäftsentwicklung gesammelt wurden, für das Training verwendet. Es ist bemerkenswert, dass iFlytek die anonymisierten Daten aus realen Szenarien, die über Jahre hinweg gesammelt und schwer zu kopieren sind, für die Synthese und das Training verwendet, um direkt der Realwirtschaft und den harten Branchen zu dienen.
Nach der Neukonstruktion der Grundlagenfähigkeiten hat iFlytek U2 eine starke Leistungsfähigkeit gezeigt, ohne die Parameter blind zu häufen. In Tests wie IFBench hat U2 eine Spitzenposition in der Branche erreicht; in Claw-Tests hat es eine starke Fähigkeit bei der Agenten- und Tool-Nutzung gezeigt; bei der harten Wissensinferenz und der langen Kontextaufgabe wie GPQA hat U2 ebenfalls die Fähigkeit gezeigt, die weltweit besten Large Language Models herauszufordern; bei der Fähigkeit zur realen Büroarbeit und Wissensarbeit wie GDPval hat U2 72,5 Punkte erreicht, was eine solide professionelle Büroarbeitfähigkeit zeigt.
Am wichtigsten ist, dass U2 den Hexenkreis „Top-Leistung erfordert riesige Parameter“ endgültig gebrochen hat. Es lehnt die unnötige Parametervergrößerung ab und strebt an, die global erstklassigen Fähigkeiten in eine kleinere Parametergröße zu packen, indem es eine extreme MoE (Mixture of Experts)-Architektur und Algorithmenoptimierung anwendet. Es strebt nach Stärke bei kleiner Größe und Sparsamkeit.
Dieser diskrete und zurückhaltende KI-Altkanter hat sich mit Führerschaft in die Spitzengruppe der chinesischen Large Language Models geschafft.
Wie wird der Geschäftskreis geschlossen?
Als Technologieunternehmen mit über einem Jahrzehnt Branchenerfahrung weiß iFlytek besser als die neu eingetretenen „Kinder“, dass es nicht nur darum geht, die technologische Generation zu überholen, sondern auch den Geschäftslogik nicht zu vernachlässigen.
In der Vergangenheit war es üblich, die Tokens aus der einzigen Perspektive von Hardware und Rechenleistung zu betrachten. Während die gesamte Branche darum strebte, die Anzahl der generierten Tokens zu maximieren und die Rechenleistung zu verbessern, hat Huang Wei, der Gründer von iFlytek, eine tiefgreifendere Geschäftsberechnung angestellt: „Wenn 1 Million Tokens generiert werden, aber sie nur für Smalltalk und Unsinn verwendet werden, hat die Rechenleistung keine kommerzielle Bedeutung, auch wenn sie hoch ist.“
Basierend auf dieser Erkenntnis hat iFlytek erstmals in der Branche eine revolutionäre Geschäftsgleichung vorgeschlagen:
KI-Geschäftswert = Intelligenzdichte × Tokenwert.
Genauer betrachtet bedeutet Intelligenzdichte, mit weniger Parametern und geringeren Gesamtressourcen einen hohen Intelligenzniveau zu erreichen. Tokenwert betont, dass jede Token-Nutzung des Modells direkt in messbare Geschäftsergebnisse umgesetzt werden muss – entweder die Risiken zu senken oder die Produktivität zu erhöhen.
Das heute veröffentlichte U2-Modell ist das ultimative Implementierungsvehikel dieser Erkenntnis und Überlegung. Um sicherzustellen, dass das Geld der Kunden effektiv eingesetzt wird, hat U2 die Grundlagentechnologie fast rücksichtslos optimiert.
Der oben erwähnte Agent + Harness-Koevolution-Mechanismus löst genau dieses Problem. Durch die gemeinsame Entwicklung des Modells und der Tool-Kette kann U2 die Aufgabenplanung, Tool-Nutzung, Ausführung und Überprüfung mit weniger Interaktionsrunden erledigen, wodurch die Tokenverschwendung durch wiederholtes Ausprobieren reduziert und die Aufgabenabschlussrate erhöht wird.
Zugleich verwendet U2 die sparse Mixture of Experts (MoE)-Architektur auf der untersten Ebene. Im Gegensatz zu traditionellen dichten Modellen, die alle Parameter aktivieren müssen, aktiviert MoE nur die relevantesten Expertmodelle für unterschiedliche Aufgaben. Laut den von iFlytek veröffentlichten Informationen aktiviert U2 nur etwa ein Zehntel der Parameter bei der Aufgabenbearbeitung, während die anderen Parameter „nach Bedarf schlafen“. Dies bedeutet, dass die tatsächliche Rechenmenge des Modells während der Laufzeit weit geringer ist als seine vollständige Größe, was die Rechenleistungskosten für die Inferenz deutlich senkt, während die Leistung auf hohem Niveau gehalten wird.
Ein weiterer besonderer Aspekt ist die Neukonstruktion des Denkprozesses von U2. Einige Large Language Models entwickeln oft eine lange Reasoning als Denkprozess bei komplexen Inferenzen – sie schreiben jeden Zwischenschritt vollständig auf. Obwohl diese Methode die Interpretierbarkeit erhöht, bringt sie auch ein anderes Problem mit sich: Die Benutzer zahlen für eine große Anzahl von Tokens, die keinen endgültigen Wert erzeugen. U2 sucht zunächst effizient im latenten Raum, um zu vermeiden, jeden Zwischenschritt des Denkens in sichtbare Tokens zu decodieren; wenn die Aufgabe in die kritische Phase eintritt, wechselt das Modell zur expliziten Inferenz und führt die logische Kalibrierung, den Prozessüberprüfung und die endgültige Entscheidung durch einen lesbaren und überprüfbaren Inferenzprozess durch. iFlytek nennt dies „implizites Denken und Inferenz + explizites Denken und Überprüfung“.
„Wenn diese 1 Million Tokens nur für Smalltalk und Unsinn verwendet werden, hat die Effizienz keine kommerzielle Bedeutung, auch wenn sie hoch ist.“ Huang