Technische Analyse des Geschäftsberichts von SenseTime für 2024: Die Effizienz von Training und Inference hat sich deutlich verbessert, und das Geschäftsmodell von "große Infrastruktur - große KI - Anwendungen" hat einen geschlossenen Zyklus für kommerziellen Wert erreicht.
Am 26. März gab SenseTime seine Jahresgeschäftsberichte für das Jahr 2024 heraus. Im Jahr 2024 stieg das Gesamteinkommen des SenseTime-Gruppen um 10,8 % gegenüber dem Vorjahr auf 3,77 Milliarden Yuan. Darunter belief sich das Einnahmen aus generativer KI auf über 2,4 Milliarden Yuan, was einem Anstieg von 103,1 % gegenüber dem Vorjahr entspricht. Dies ist bereits das zweite Jahr in Folge, in dem die generative KI eine dreistellige Wachstumsrate verzeichnet hat und ist bereits der größte Geschäftsbereich der Gruppe geworden.
Seit der Veröffentlichung von Large Language Models (LLMs) vor mehr als zwei Jahren hat sich die Entwicklung von LLMs von der einseitigen Verfolgung des Scaling Laws in der Anfangsphase hin zu Fragen wie Rechenleistungseffizienz, Übertragung von Training auf Inferenz und Umsetzung von Anwendungen verlagert. LLMs sind nun in eine neue Entwicklungsphase eingetreten.
Dies ist ein Zeichen für die zunehmende Reife der Branche, aber es stellt auch höhere Anforderungen an die Ingenieurtechnik und die Fähigkeit zur Synergie zwischen verschiedenen Szenarien, zusätzlich zur Ansammlung von Rechenleistung.
Als eines der ersten "KI-nativen" Unternehmen hat SenseTime bereits vor einigen Jahren mit der Investition in die KI-Infrastruktur begonnen. Später wurde die Strategie auf die dreiteilige Kernstrategie "Große Anlage - Großer Sprachmodell - Anwendung" aktualisiert, und diese Strategie zeigt ihre Voraussichtlichkeit in der KI-Branche.
Die "Große Anlage" bezieht sich auf die KI-Infrastruktur von SenseTime, die eine starke Rechenleistung für die Großen Sprachmodelle bietet. Die Großen Sprachmodelle treiben die technologische Innovation an, und die Anwendungsseite fördert die kommerzielle Umsetzung von KI. In den letzten drei Jahren hat SenseTime einen positiven ökologischen Kreislauf mit der Synergie von "Große Anlage - Großer Sprachmodell - Anwendung" geschaffen, der Tausende von Branchen bereichert.
Wir sehen, dass nach mehreren Schwankungen in den technologischen Zyklen die technologische Akkumulation von SenseTime nun zu einer Explosion kommt.
01 Überlegene Rechenleistung und Verständnis für Rechenleistung
Im Mai 2024 wurde die Liste des renommierten chinesischen LLMs-Evaluierungsinstituts SuperCLUE veröffentlicht. Der chinesische Benchmarktest von SenseChat V5 von SenseTime belegte den ersten Platz und verbesserte mit einer Gesamtwertung von 80,03 Punkten die bisher beste chinesische Leistung. Darüber hinaus übertraf es GPT-4 Turbo in der chinesischen Gesamtwertung. Dies war das erste Mal, dass ein chinesischer LLM in der chinesischen Benchmarktest von SuperCLUE GPT-4 Turbo übertraf und die Spitze erreichte.
Die Tatsache, dass SenseTime solche Ergebnisse erzielen konnte, hängt eng mit seiner frühen Planung in der KI-Infrastruktur zusammen.
Es ist bekannt, dass seit 2024 der Bau von Rechenzentren für Künstliche Intelligenz in China rasant vorangeschritten ist. Von der Trainingsphase bis zur Inferenzphase wird die Ressourcenbeschaffenheit der Rechenleistung immer deutlicher, und der Markt steht immer noch vor den Problemen der verstreuten Rechenressourcen, der fehlenden einheitlichen Standards und der ineffizienten Nutzung.
SenseTime hat genau auf dieses Problem reagiert und die Rechenleistungseinsatz geplant, indem es Karten unterschiedlicher Standards verbindet, um verschiedene Anforderungen zu erfüllen und verschiedene Arten von Kunden zu bedienen.
Xu Li, Vorsitzender und CEO von SenseTime Technology, ist der Meinung, dass einige Technologiegiganten ihren Schwerpunkt auf ihre eigene Ökosystem legen, einschließlich eigens entwickelter Chips und Cloud-Plattformen. Aber um in der heutigen KI-Branche einen Vorsprung zu erlangen, sollten die Ressourcen, die schneller und besser funktionieren, zuerst genutzt werden, ohne sich auf die Produkte und Plattformen eines einzigen Unternehmens zu beschränken. "Die Basisdienste, die SenseTime bietet, entsprechen eher der gegenwärtigen Entwicklungssituation der KI."
In den letzten drei Jahren hat SenseTime kontinuierlich in die Infrastruktur des AIDC (AI Data Center) investiert. Berichten zufolge hat das erste 5A-Klass Rechenzentrum für Künstliche Intelligenz in China, das von SenseTime selbst gehalten wird - das Shanghai Lingang AIDC - die Rechenleistungskapazität auf 23.000 PetaFlops erhöht.
Durch die gemeinsame Optimierung mit der Iteration der Großen Sprachmodelle soll die "Große Anlage" von SenseTime zur "KI-Infrastruktur, die am besten die Großen Sprachmodelle versteht" werden. Sie dient nicht nur dem Training und der Inferenz des SenseNova-Modells, sondern auch etablierten Branchen wie Internet, Finanzwesen und Energie, sowie hochpotentiellen Branchen wie Embodied Intelligence, AIGC und AI4S (AI For Science).
Xu Li hat einmal gesagt, dass SenseTime der Rechenleistungsdienstleister ist, der die Modelle am besten versteht, und der Modell-Dienstleister, der die Rechenleistung am besten versteht.
02 Dreiteilige Synergie
Die Rechenleistung ist nur ein Teil der Ökosystem. Damit die Branche der Großen Sprachmodelle effizient funktionieren kann, bedarf es auch der Zusammenarbeit von Upstream- und Downstream-Betrieben.
"Heute ist das Geschäftsmodell der Künstlichen Intelligenz, ob es sich um das Training von Modellen oder die externe Dienstleistung mit Modellen handelt, im Wesentlichen eine Ressourcenverschwendung, und man zahlt für die Ressourcen. Alle Geschäftsmodelle lassen sich schließlich auf den Verbrauch von Rechenressourcen reduzieren. Durch die 'Dreiteilige Synergie' werden die Ressourcen auf die effektivste Weise integriert und genutzt." sagte Xu Li.
Die "Dreiteilige Synergie" ist die Strategierichtung, die SenseTime im Oktober 2024 festgelegt hat. Es ist eine Strategie, bei der SenseTime die "Große Anlage" als KI-Infrastruktur als Grundlage nutzt, um die dreiteilige Synergie und gemeinsame Optimierung von "Große Anlage - Großer Sprachmodell - Anwendung" zu erreichen.
Die bidirektionale Optimierung von Rechenleistung und Modell hat die Effizienz des Trainings und der Inferenz der Großen Sprachmodelle weiter verbessert. Bei der Verbesserung der Trainings-effizienz hat SenseTime die Trainings-effizienz durch die Verwendung einer automatisierten mehrdimensionalen parallelen Strategie deutlich verbessert und die FP8-Mischgenauigkeits-Training realisiert. Insbesondere für hervorragende externe Open-Source-Modelle wie DeepSeek hat die "Große Anlage" eine höhere Trainings-effizienz als in den offiziellen Berichten angegeben, was einen Branchenstandard darstellt.
Bei der Verbesserung der Inferenz-effizienz führt das Inferenzsystem von SenseTime eine Niederbit-Quantifizierungs-Inferenz durch und unterstützt sowohl den Open-Source-vLLM als auch den eigens entwickelten lightLLM-Inferenz-Engine. Am Beispiel von DeepSeek R1 ist die Inferenz-Durchsatzleistung von SenseTime um mehr als 15 % höher als die der führenden Branchenunternehmen. Durch Technologien wie Modell-Distillation, Key-Value-Caching, PD (Prefill-decode)-Trennung und Multimodal-Informationen-Kompression hat SenseTime die Inferenzkosten um eine Größenordnung gesenkt, während die Modellleistung im Wesentlichen beibehalten wurde.
Deshalb hat dasselbe Modell auf verschiedenen Rechenleistungssockeln völlig unterschiedliche Trainings- und Inferenz-effizienzen.
Mit dem stetigen Fortschritt zur generativen KI hat die "Dreiteilige Synergie" die Ressourcenvorteile von SenseTime weiter integriert und ihm ermöglicht, sich in der wettbewerbsreichen Umgebung der Großen Sprachmodelle auszuzeichnen.
Das SenseNova-Modell von SenseTime Technology konzentriert sich auf die Verbesserung von Anwendungen und Produkten in den Bereichen Produktivitätstools und Interaktionstools. Die Produktivitätstools erhöhen direkt die Produktivität in Szenarien wie Unternehmensbüroarbeit, Finanzwesen und Verwaltung. Die Zahlungsbereitschaft der Kunden, gemessen an den Auftragswerten, hat sich im Vergleich zu 2023 verzehnfacht. Die Interaktionstools befähigen Geschäftspartner auf 2B2C-Basis, die Benutzererfahrung zu verbessern und die Anforderungen in verschiedenen Szenarien wie intelligente Begleitung, Interaktion mit intelligenten Geräten und intelligente Marketing zu erfüllen. Die monatliche durchschnittliche Nutzungsanzahl der Benutzer hat sich im Vergleich zu 2023 vervielfacht.
Das SenseNova-Modell hat nicht nur einen führenden Marktanteil und eine hohe Bindung der Kunden, sondern auch eine führende Position in der Modelltechnologie beibehalten. Im April 2023 hat SenseTime erstmals das SenseNova-Modellsystem vorgestellt und bis Juli 2024 fünf große Versionen aktualisiert. Die im Juli 2024 veröffentlichte Version 5.5 des SenseNova-Modells hat eine deutliche Verbesserung in der Multimodal-Fähigkeit gezeigt und ist das erste chinesische Multimodal-Echtzeit-Interaktionsmodell, das mit GPT-4o konkurriert, und hat die native Integration von Sprache, Video und Sprachmodell realisiert. Es ist zu erwarten, dass die Version 6.0 des SenseNova-Modells am 10. April 2025 veröffentlicht wird, und die Leistung wird voraussichtlich mit Gemini 2.0 Pro konkurrieren.
Darüber hinaus hat SenseTime auch frühzeitig die Anwendungen geplant, nachdem die Infrastruktur aufgebaut wurde.
03 Warum native integrierte Multimodale Technologie?
Nach dem Aufstieg der generativen KI ist das Multimodal-Große Sprachmodell bereits zu einer Zielrichtung geworden, die von vielen Menschen verfolgt wird. Allerdings können viele Multimodal-Modelle, die in Anwendungen auf dem Markt zu finden sind, nicht als "vollständig" bezeichnet werden.
Wie Google meint, kann nur ein Multimodal-Modell, das von Grund auf neu entwickelt wird, ein fortschrittliches Modell schaffen, das die Vorgänger übertrifft. Dies bedeutet, dass es von Natur aus in der Lage ist, Inhalte unterschiedlicher Modalitäten zu lesen und auszugeben und über eine starke Multimodal-Inferenzfähigkeit und eine Transmodal-Transferfähigkeit verfügt.
Technisch wird dies als "native integrierte Multimodale Technologie" bezeichnet und wird als unvermeidlicher Weg für die zukünftige Entwicklung der KI angesehen und ist auch das derzeitige Schwerpunktforschungsthema von SenseTime.
Im Gegensatz zu traditionellen Multimodal-Modellen wandelt die Technologie von SenseTime nicht einfach Inhalte unterschiedlicher Modalitäten in Sprach-Token um und gibt sie ein, sondern integriert den gesamten Prozess von der Datenebene bis zur Modellarchitektur, einschließlich der gesamten Prozesses von Wahrnehmung, Denken bis zur Ausgabe.
Auf der globalen CVPR-Konferenz 2024 wurden 50 Artikel von SenseTime Technology akzeptiert. Die Forschungsergebnisse konzentrieren sich auf visuelle Sprachbasis-Modelle und betreffen Spitzenbereiche wie Autonomes Fahren und Robotik.
Die vielfältigen KI-Produkte von SenseTime haben bereits Anwendungs-Erfolge gezeigt. Berichten zufolge hat die "Xiaohuaxiong-Familie" von SenseTime bereits Hunderttausenden von Benutzern Milliarden Mal intelligente Hilfsdienste angeboten. Und SenseTime Jueying hat auch als erstes in der Branche die Fahrzeugseitige Implementierung eines nativen Multimodal-Großen Sprachmodells realisiert.
In der neuen Phase der KI hat SenseTime vorausschauend die Hardware-Infrastruktur und die Anwendungsseite geplant und durch die gemeinsame Optimierung der unteren und oberen Ebene eine technologische Barriere errichtet.
Bei der Infrastrukturseite hat SenseTime ein eigenes KI-Datenzentrum (AIDC) und eine skalierbare Forschungs- und Entwicklungsservice aufgebaut, um sich von traditionellen Infrastrukturunternehmen und KI-nativen Unternehmen abzuheben. Bei der Anwendungsseite hat SenseTime ein Full-Stack-System von KI-Anwendungen, das eine breite Palette von Branchen abdeckt, und das Große Sprachmodell konzentriert sich auf die Entwicklung der nativen integrierten Multimodale Technologie.
Es ist vorhersehbar, dass die "Reserven" von SenseTime nach dem Ausbruch der KI-Anwendungen großen Entwicklungspotenzial für das Unternehmen bringen können.