StartseiteArtikel

Mit über 20 Millionen Installationen und der "out-of-the-box" Kompatibilität mit weltweit führenden GPUs und KI-Frameworks wird OpenCloudOS zur ersten Wahl in der KI-Ära.

极客邦科技InfoQ2025-12-12 16:35
Unter dem Hintergrund der schnellen Iteration der Große-Modell-Trainings verdoppelt sich der Rechenleistungswunsch ungefähr alle sechs Monate, weit übersteigt die Wachstumsrate der Infrastrukturentwicklung und des Moore'schen Gesetzes. Gleichzeitig steigt der Energieverbrauch der Rechenzentren drastisch an.

Trotz der kontinuierlichen Investitionen von Unternehmen in Hardware zeigen Branchenzahlen, dass die effektive Auslastung von GPUs seit langem unter 30 % liegt. Selbst wenn Unternehmen das Zehnfache ihres Budgets für die Anschaffung von Hardware ausgeben, steigt die tatsächlich erreichte Rechenleistung oft um weniger als das Dreifache. Strukturelle Verschwendung wird immer deutlicher.

Die Gründe für die Ineffizienz werden von der Branche in drei Kategorien zusammengefasst: Ressourcenfragmentierung, schwankende Lasten in Gezeitenmuster und Konflikte zwischen Online- und Offlineaufgaben. Doch liegt das tiefere Problem nicht nur auf der Seite der Ressourcenverwaltung, sondern auch in der fragmentierten Infrastruktur, der die gesamte Branche gegenübersteht: Einerseits wächst der Umfang von AI-Training und -Inferenz kontinuierlich; andererseits gibt es eine Vielfalt von Hardwareformen, Modellframeworks, Kompilierungsumgebungen und Beschleunigungslibraries auf der unteren Ebene, ohne einheitliche Standards. Diese Fragmentierung der Ökosysteme zwingt Entwickler, häufige Anpassungen, Optimierungen und Migrationen zwischen verschiedenen Hardware- und Frameworklösungen vorzunehmen, was die Effizienz von Clustern weiter mindert.

Vor diesem Hintergrund werden die Fragen, wie man die untere Softwareebene durch ein standardisiertes System neu gestaltet und wie man eine einheitliche Orchestrierung und effiziente Ressourcenverwaltung in einer heterogenen Rechenumgebung erreicht, zu zentralen Themen der Branchendiskussion. Dies ist auch der Grund, warum die diesjährige OpenCloudOS-Operativsystem-Ökosystemkonferenz so viel Aufmerksamkeit erregt.

1   Fokus auf „Nutzbarkeit“ und „Sicherheit“, volle Kompatibilität von Nord- und Süd-Software- und Hardware-Ökosystemen  

Am 6. Dezember 2025 fand die OpenCloudOS-Operativsystem-Ökosystemkonferenz in Peking statt. Fast 30 Ökosystemunternehmen wie AMD, Arm, Muxi, Hygon Information und Tencent Cloud teilten ihre neuesten Fortschritte in Bezug auf technologische Innovation, Best Practices und gemeinsame Entwicklung mit.

Seit seiner Gründung im Jahr 2021 folgt die OpenCloudOS-Community einem Entwicklungspfad, der auf vollständiger Eigenständigkeit, Kompatibilität in allen Szenarien und Open-Source-Öffentlichkeit basiert. Dank der Integration von Tencent Clouds jahrelangen Kerntechnologien, Cloud-native Fähigkeiten und Erfahrungen in der Betriebsführung großer Serverfarmen hat sich die Community zu einem der führenden Open-Source-Operativsystem-Ökosysteme in China entwickelt. Bis heute hat das OpenCloudOS-Operativsystem mehr als 20 Millionen Knoten installiert, über 62.000 Unternehmenskunden bedient und über 97.500 Software- und Hardwareanpassungen vorgenommen.

In Bezug auf die Ökosystementwicklung hat sich die Community bereits über 1.200 Ökosystempartner und über 400 tiefer vernetzte Partner sowie über 180.000 Entwickler angezogen. Mit der zunehmenden Anzahl von beteiligten Unternehmen erweitert sich das Ökosystem von OpenCloudOS von traditionellen Rechenzentren auf neue Anwendungsgebiete wie Cloud-native Umgebungen, Edge Computing, Hochleistungsrechnen sowie AI-Training und -Inferenz.

In den letzten Jahren hat die Community ein Kompatibilitätszertifizierungssystem für verschiedene Architekturen wie x86, Arm, RISC-V und Loongson etabliert. Benutzer können die unteren Abhängigkeiten mit einem einfachen Standard-yum/dnf-Befehl in einem Schritt installieren, ohne sich um komplexe Kompilierungs- und Debuggingarbeiten kümmern zu müssen. Dies macht OpenCloudOS zu einem der am weitesten kompatiblen Open-Source-Operativsysteme in China. Darüber hinaus hat die Community auch über ein Dutzend abgeleitete Versionen von Betriebssystemen wie TencentOS, NTOS von Donghua und Red Flag Linux hervorgebracht, was einen positiven Zyklus von Open-Source-Zusammenarbeit und kommerzieller Umsetzung ermöglicht.

Technologisch gesehen wird die untere Infrastruktur durch die zunehmende Cloud-Nativität von AI-Lasten wie nie zuvor herausgefordert: Große Modellimages können leicht mehrere Gigabyte groß sein, was die Kosten für das Herunterladen und Verteilen sprunghaft steigen lässt; die Abhängigkeiten in der AI-Softwareebene sind lang und schnell wechselnd, was die Konfiguration der Umgebung immer schwieriger macht; die Vielfalt der Hardwareformen wächst rasant, und die Installation von Treibern, die Kompatibilität von Versionen und die Leistungseinstellung werden zu einer erheblichen Belastung für die Unternehmensbetreuung. Je größer die Anzahl der Knoten ist, desto deutlicher werden diese Probleme. Sowohl für die Unternehmenskosten, die Lieferzeit als auch die Ressourcennutzung sind traditionelle Betriebssysteme und Toolketten kaum noch für die Anforderungen der AI-Zeit geeignet. Diese realen Druckfaktoren machen die Entwicklung einer neuen Generation von Betriebssystemfunktionen für AI notwendig und dringend.

Deshalb hat OpenCloudOS eine systematische technologische Aufwertung im Hinblick auf die Anforderungen von AI vorgenommen, mit Schwerpunkten auf Leichtgewichtigkeit, schneller Verteilung, automatischer Wartung und Ökosystemanpassung.

Erstens hat OpenCloudOS eine Funktion zur Miniaturisierung von AI-Images eingeführt, um die hohen Kosten aufgrund der zunehmenden Größe von AI-Images zu reduzieren. Durch die automatische Entfernung von Redundanzen und die Verwendung des selbst entwickelten Chisel-Tools zur Aufteilung von Softwarepaketen, in Kombination mit statischer und dynamischer Abhängigkeitsanalyse, wird das Volumen von AI-Images erheblich reduziert, was die Kosten für das Erstellen und Übertragen senkt.

Zweitens hat OpenCloudOS ein System zur Beschleunigung des Herunterladens von großen Modellimages entwickelt: Mit der Hilfe von stargz-snapshotter wird ein Lazy-Loading-Verfahren implementiert, das die Zugangskosten durch die Einführung von fuse passthrough auf der Kernseite senkt und die Startzeit von Modellen durch die Optimierung der Vorabrufstrategie verkürzt. Gleichzeitig wird die Duplizierung von Image-Dateien durch die Verwendung von chunk-basierten Indizes vermieden, was die Netzwerk- und Speicherkosten weiter senkt.

In Szenarien mit großen Clustern hat OpenCloudOS auch die Fähigkeit zur Verteilung von Images verbessert. Durch verbesserte P2P-Beschleunigungsmechanismen wie segmentiertes paralleles Herunterladen, ungeordnetes Herunterladen und Range-Request-Proxy kann man Images schnell in einem Cluster synchronisieren. Die Unterstützung von Geschwindigkeitsbegrenzung und RDMA-Beschleunigung verkürzt die Zeit für die Verteilung in großen Clustern erheblich.

Um die Komplexität der Wartung von heterogenen Hardwarebeschleunigern zu reduzieren, bietet OpenCloudOS einen automatischen Hardware-Service, der Geräte automatisch erkennt, passende Treiber installiert und die Koexistenz mehrerer Treiberversionen unterstützt. Dies senkt von Grund auf die Schwierigkeit der Wartung von Hardware wie GPUs in Cloud-native Umgebungen.

Angesichts der großen Anzahl und des schnellen Wandelns von AI-Softwarepaketen hat OpenCloudOS einen automatischen Anpassungsprozess mit einem Agenten implementiert, der die gesamte Kette von der Versionseingabe, dem Build-Test bis zur Containerverpackung automatisiert. Bisher wurden über tausend AI-Softwarepakete angepasst, und die Beschleunigungsfunktionen werden automatisch abhängig von der verwendeten Hardware aktiviert, so dass Benutzer eine benutzerfreundliche und leistungsoptimierte Erfahrung machen können. Darüber hinaus bietet OpenCloudOS auch eine vollständige obere AI-Umgebung, einschließlich RPM-Quellen, PyPI-Quellen und verschiedenen AI-Container-Images, so dass Benutzer die Umgebung mit einfachen Befehlen einrichten können und weniger Zeit und Ressourcen für die wiederholte Erstellung von Umgebungen aufwenden müssen.

Durch diese Reihe von Aufwertungen im gesamten AI-Prozess hat OpenCloudOS ein geschlossenes System von Betriebssystemfunktionen für Cloud-native AI-Anwendungen aufgebaut, das von der Erstellung, dem Herunterladen und der Verteilung von Images bis zur Hardwareverwaltung und der Abdeckung des Software-Ökosystems reicht. Es bietet Unternehmen eine effiziente, leichte, automatische und nachhaltig entwickelbare Basis für die AI-Infrastruktur.

Um diese zukunftsträchtigen technologischen Entwicklungen zu unterstützen, reichen allein „fortgeschrittene Fähigkeiten“ nicht aus. Entscheidend ist, ob diese Fähigkeiten in Branchenanwendungen einen nachweisbaren Wertkreislauf bilden können. Die Partnerschaften zwischen Unternehmen wie Hygon Chips, Zuoyebang und Neusoft und OpenCloudOS sind gute Beispiele für die Umsetzung dieses Wertes.

Bei vielen Erstveröffentlichungen von Hygon-Chips stammen die wichtigsten Softwarepakete aus der OpenCloudOS-Community, was eine sofortige Kompatibilität und Anpassung gewährleistet. Donghua Software hat auf der Grundlage der OpenCloudOS-Betriebssystembasis erfolgreich zwei eigene Betriebssysteme entwickelt, die langfristige Probleme wie übermäßige Abhängigkeiten, lange Reparaturketten für Sicherheitslücken und unzulässige Zugriffe in Geschäftssystemen beseitigen und die Systemstabilität und -sicherheit erheblich verbessern.

Zuoyebang hat lange Zeit mit einer Kombination von Problemen wie fragmentierten Ressourcen, fragmentierter Infrastruktur und heterogenen Frameworks zu kämpfen. OpenCloudOS bietet eine einheitliche Systembasis, die die Handlungen von GPUs in verschiedenen Regionen, die Treiberketten und die Frameworkversionen einheitlich macht, so dass der Ressourcenmanager die Rechenressourcen aus einer globalen Perspektive integrieren kann. Von der Anpassung auf der unteren Ebene bis zur Verbindung mit den oberen Frameworks schafft OpenCloudOS ein multi-versioniertes AI-Ökosystem, das Unternehmen nicht zwingt, sich auf eine bestimmte Hardware oder ein einzelnes Framework zu konzentrieren, sondern es ermöglicht, dass alle Hardware in einem einheitlichen Betriebssystem-Ökosystem optimale Ergebnisse erzielt. Diese Fähigkeit ist die Schlüsselbasis für Zuoyebang, um die Probleme der Rechenressourcennutzung zu lösen und die Einrichtung eines einheitlichen Rechenressourcenpools voranzutreiben.

2   Tiefe Evolution für AI: Die offizielle Veröffentlichung des OpenCloudOS Infra Intelligenten Fundaments  

Mit der zunehmenden Umsetzung von großen Modellen und verschiedenen AI-Anwendungen in der Praxis verschiebt sich das zentrale Problem der Branche von „unzureichende Modellleistung“ hin zu „hohe Komplexität der Rechenressourcen“. Der Konflikt zwischen dem sprunghaft wachsenden Bedarf an Rechenleistung und der uneinheitlichen und fragmentierten Software- und Hardwareinfrastruktur wird immer deutlicher. Entwickler müssen viel Zeit und Personal in mühsame Arbeiten wie die Anpassung von Treibern, die Einrichtung von Umgebungen und die Kompatibilität von Frameworks investieren, was die Innovationsgeschwindigkeit der Branche stark einschränkt.

Vor diesem Hintergrund hat die OpenCloudOS-Community in Zusammenarbeit mit Partnern wie Ascend, Hygon, AMD, Muxi, Kunlunxin sowie vLLM, SGLang, Zuoyebang und Tencent Cloud während der OpenCloudOS-Operativsystem-Ökosystemkonferenz das „OpenCloudOS Infra Intelligente Fundament“ vorgestellt, das darauf abzielt, eine einheitliche AI-Rechenleistungbasis und ein offenes Technologysystem zu schaffen, das von Branchenpartnern gemeinsam vorangetrieben wird.

Die Logik hinter dieser Veröffentlichung ist klar: Um die industrielle Umsetzung von AI auf einem größeren Maßstab und kostengünstig zu ermöglichen, muss man auf der Ebene des Betriebssystems eine einheitliche, stabile, hochkompatible und nachhaltig entwickelbare „AI-Rechenleistungbasis“ schaffen.

Der Grund, warum OpenCloudOS so viele Partner zusammenbringen kann, liegt darin, dass es ein gemeinsames Problem aller Beteiligten löst: Die fragmentierte Rechenleistungsekosysteme verursachen enorme Wiederholungskosten.

Für Chiphersteller bedeutet die fehlende einheitliche Anpassungsstandard und die fehlende allgemeine Softwarebasis, dass sie jedes Mal, wenn sie ein neues Produkt auf den Markt bringen, erhebliche Kosten für die Anpassung der Basis-Treiber aufwenden müssen. Für Frameworkentwickler müssen sie bei der Kombination von verschiedenen Betriebssystemen, Treibern und Hardware immer wieder die Leistung optimieren und die Stabilität überprüfen. Für Unternehmenskunden müssen sie oft über Dutzende von Abhängigkeiten, Konflikten und Konfigurationsproblemen hinweggehen, um ein AI-Framework einzurichten. OpenCloudOS bietet über das Intelligente Fundament eine einheitliche Schnittstelle, eine einheitliche Integration und eine einheitliche Laufzeitumgebung, die es verschiedenen Herstellern ermöglicht, in einem einheitlichen Ökosystem zusammenzuarbeiten und die technologischen Reibungen in der gesamten Branche von Grund auf zu reduzieren.

Basierend auf diesem Kooperationsmechanismus hat das OpenCloudOS Infra Intelligente Fundament ein ganzheitliches AI-Infrastruktursystem aufgebaut, das aus drei Kernschichten besteht: „AI-bereit aus der Box“, „Ökosystem für AI-Softwareunterstützung“ und „Ökosystem für AI-Hardwareunterstützung“. Mit der OpenCloudOS 9-Version hat die Community die offiziellen Treiber und Rechenstapel von mehreren führenden internationalen und nationalen AI-Beschleunigungs-Chips tiefgehend integriert und validiert. Früher mussten Entwickler Stunden oder sogar Tage damit verbringen, Treiberprogramme manuell herunterzuladen, zu kompilieren und zu debuggen. Jetzt können sie alle unteren Abhängigkeiten mit einem einfachen yum install- oder dnf install-Befehl in einem Schritt installieren, was die Kosten für die Einrichtung der Umgebung erheblich senkt.

Was genau kann das OpenCloudOS Infra Intelligente Fundament leisten?

Bei der Software- und Frameworkebene hat OpenCloudOS über 20 führende AI-Frameworks und intelligente Anwendungen tiefgehend angepasst, die Abhängigkeiten bereinigt und die Leistung optimiert und in standardisierte Images verpackt, die direkt verwendet werden können. Traditionell kann die Einrichtung eines AI-Frameworks Dutzende von Schritten erfordern, während man im System des Intelligenten Fundaments dies in drei Schritten – „Ein-Klick-Installation der Containerabhängigkeiten – Start des vorkonfigurierten Frameworks – Start des Dienstes“ – erledigen kann. Die Einrichtungszeit wird von Tagen oder Stunden auf Minuten reduziert. Dies ermöglicht es Entwicklern, nicht länger durch Umgebungsfragen behindert zu werden und bietet auch eine wiederholbare und erweiterbare Basis für die großangelegte Einrichtung von AI-Diensten in Unternehmen.

In Bezug auf Leistung und Ressourcenverwaltung bringt das Intelligente Fundament auch erhebliche Verbesserungen: Das Volumen von Containerimages wird um bis zu 94 % reduziert, was die Speicher- und Übertragungskosten senkt; die Verteilungsgeschwindigkeit von Images und Modellen nähert sich der Hardwaregrenze; das selbst entwickelte FlexKV-verteilte KVCache-System kann die Latenz des ersten Tokens in Hochlastszenarien um etwa 70 % reduzieren. Diese Systemoptimierungen, die auf die Eigenschaften von AI-Lasten abgestimmt sind, ermöglichen es OpenCloudOS nicht nur, AI-Anwendungen auszuführen, sondern auch, diese „effizient, stabil und im großen Stil“ auszuführen.

Zusätzlich hat OpenCloudOS die AI-bereiten Fähigkeiten auch in die Cloud erweitert. Die OpenCloudOS-Images, die auf der Tencent Cloud HAI-Plattform angeboten werden, enthalten bereits CUDA-Komponenten, so dass Benutzer ohne manuelle Konfiguration eine sofort einsatzbereite AI-Entwicklungs- und Inferenzumgebung erhalten können und eine nahtlose Zusammenarbeit von der lokalen Umgebung bis in die Cloud ermöglichen. Diese Fähigkeit ermöglicht es Unternehmen, schnell AI-Dienste zu entwickeln, zu validieren und online zu stellen, was die Zeit für die industrielle Umsetzung weiter verkürzt.

3   Fazit  

Wenn man auf die gesamte Konferenz zurückblickt, zeigt die technologische Entwicklung und die Ausweitung des Ökosystems von OpenCloudOS in den letzten Jahren eine klare Richtung: Die Infrastruktur in der AI-Zeit ist kein bloßer Sammelplatz von Einzeloptimierungen, sondern ein systematisches Projekt, das über Chips, Frameworks und Anwendungsfälle hinweggeht. Ob es sich um die Miniaturisierung von Images, das bedarfsorientierte Laden, die P2P-Beschleunigung oder die einheitliche Unterstützung von vielfältigen Rechenleistungen durch das Int