StartseiteArtikel

GMI Cloud King Cui: Wie können KI-Unternehmen die Rechenleistungslücken schließen und die Stabilität von GPU-Clustern gewährleisten? | WISE 2024 Geschäftskönig

王方玉2024-12-06 14:07
Der Trend zur Globalisierung von KI-Anwendungen beschleunigt sich, und die für Training und Inferenz erforderliche GPU-Rechenleistung, insbesondere die von High-End-GPUs, erfährt einen rapiden Anstieg der Nachfrage, wodurch auch die Herausforderungen in Bezug auf die Gesamtstabilität täglich zunehmen. Für die meisten KI-Unternehmen, die international expandieren, ist die Wahl eines stabilen, sicheren und effizienten GPU-Cloud-Anbieters mit unterstützender Softwareplattform weitaus wertvoller als der Einsatz von reinen, kostengünstigen Bare-Metal-GPU-Servern, sei es zur Kostensenkung oder zur Effizienzsteigerung.

Die Umwelt verändert sich ständig, und die Zeiten ändern sich in schneller Folge. Die "Könige des Geschäfts" folgen den Wellen der Zeit, bleiben kreativ und suchen nach neuen Impulsen. Angesichts des großen Wandels in der chinesischen Wirtschaft veranstalten wir die WISE2024 Business Kings Conference, um die wirklich widerstandsfähigen "Könige des Geschäfts" zu entdecken und die "richtigen Dinge" in der chinesischen Geschäftswelt zu erforschen.

Am 28. und 29. November findet die zweitägige 36Kr WISE2024 Business Kings Conference feierlich in Peking statt. Als All-Star-Gala im chinesischen Geschäftsfeld feiert die WISE-Konferenz in diesem Jahr ihre zwölfte Auflage und bezeugt die Widerstandsfähigkeit und das Potenzial des chinesischen Geschäfts in ständig sich verändernden Zeiten.

Das Jahr 2024 ist unklar und zeichnet sich mehr durch Veränderung als durch Stabilität aus. Im Vergleich zu den letzten zehn Jahren hat sich das Tempo verlangsamt und die Entwicklung ist rationaler geworden. 2024 ist auch ein Jahr, in dem nach neuen wirtschaftlichen Impulsen gesucht wird, und die Veränderungen in den neuen Industrien stellen höhere Anforderungen an die Anpassungsfähigkeit jedes Akteurs. Die diesjährige WISE-Konferenz steht unter dem Motto "Hard But Right Thing" (Das Richtige tun), und die Frage, was 2024 das Richtige ist, ist ein Thema, über das wir uns mehr austauschen wollen.

Rechenleistung, als zentrale Antriebskraft der KI-Technologie, beeinflusst direkt die Leistung und Effizienz von KI-Anwendungen. Im globalen Betrieb ist es für KI-Unternehmen derzeit entscheidend, wie sie eine ausreichende und effiziente Rechenleistung sicherstellen und Probleme wie den Mangel an KI-Rechenleistung und die geringe Stabilität der KI-Infrastruktur bewältigen können.

Zu diesen Themen hat King Cui, Präsident von GMI Cloud Asien-Pazifik, auf der Konferenz seine Gedanken und Einsichten geteilt.

King Cui, Vortrag vor Ort

| Nachfolgend der vollständige Text des Vortrags von King Cui, leicht gekürzt:

Guten Nachmittag, meine Freunde! Ich bin King von GMI Cloud und möchte heute darüber sprechen, wie KI-Unternehmen im Ausland ihre Schwächen ausgleichen und Stabilität gewährleisten können.

Ich bin seit über zehn Jahren im Cloud-Computing tätig und habe die Entwicklung des Cloud-Computings in drei Phasen unterteilt. Mit der Entstehung und dem Aufstieg von OpenAI ist die Cloud in das Zeitalter 3.0 eingetreten, das sich völlig vom klassischen Cloud-Computing unterscheidet. Unternehmen verlagern ihre Rechenanforderungen zunehmend von der CPU auf die GPU, und die Speicherzeiten haben sich im Vergleich zu früher vervielfacht, sodass wir neue Formen entwickeln müssen. Vor diesem Hintergrund haben wir GMI Cloud gegründet, ein Unternehmen, das sich auf globale KI-Unternehmen und Plattformen konzentriert und seinen Hauptsitz im Silicon Valley hat. Im letzten Jahr haben wir den Status eines zertifizierten Partners von Nvidia erhalten.

Warum haben wir in der Asien-Pazifik-Region das Recht zur Zuteilung von GPUs erhalten? Neben der Zusammenarbeit mit Nvidia pflegen wir auch gute Beziehungen zu GPU-Herstellern, die ebenfalls unsere Partner sind. Unser Vorteil besteht darin, dass wir als Erste die neuesten GPUs erhalten und in der Asien-Pazifik-Region die neuesten Server bereitstellen können. Zum Beispiel haben wir im August dieses Jahres den H200 unserer Cloud-Service angeboten, und im ersten Quartal des nächsten Jahres werden wir als Erste in der Asien-Pazifik-Region den GB200 Cloud-Service anbieten. Unser Ziel ist es, eine KI-Cloud-Plattform aufzubauen und stabile KI-Infrastrukturen für KI-Unternehmen anzubieten.

Wir verfügen derzeit über zehn Datenzentren weltweit, wobei die Chips hauptsächlich H100 und H200 sind. Im Oktober dieses Jahres haben wir eine neue Finanzierungsrunde in Höhe von 82 Millionen US-Dollar angekündigt, die hauptsächlich für den Aufbau von Datenzentren und die Erschließung neuer H200 GPU-Cloud-Services eingesetzt werden soll.

Unsere Vision ist es, im Zeitalter der AI-Cloud-Native ein Unternehmen wie TSMC zu werden, um unseren Partnern stabile AI-Clouds zu bieten. Wir konzentrieren uns ausschließlich auf unsere AI-Cloud und entwickeln keine großen Modelle oder Anwendungen.

Nachdem Sie ein grundlegendes Verständnis für GMI Cloud erhalten haben, wenden wir uns nun dem Thema der KI-Expansion zu. Heutzutage redet jeder darüber, aber niemand erklärt, warum es notwendig ist. In der Ära der Künstlichen Intelligenz ist der Unterschied zu früheren Zeiten deutlicher geworden. Für unsere Generation war der technologische Fortschritt vom Internet zum mobilen Internet revolutionär. Das Aufkommen der AI-Epoche ist plötzlich und intensiv und hat tiefgreifende Auswirkungen auf die Gesellschaft und die Entwicklung der Produktion. Deshalb bin ich auf Antrieb dieser Zeiten von einem großen Unternehmen in ein Start-up gewechselt.

Bis August dieses Jahres gibt es weltweit mehr als 1700 AI-bezogene Apps, darunter 280 Apps in China. Etwa 30 % dieser Apps sind für den internationalen Markt bestimmt, was etwa 92 Apps entspricht. Auf dem PPT können Sie die Top 30 MAU sehen, deren Wachstumsrate seit Januar dieses Jahres um über 120 % gestiegen ist.

Eine der unverzichtbaren Grundlagen für die Expansion von KI-Anwendungen im Ausland ist die Rechenleistung. Daten, Algorithmen und Rechenleistung sind die drei Säulen der KI, wobei die Rechenleistung das Fundament bildet. Es gibt erhebliche Unterschiede zwischen inländischen und ausländischen Anbietern, wobei die Herausforderungen der GPU-Ära im Vergleich zur traditionellen CPU-Ära ungleich größer sind. In der CPU-Ära wurden solche groß angelegten Implementierungen bereits praktiziert, während für die Stabilität der Ausland-Infrastruktur in der KI-Ära der asiatische Markt enorme Herausforderungen darstellt.

Ein Beispiel: META hat kürzlich einen Bericht veröffentlicht, in dem über 10.000 H100 verwendet wurden, um ihr großes Modell Llama 405B in einem Zeitraum von 54 Tagen zu trainieren. Dabei traten 466 Störungen auf, von denen 419 unerwartet waren, darunter 58 % GPU-bezogene Probleme (über 280) im Vergleich zu nur zwei CPU-bezogenen Störungen. Diese Gegenüberstellung verdeutlicht die Herausforderungen in Bezug auf die Stabilität von GPUs im Vergleich zu CPUs.

Die Stabilität von GPUs betrifft direkt die Effizienz der Forschung und Entwicklung sowie die Kosten in Bezug auf Zeit und Geld. So wird nun berichtet, wie GMI Cloud die hohe Stabilität von GPU-Clustern sicherstellt.

In Bezug auf die Architektur unserer Cluster sind wir vollständig eigenständige Entwickler. Wir haben die vollständige Kontrolle über die GPU-Hardware, einschließlich Hochgeschwindigkeits-GPU-Server, Speicher und Netzwerk. Auf der PaaS-Ebene arbeiten wir mit Partnern zusammen, um gemeinsam an großen Modellen zu arbeiten. Kunden können auf Basis ihrer eigenen großen Modelle entwickeln, und wir bieten auch Dienste zur Optimierung an, um Unternehmen und Entwicklern Open-Source-große-Modelle anzubieten, die mit nur einem Klick auf dem Cloud-Cluster bereitgestellt werden können.

GMI Cloud

(Nachfolgend) Dies sind unsere Produkte, die Unternehmen bei der Automatisierung der Verwaltung von GPU-Clustern unterstützen. Wir bieten Speicher- und Netzwerkdienste an, die über einen Aufgabenplaner verwaltet werden, um die Einstiegshürden für die Nutzung von GPU-Clustern durch Unternehmen zu senken.

GMI Cloud

(Nachfolgend) In diesem Abschnitt sprechen wir über die Netzwerkhardware. Auf der linken Seite des Bildes ist der IB-Cluster mit hunderttausenden Netzwerkkarten zu sehen. Wir bieten IB-Hochgeschwindigkeitsnetzwerke an. Tatsächlich verfügen nicht alle Unternehmen über die Erfahrung in der Verwaltung eines IB-Clusters mit hunderttausenden Netzwerkkarten. Wir sind eines der wenigen Unternehmen, die über diese Erfahrung verfügen. Wir bieten auch VBC-Dienste an, bei denen unterschiedliche Nutzer innerhalb von GPU-Clustern verschiedene VPCs nutzen können, um Ressourcen zu isolieren und Nutzungskonflikte zu vermeiden.

GMI Cloud

An der Speicherebene bieten wir für unterschiedliche Geschäftsszenarien verschiedene Speichermedien an. Beispielsweise wird bei Backup-Szenarien keine hohe IOPS benötigt, wohingegen beim Speichern von Checkpoints für große Modelltrainings oder bei der Datenerfassung für autonomes Fahren hohe IOPS erforderlich sind. Unternehmen können je nach Szenario und wirtschaftlichen Modellen das passendste Speichermedium auswählen.

Für größere GPU-Cluster ist zur Erhöhung der Stabilität und Skalierbarkeit eine fortschrittliche Echtzeitüberwachungsplattform erforderlich. Daher haben wir ein Überwachungssystem für das Cluster-Management entwickelt, das eine Ende-zu-Ende-Überwachung ermöglicht. Auf dieser Plattform kann detailliert identifiziert werden, welches Netzwerkknoten unterbrochen ist. Probleme können schnell erkannt und isoliert werden, sodass unsere Partner vor Ort Maßnahmen ergreifen können. Darüber hinaus unterstützen wir historische Datenabfragen, Rückverfolgbarkeit und Alarmüberwachung mit entsprechenden Lösungen.

Im Vorfeld der Auslieferung durchläuft GMI Cloud zwei Phasen, um die Qualität, Stabilität und Zuverlässigkeit der Cluster zu gewährleisten. Der erste Test ist das Nvidia NCP-Zertifizierungssystem, da wir Partner von Nvidia sind. Unser Design wird zunächst von Nvidia validiert, dann implementieren wir, führen die entsprechenden Tests durch und prüfen die Verfügbarkeit des Clusters, einschließlich Leistungs- und Stresstests. Vor der endgültigen Übergabe führen unsere Ingenieure auch alle notwendigen Hardware- und Software-Tests durch und führen Basismodelltests durch, um sicherzustellen, dass die Trainingstasks auf unseren GPUs einwandfrei ablaufen. Mit dem doppelten Prüfstandard des Nvidia-Qualitätsmanagementsystems und der GMI-eigenen Abnahmegarantie wird sichergestellt, dass die gelieferten Cluster von hoher Stabilität sind.

Erwähnenswert ist zudem das Thema der Fehlerprognose. Bei Problemen ist eine schnelle Erkennung, Reaktion und Lösung von größter Bedeutung. Daher haben wir dabei zwei Ansätze: GMI Cloud ist ein enger Partner von IDC, und mit jedem lokalen IDC weltweit arbeiten wir zusammen, um lokale Implementierungen anzubieten. Zudem halten wir mit GPU-ODM-Herstellern dauerhaft 3-5 % Ersatzmaschinen vor, damit im Falle eines Hardwareausfalls sofortiger Austausch durch unser Onsite-Personal erfolgen kann. Die Support-Strukturen von GMI Cloud gewährleisten eine schnelle Problemidentifikation und -lösung und eine hohe Servicequalität (SLA) bei der Auslieferung. Weniger als 99 % der global verfügbaren GPU-Cluster erreichen eine solche SLA, und GMI Cloud gehört dazu.

Nach der Erörterung der Stabilität und Lösungsvorschläge wenden wir uns nun der Frage zu, wie beim AI-Infra-Auswahlprozess die richtige Cloud-Infrastrukturpartnerschaft eingegangen wird. Unternehmen wählen für die Expansion Dienste für kurzfristige oder langfristige Zwecke aus. GMI Cloud bietet maßgeschneiderte Lösungen, die sich an die Bedürfnisse der jeweiligen Kunden anpassen. Ist ein Cluster langfristig gemietet, empfehlen wir eine exklusive Verwendung für den Kunden. Sollten kurzfristige Anforderungen bestehen, bietet GMI Cloud eine ganzheitliche Lösung von der Basisinfrastruktur bis zur Konfiguration des maßgeschneiderten Clusters. GPU-Cluster können je nach Anforderung und Standort eingerichtet werden.

In der Softwareebene verfügt GMI Cloud über eine eigene Cluster Engine mit einer Stabilität, die der der CPU-Ära gleicht, jedoch bei einem flexiblen Zahlungssystem. Leistungen können stundenweise oder bei Bedarf auf Jahre hinweg verlangt werden. Darüber hinaus bietet GMI Cloud AI-Beratungsdienste mit 70 % Forschungs- und Entwicklungsmitarbeitern, von denen die Hälfte zuvor bei Google tätig war, und bringt ihre umfangreiche Erfahrung in Bezug auf AI-Algorithmen und HPC-bedingte Hochverfügbarkeit in das Geschäft ein.

Zum Abschluss dieser Präsentation möchte ich zwei Praxisbeispiele vorstellen. Der erste Fall ist ein großes Online-Arbeitsvermittlungsgeschäft, das bei der Einrichtung eines privaten GPU-Clusters im Ausland von GMI Cloud unterstützt wird - von der Infrastruktur bis zur GPU in einem umfassenden Aufbauprozess, sodass sich das Unternehmen ausschließlich auf seine Geschäftstätigkeit konzentrieren kann. Der zweite Fall ist eine bekannte Livestream-Plattform, auf der Echtzeitübersetzungen ohne ASR oder TTS erfolgen, direkt mit einem großen Modell auf GMI Cloud. Beide sind Beispiele für unterschiedliche Produkte und Dienstleistungen, die wir anbieten.

Das war mein heutiger Vortrag. Ich habe von der Architektur von GMI Cloud über die Systemimplementierung bis zur Versorgungskettenunterstützung berichtet. Vielen Dank für Ihre Aufmerksamkeit! Für weitere Informationen folgen Sie bitte dem WeChat-Account von "GMI Cloud".

GMI Cloud