36Kr Exclusive: Open-Source Heterogene Computing Power Scheduling Platform "Melon Intelligence" erhält Millionen Yuan von Fosun Capital, bietet effiziente & flexible Computing Power Lösungen für Unternehmen

Die Technologie der heterogenen Rechenleistungspooling ist nicht nur ein Werkzeug zur Effizienzsteigerung, sondern auch die "letzte Meile" für chinesische Chips, um in die Mainstream-Produktionsumgebung einzudringen.

Mit der Ankunft der Ära der großen Modelle ist die Rechenleistung von GPUs zu einem knapperen Rohstoff geworden als Gold. Gleichzeitig besteht ein Hungerverlangen nach Rechenleistung auf Unternehmensseite, während andererseits Rechenleistungserwartungen verschwendet werden. Aufgrund des Mangels an effizienten Virtualisierungsmanagementtools schwankt die durchschnittliche Auslastung von GPUs weltweit oft zwischen 10 % und 20 %. Ein Großteil des Grafikspeichers und der Rechenleistung bleibt im Modus der "statischen Zuweisung" untätig.

36Kr hat kürzlich erfahren, dass die Plattform für die Virtualisierung und effiziente Scheduling-Management von heterogener Rechenleistung "Dynamia.ai" (Migua Intelligence) eine Angel-Runde Finanzierung abgeschlossen hat. Diese Runde wurde von Fosun Capital Group geleitet, und Zhuopu Capital sowie die Investoren der Seed-Runde haben mitinvestiert. Laut Mitteilung belief sich der Betrag der Angel-Runde Finanzierung auf mehrere tausend Yuan. Die Mittel werden hauptsächlich für den Aufbau der Open-Source-Ökosystem von HAMi und die industrielle Umsetzung der heterogenen Rechenleistungsscheduling-Plattform verwendet.

Die "Fragmentierung" der heterogenen Rechenleistung

Mit der ständigen Entwicklung der inländischen Rechenleistung und der vielfältigen KI-Chips wird die interne Rechenleistungsumgebung von Unternehmen immer vielfältiger und komplexer. Die Koexistenz von GPUs und KI-Beschleunigungs-Chips unterschiedlicher Architekturen und Hersteller in derselben Infrastruktur stellt neue Herausforderungen bei der Verwaltung, dem Scheduling und der Nutzung von Rechenleistungserwartungen dar.

Bei der praktischen Umsetzung müssen Unternehmen in der Regel mit Problemen wie der Schwierigkeit der einheitlichen Planung heterogener Rechenleistungserwartungen, der unzureichenden Effizienz der Ressourcenfreigabe und der niedrigen Auslastung der Rechenleistung fertig werden. Dies ist auch ein Schlüsselpunkt, der in der gegenwärtigen Infrastrukturentwicklung der KI noch zu lösen ist. Der Kernpunkt der Innovation von Migua Intelligence liegt in dem von ihr initiierten und geleiteten CNCF (Cloud Native Computing Foundation) Open-Source-Projekt - HAMi. Als einziges weltweit auf die Virtualisierung heterogener Rechenleistung spezialisiertes CNCF-Projekt hat HAMi das Ziel, die "einheitliche Sprache" im Bereich der Rechenleistungsscheduling zu werden.

Rechenleistungszuweisung

Pooling der heterogenen Rechenleistung: Vom "statischen Alleinbesitz" zum "dynamischen Entkoppeln"

Migua Intelligence hat mit HAMi ein System für die tiefe Virtualisierung und das Pooling-Management aufgebaut, das eine tiefe Entkopplung von Rechenleistungserwartungen und physischer Hardware ermöglicht. Ihre Kerntechnologiefähigkeiten manifestieren sich in folgenden Dimensionen:

Feingranulare Aufteilung und Übervermarktung von Grafikspeicher: Unterstützt die Aufteilung des Grafikspeichers und der Rechenleistung eines einzelnen GPUs mit einer Genauigkeit von 1/10 oder noch kleiner und führt den Mechanismus der "Over-provisioning" ein, um sicherzustellen, dass mehrere hochparallele Aufgaben bei der Ressourcenfreigabe nicht in Konflikt geraten und die Tragfähigkeit einer einzelnen Karte erheblich erhöht wird.
Einheitliche Anpassung und dynamisches MIG für heterogene Hersteller: Die Anpassung an mehr als 9 Arten von Chips wie NVIDIA, Huawei Ascend, Muxi, Moore Threads, Cambricon, Hygon, Enflame usw. wurde abgeschlossen, und die flexible Konfiguration des dynamischen MIG (Multi-Instance GPU) wird unterstützt, so dass Rechenleistung unterschiedlicher Architekturen in dasselbe Ressourcenpool für die standardisierte Verwaltung aufgenommen werden kann.
Automatische elastische Skalierung und Prioritätsmechanismus: Unterstützt die automatische elastische Skalierung des Grafikspeichers und die Unterdrückung von OOM und arbeitet in Verbindung mit dem Mechanismus des Prioritätsvorrangs von Aufgaben zusammen, um sicherzustellen, dass die Kernbusinessprozesse bei knappen Ressourcen priorisiert unterstützt werden.
Cloud-Native Null-Eingriff und Hochleistungs-Turbo-Modus: Optimiert die Scheduling-Effizienz durch den Hochleistungs-Turbo-Modus und realisiert die native Integration in die Kubernetes-Ökosystem. Benutzer müssen keine Codeänderungen vornehmen, um die automatische Erkennung und Zuweisung von Rechenleistung in der Produktionsumgebung zu realisieren.

Im Anwendungsfall von Shunfeng Technology hat Migua Intelligence es geschafft, 19 Testdienste auf nur 6 GPUs erfolgreich zu deployen. Die Aufgaben, die ursprünglich 19 Karten benötigten, können jetzt mit 13 Karten weniger ausgeführt werden, was eine mehr als doppelte Steigerung der Ressourceneffizienz bedeutet. Im Fall der vietnamesischen KI-Lernplattform PREP EDU, angesichts der komplexen heterogenen Umgebung mit gemischten RTX 4070 und 4090, hat die Scheduling-Fähigkeit von HAMi vGPU zusammen mit der DevOps-Team von PREP EDU, die ihren Arbeitsablauf stark optimiert hat, dazu geführt, dass die Probleme der GPU-Cluster um 50 % reduziert und die GPU-Infrastruktur um 90 % optimiert wurden.

Neben den Open-Source-Produkten bietet Migua Intelligence auch kommerzielle Produkte auf Unternehmensebene an. Innerhalb eines Quartals nach der Gründung der Firma wurden Produktauftragsverträge im Wert von 2 Millionen Yuan erzielt, und es wurde die aktive Anpassungssupport von AWS Inference-Chips erhalten.

In der praktischen Anwendung wird HAMi als Open-Source-Projekt von mehreren Unternehmen und Entwicklungsteams für die Freigabe und das Scheduling von heterogenen GPU-Ressourcen verwendet. Im Anwendungsfall von Shunfeng Technology wurde es möglich, 19 Testdienste auf nur 6 GPUs erfolgreich zu deployen. Die Aufgaben, die ursprünglich 19 Karten benötigten, können jetzt mit 13 Karten weniger ausgeführt werden, was eine mehr als doppelte Steigerung der Ressourceneffizienz bedeutet. Im Fall der vietnamesischen KI-Lernplattform PREP EDU, angesichts der komplexen heterogenen Umgebung mit gemischten RTX 4070 und 4090, hat die Scheduling-Fähigkeit von HAMi vGPU zusammen mit der DevOps-Team von PREP EDU, die ihren Arbeitsablauf stark optimiert hat, dazu geführt, dass die Probleme der GPU-Cluster um 50 % reduziert und die GPU-Infrastruktur um 90 % optimiert wurden.

Rechenleistungsscheduling

Auf dieser Grundlage hat Migua Intelligence kommerzielle Produkte und technische Dienstleistungen für Unternehmenskunden um HAMi herum entwickelt, um Unternehmen bei der Umsetzung der heterogenen Rechenleistungsscheduling in der Produktionsumgebung bessere Ingenieurleistungen, Stabilitätssupport und kontinuierliche Wartungssicherung zu bieten. Derzeit hat die Firma mit mehreren Unternehmenskunden kommerzielle Kooperationen eingegangen und schreitet schrittweise zur kommerziellen Umsetzung von Open-Source-Projekten zu Lösungen auf Unternehmensebene voran.

Von der Open-Source-Genetik zum geschlossenen Geschäftsmodell

Das Kerngründungsteam von Migua Intelligence hat langjährige Erfahrung in den Bereichen Cloud Computing, Cloud-Native und KI-Infrastruktur. Zhang Xiao, CEO, war früher Leiter des Container-Teams bei DaoCloud, einem führenden Unternehmen im Bereich der Cloud-Native-Technologie. Li Mengxuan, Mitbegründer und CTO, war früher Leiter der heterogenen Rechenleistungstechnologie bei Fourth Paradigm. Beide Gründer sind Kernmitarbeiter von Kubernetes und Betreuer mehrerer CNCF-Projekte (/lange Zeit am Open-Source-Projekt von Kubernetes und der CNCF-Ökosystem beteiligt). In den letzten Jahren hat die Künstliche Intelligenz rapide entwickelt, und die Cloud-Native-Infrastruktur ist zur ersten Wahl in der KI-Ära geworden. Die Containerverwaltung als Grundstein für die Erstellung von Cloud-Native-Plattformen hat sich zu einer Schlüsseltechnologie für die Umsetzung von KI-Anwendungen entwickelt. Das Team von Migua Intelligence hat die Freigabe und einheitliche Verwaltung von heterogenen GPU-Ressourcen erforscht und auf dieser Grundlage Migua Intelligence gegründet, um die verwandten Fähigkeiten in die Ingenieurpraxis und Unternehmensebene umzusetzen.

Zhang Xiao, Gründer von Migua Intelligence, sagte: "Vor dem Hintergrund der Autonomie der Rechenleistung ist die Technologie der heterogenen Rechenleistungspooling nicht nur ein Werkzeug zur Effizienzsteigerung, sondern auch der "letzte Kilometer" für die inländischen Chips, um in die Mainstream-Produktionsumgebung einzudringen. Selbst wenn wir eine Finanzierung erhalten haben, benötigen die Rechenleistungsscheduling und der Aufbau der Ökosystem "geduldiges Kapital". Wir streben keine aggressiven kurzfristigen kommerziellen Ziele an, sondern halten fest an der Etablierung eines "tatsächlichen Standards" in der Branche über die Open-Source-Community HAMi. Unsere Vision ist es, die heterogene Rechenleistung wie Wasser und Strom zu machen, einfach und praktisch durch Open-Source zu gestalten und tatsächlich eine weltweit führende Rechenleistungsscheduling-Ökosystem aufzubauen, um die effiziente Umsetzung der KI-Industrie zu ermöglichen."

Meinungen der Investoren:

Ye Lijuan, leitende Geschäftsführerin der Investition von Fosun Capital Group, sagte, dass die Heterogenität eine langfristige Struktur des Rechenleistungmarktes werden wird. Sowohl GPUs als auch neue Rechenleistungschips sind die wichtigste Basis der KI. Migua Intelligence ist in der großen KI-Ökosystem unverzichtbar, um die Rechenleistungseite und die Anwendungsseite zu verbinden, die Rechenleistungseffizienz für die Kunden erheblich zu verbessern und die teuren Rechenleistungskosten zu sparen. Das Open-Source-Projekt HAMi hat bereits eine beträchtliche Ökosystem von Entwicklern und Nutzern aufgebaut - dieser Weg stimmt auch gut mit der Entwicklungstrend der Open-Source und der Zusammenarbeit in der KI-Branche überein. Die flexible, elastische, bedarfsorientierte und zuverlässige Virtualisierungstechnologie von HAMi ermöglicht die effiziente Aufteilung und das Scheduling von Rechenleistung, verbessert die Auslastung der Rechenleistung erheblich und bringt so den globalen Kunden eine wettbewerbsfähige Rendite auf Investition (ROI).

Chen Minjie, Investmentdirektor von Zhuopu Capital, hat in einem Gespräch mit Migua Intelligence erwähnt, dass in der vergangenen Ära des Cloud-Computings mit CPU als Kern ein Virtualisierungskonzern wie VMware entstanden ist. Jetzt, in der Ära des KI-Rechenens mit GPU als Kern, besteht ebenfalls eine enorme Diskrepanz zwischen der Rechenleistungserwartung der KI-Aufgaben und der Verteilung der unteren Hardware. Die Virtualisierung ist der Schlüssel zur Verwirklichung der KI für alle.

Die gegenwärtige Situation der Vielfalt und Heterogenität der inländischen Rechenleistung verleiht der Open-Source von HAMi eine tiefere Bedeutung. Open-Source ist nicht nur eine Gesinnung, sondern eine Notwendigkeit für das Überleben und die Entwicklung und eine Umgestaltung der gegenwärtigen Rechenleistungsortung. HAMi möchte die Barrieren der Hardware brechen und die Rechenleistung zu einer öffentlichen Infrastruktur wie Wasser machen, um die heterogenen Chips mit der globalen Ökosystem in Resonanz zu bringen. In diesem Trend hat HAMi die Chance, zum globalen Standard für die Virtualisierung der heterogenen Rechenleistungsscheduling zu werden.

Dieser Artikel wurde ursprünglich von「瀚海」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

36Kr Exclusive | Das Open-Source Heterogene Computing Power Scheduling Platform "Melon Intelligence" erhält mehrere Millionen Yuan Investition von Fosun Capital, bietet Unternehmen effiziente und flexible Computing Power Lösungen