Wie kann die Billionen-Kluft im KI-Speicher geschlossen werden?
Die Speicherung von Künstlicher Intelligenz (KI) befindet sich derzeit in einer Phase exponentiellen Wachstums. Dank technologischer Durchbrüche wie der Entkopplung von Hardware und der Universal Storage - Architektur sowie der Software - Definition kann die neue Generation verteilter Speicherlösungen als effizientere Dateninfrastruktur Latenzen im Bereich von Hundertmikrosekunden und Durchsätze im TB - Bereich erreichen. Sie kann Kernanwendungsfälle wie das Training, die Inferenz und die Zusammenarbeit von Multi - Agenten unterstützen und wird allmählich zur Hauptwahl für die Speicherschicht in der KI - Ära.
Dieser Artikel bietet eine tiefe Analyse der technologischen Wege und zukünftigen Entwicklungstrends von Speichersoftware in der KI - Ära. Wir laden Sie ein, mit uns über Branchenchancen und Investitionsmöglichkeiten zu diskutieren.
Das kalifornische KI - Speicherunternehmen Vast Data führt derzeit intensive Verhandlungen mit CapitalG, dem Wachstumsfonds von Alphabet (Muttergesellschaft von Google), sowie den bestehenden strategischen Investoren wie NVIDIA über eine neue Finanzierungsrunde durch. Der Unternehmenswert wird auf 30 Milliarden US - Dollar geschätzt. Das nur 9 Jahre alte Unternehmen hat bereits Investitionen von namhaften Investmentgesellschaften und Branchenpartnern wie Tiger Global Management, Goldman Sachs und DELL erhalten. Im Dezember 2023 absolvierte es eine Finanzierungsrunde mit einem Unternehmenswert von 9,1 Milliarden US - Dollar. Innerhalb von nur anderthalb Jahren hat sich der Unternehmenswert um das 3,3 - fache erhöht. Vast Data hat aufgrund seiner innovativen Speicherarchitektur in der Geschäftsmärkte und auf den US - Kapitalmärkten Anerkennung gefunden. Dies lässt auch die chinesischen Kapitalmärkte über die Chancen und Herausforderungen nachdenken, die Große Modelle für die Speicherung mit sich bringen.
Warum gibt es in der KI - Ära neue Chancen für die Speicherung?
In der KI - Infrastruktur sind die Bereiche Rechenleistung, Speicherleistung und Netzwerk die grundlegenden Bausteine. Man kann sagen, dass die Rechenleistung der Motor, die Speicherleistung der Treibstoff und die Netzwerkleistung die Blutgefäße der KI - Anwendungen sind. Alle drei sind für den reibungslosen Betrieb von KI - Anwendungen von entscheidender Bedeutung. In der öffentlichen Wahrnehmung ist die Leistung der Rechenleistung sehr offensichtlich, während die unterstützende Rolle der Speicherung weniger sichtbar ist. Tatsächlich wächst die globale Datenmenge jährlich um 36 % und wird bis 2030 auf YB - Ebene ansteigen. Die effiziente und sichere Speicherung dieser riesigen Datenmengen ist die Voraussetzung dafür, dass die Rechenleistung die vollen Potenziale von Großen Modellen entfalten kann: "Die Rechenleistung bestimmt die untere Grenze der KI, die Daten die obere Grenze."
Seit der Einführung der Transformer - Architektur im Jahr 2017 hat sich der Schwerpunkt der Entwicklung von Großen Modellen ständig verlagert. Anfangs war das Training von Großen Modellen der Hauptfaktor, und das Ziel war es, die Modellleistung durch die Erhöhung der Parameteranzahl und der Datenmenge zu verbessern. Später stießen die Anwendungen von Großen Modellen auf Kosten - und Effizienzengpässe, und Technologien wie dedizierte Inferenzchips und Mixture of Experts (MoE) wurden immer populärer. Die Entstehung von Agenten hat die KI - Technologie von der Ausführung einzelner Aufgaben hin zu komplexen Entscheidungen und Interaktionen verlagert und ist somit der am meisten innovativen Bereich von KI - Anwendungen.
Im Laufe dieser Verlagerung haben sich die zentralen Anforderungen an die Speicherleistung auch erheblich verändert. Sie lassen sich grob in fünf Punkte zusammenfassen:
1. Höchster Durchsatz, geringe Latenz und hohe Parallelität auf der Grundlage von Zuverlässigkeit
Durchsatz: Traditionelle Internetanwendungen benötigen nur einen Durchsatz im Bereich von MB/s. Im Trainingsprozess von Großen Modellen benötigen mehrere GPU - Knoten kontinuierliche Lese - und Schreibgeschwindigkeiten von mehreren zehn GB/s (z. B. für die Gradientensynchronisierung). Bei der Inferenzphase sind plötzliche Durchsätze im Bereich von Hunderten von GB/s erforderlich (z. B. beim Laden des KV - Caches). Im Stadium der Multi - Agenten - Zusammenarbeit wird sogar ein Cluster - Durchsatz benötigt, der eine aggregierte Bandbreite von 500 GB/s bis 1 TB/s unterstützt (tausende QPS mit MB - großen Kontextdaten pro Anfrage).
Latenz: Selbst bei Spitzenlasten wie dem "Double Eleven" in der E - Commerce - Branche können traditionelle Internetanwendungen Latenzen im Bereich von 10 ms tolerieren. Im Training von Großen Modellen ist eine Latenz im Sub - Millisekundenbereich für die AllReduce - Synchronisierung erforderlich. Bei einer Inferenzlatenz von über 1 ms tritt eine Dienstdegradierung ein. Bei der Multi - Agenten - Zusammenarbeit muss die Speicherantwort unter 1 ms bleiben, andernfalls kommt es zu einer Blockade der Aufgabenübertragung zwischen den Agenten.
Parallelität: Die Parallelität in traditionellen Internetanwendungen ist relativ einfach und basiert auf horizontaler Skalierung und Caching. Die Anforderungen an Latenz und Durchsatz sind eher locker. Beim Training von Großen Modellen ist eine stark konsistente Synchronisierung im GB/s - Bereich erforderlich, und die Speicherbandbreite und Latenz wirken sich direkt auf die Trainingsleistung aus. Bei der Inferenz von Großen Modellen sind hohe QPS und geringe Latenz erforderlich, um sicherzustellen, dass das Laden des KV - Caches kein Engpass wird. Bei Multi - Agenten - Szenarien ist eine Echtzeitkooperation im TB/s - Bereich erforderlich, und die Anforderungen an Parallelität und Konsistenz sind extrem hoch. Beispielsweise müssen bei gleichzeitigen Änderungen desselben Gedächtnisteils durch mehrere Agenten verteilte parallele Steuerungen eingesetzt werden.
2. Einheitliche Verwaltung von multimodalen Daten und Versionierbarkeit
Die Datentypen haben sich von einheitlichen strukturierten Daten (z. B. Text) auf multimodale Daten (Bilder, Videos, Audio, 3D - Punktwolken usw.) erweitert. Daher muss die Speicherlösung in der Lage sein, Objektspeicher, Dateisysteme, Blockspeicher und KV - Datenbanken (z. B. Redis) gleichzeitig zu verwalten, um Redundanzen und Latenzen durch das Kopieren von Daten zwischen verschiedenen Formaten zu vermeiden.
Bei der Feineinstellung von Modellen und A/B - Tests muss das Speichersystem Datensnapshots und Versionsketten unterstützen, um die Reproduzierbarkeit jeder Experimentierphase zu gewährleisten. Beispielsweise muss im RLHF - Prozess von GPT - 4 die Versionsdifferenz von Tausenden von menschlichen Feedbackdaten nachverfolgt werden.
Um die Effizienz der externen Datenanforderung durch Agenten zu gewährleisten, muss die Verwaltung von Metadaten intelligenter werden. Beispielsweise kann die schnelle Suche multimodaler Daten über semantische Tags erfolgen, anstatt die traditionelle und umständliche Dateipfad - Suche.
Hinweis: Metadaten sind strukturierte Informationen, die die Attribute der Daten beschreiben, wie z. B. die Erstellungszeit, das Format, der Autor und der Speicherort der Daten. Sie enthalten nicht den eigentlichen Dateninhalt, sondern erklären den Hintergrund und die Merkmale der Daten, ähnlich wie ein "Datenhandbuch".
3. Speicherung anstelle von Rechenleistung
Die Optimierung der Effizienz von KI - Inferenz besteht hauptsächlich darin, das Problem der Ressourcenverteilung zwischen Rechenleistung und Speicherleistung zu lösen. Die aktuelle KI - Berechnung ist eine Bruteforce - Berechnung. Der Kern der Attention - Mechanik ist die Multiplikation der Query - Key - Matrizen (QKT), deren Rechenkomplexität O(n²) beträgt (n ist die Sequenzlänge). Insbesondere in mehrfachen Dialogen müssen die gleichen QKT - Berechnungen für denselben Kontext wiederholt durchgeführt werden, was zu einer Verschwendung von Rechenleistung führt. Beispielsweise erzeugt das DeepSeek 70B - Modell alle 10 Minuten 25 TB KV - Cache, aber der GPU - Arbeitsspeicher beträgt nur einige zehn GB. Nach dem Verwerfen müssen die Daten erneut berechnet werden. Die Rechenleistung, die eigentlich für die Optimierung der Inferenz verwendet werden sollte, wird durch die wiederholten Matrixberechnungen gebunden.
Das Prinzip der "Speicherung anstelle von Rechenleistung" ersetzt die wiederholten Berechnungen durch die Speicherung von Zwischenergebnissen (hauptsächlich KV - Cache). Die Speicherdimension des KV - Caches ist n×d (d ist die Merkmalsdimension), was viel kleiner als die n×n - Attention - Matrix ist. Dadurch sinkt der Druck auf den Arbeitsspeicher von quadratischer auf lineare Ebene.
Basierend auf der Zusammenarbeit zwischen der dauerhaften Speicherschicht (Speicherleistungs - Ebene) und der Rechenleistungsschicht kann der begrenzte HBM - Arbeitsspeicher auf ein unbegrenzt großes externes Hochgeschwindigkeits - Speichersystem erweitert werden. Die Ersetzung der wiederholten GPU - Berechnungen durch den Zugriff auf die Speicher - IO ermöglicht eine deutliche Reduzierung des Rechenleistungsbedarfs bei der Inferenz und eine erhebliche Verbesserung der Inferenzeffizienz. Dies ist bereits ein weltweiter Konsens in der KI - Infrastruktur - Branche. Die neue Generation von Speichersoftwarearchitekturen wird in diesem Bereich ein enormes Potenzial entfalten und ein Gleichgewicht zwischen Rechenleistung und Speicherleistung in KI - Agent - Inferenzszenarien herstellen.
4. Unterstützung der dauerhaften Speicherung von Agent - Gedächtnissen
Die ursprünglichen Großen Modelle haben kein Gedächtnis. Um die Kontinuität der Aufgabenausführung und die Fähigkeit zur individuellen Serviceleistung zu gewährleisten, müssen Agenten über ein Gedächtnis verfügen. Die Gedächtnisdaten zeichnen sich durch starke Fragmentierung aus. In den derzeitigen Speicherlösungen werden die Gedächtnisdaten in verschiedene Module wie Graphen, Dateien, Vektoren, Objekte und Relationen verteilt. Die multimodale Suche erfordert mehrfache Abfragen und das Zusammenfügen der Ergebnisse, was zu hohen Latenzen führt. Die verteilte Aktualisierung kann zu Konflikten im Gedächtnis führen und erfordert zusätzliche Transaktionslogiken, was die Komplexität stark erhöht. Jeder Modul erfordert eine andere Hardware - und Software - Deployment - Lösung, was die Systemdeployment und - wartung sehr komplex macht und die globale Freigabe des Speicherplatzes unmöglich macht. Es ist daher unumgänglich, eine allgemeinere und bequemere einheitliche untere Datenspeicher - Infrastruktur für die parallele Ausführung und Zusammenarbeit vieler Agenten zu erstellen.
5. Autonomie und Sicherheit
Unter dem Hintergrund des geopolitischen Technologiekonkurrenzespiels ist die Selbstständigkeit und Kontrollierbarkeit von Technologien ein "wichtiges und dringendes" Anliegen. Die Speicherung ist eine kritische Verteidigungslinie. Sie muss mit der chinesischen KI - Stack - Ökosystem kompatibel sein und die Geheimhaltung von KV - Cache und Vektorbibliotheken, die Entsensitivierung von Trainingsdaten und die Isolierung der Inferenz sicherstellen, um zu gewährleisten, dass die Kerninformationen nicht ins Ausland gelangen.
Aus einem anderen Blickwinkel betrachtet, hat die Entwicklung der Software stark hinter der Fortschritt der Hardwaretechnologie zurückgeblieben und ist somit ein Schlüsselengpass für die Entfaltung der KI - Leistung.
Betrachtet man die Entwicklung der wichtigen Hardwaremodule:
① Speicherkapazität: Das Wachstum der Speicherkapazität übersteigt das Moore'sche Gesetz bei weitem. Beispielsweise steigt die Kapazität von NVMe - SSDs jährlich um mehr als 50 %, während das Moore'sche Gesetz nur eine jährliche Zunahme von 20 % vorsieht.
② Sprung in der Rechenleistung: Durch die heterogene Rechnung von CPU zu GPU/TPU hat die KI - Rechenleistung exponentiell zugenommen.
③ Netzwerkbandbreite: Die Latenz von RDMA (Remote Direct Memory Access) beträgt nur einige Zehnmikrosekunden und ist somit mehr als zehnmal schneller als das traditionelle TCP/IP - Protokollstack.
Es ist nicht schwer zu erkennen, dass die Hardware in die "Über - Moore - Ära" eingetreten ist, und es einen deutlichen "Schereffekt" zwischen der traditionellen Speichersystemsoftware und der Hardware gegeben hat:
Die Zugriffslatenz der Speicherhardware und die Netzwerklatenz sind auf einige Zehnmikrosekunden gesunken, während die Kosten des traditionellen Systemsoftwarestacks immer noch im Bereich von Hundertmikrosekunden liegen. Die Verbesserung der Hardwareleistung wird durch die Ineffizienz der traditionellen Speichersoftwarearchitektur aufgezehrt, was zu Problemen wie der Blockade des Datenflusses (z. B. redundanter Zugriffspfad von GPU auf den Speicher) und der Untätigkeit der Rechenleistung führt (die Wartezeit der GPU auf die Datenübertragung ist viel länger als die Rechenzeit, und die Vorteile des RDMA - Netzwerks können aufgrund des Software - Protokollstacks nicht voll ausgeschöpft werden).