StartseiteArtikel

OpenAI o1 löst eine neue Revolution in der Rechenleistung aus, Treqi Technology veröffentlicht ein neues Produkt zur Unterstützung von Unternehmen bei der effizienten Schlussfolgerung.

36氪品牌2024-10-09 16:04
Im Vergleich zur punktuellen Optimierung von GPUs kann ein auf Systemoptimierung basiertes Inferenzgerät die Kosten für die Umsetzung großer Modelle um mehr als das Zehnfache senken.

Als das mit Spannung erwartete GPT-5 mehrfach verschoben wurde, konnte das neu veröffentlichte o1-Modell von OpenAI rechtzeitig das Vertrauen der Branche zurückgewinnen und eröffnete damit eine neue Wettbewerbsrichtung im Bereich der großen Modelle - wie kann die Branche auf der Infrastrukturebene vorgehen, um die Rechenleistungskosten in der Inferenzphase zu senken, wenn Inferenzmodelle weit verbreitet sind?

Mitte September kam das von OpenAI lange vorbereitete "Erdbeere", das letztendlich unter dem neuen Namen "o1" erschien und das bisherige technische Paradigma veränderte. Durch Scaling Laws für die Inferenzphase wurde die Inferenzfähigkeit des Modells auf ein neues Niveau gehoben.

Dieser von OpenAI als "neues Paradigma" bezeichnete technische Ansatz bringt eine Reihe von Veränderungen in den Bereich der großen Modelle, wobei ein besonders wichtiger Punkt darin besteht, dass die Notwendigkeit des Rechenleistungsbaus auf Inferenzebene in den Vordergrund rückt. Um ideale Ergebnisse zu erzielen, muss die Branche das unlösbare Dreieck aus Inferenzleistung, Effizienz und Kosten lösen.

Aus Sicht der KI-Infrastruktur bietet sich hinter dem Geschehen eine neue Chance für Start-ups. In diesem Zusammenhang beginnen Spieler aus dem Rechenleistungsbereich, wie zum Beispiel der Technologievertreter Trend Intelligence, eine integrierte Lösungsmaschine einzuführen, die sich nicht auf die gleichzeitige Berücksichtigung von Training und Inferenz konzentriert, sondern auf die Optimierung der Inferenzkostenszenarien. Dies könnte ein neues, farbenprächtiges Kapitel in der technischen Erzählung im Bereich der großen Modelle sein.

Darüber hinaus, im Vergleich zu herkömmlichen Lösungen, die hauptsächlich die Auslastung der GPU-Rechenleistung optimieren, verwendet die große Modellinferenzlösung von Trend Intelligence eine branchenweit erstmalige vollständige Systeminferenzarchitektur. Durch die Technologie „Speicher gegen Rechenleistung einzutauschen“ wird die Speicherleistung als Ergänzung zur Rechenleistung freigegeben, um den Bedarf an Rechenleistung zu reduzieren; gleichzeitig wird die „heterogene Zusammenarbeit“ verfolgt, um die enge Verbindung heterogener Geräte im gesamten System, einschließlich HBM/DRAM/SSD und CPU/GPU/NPU, zu gewährleisten, um Speicherbegrenzungen zu durchbrechen und die Speicher- und Rechenleistung des gesamten Systems voll auszuschöpfen.

Diese innovative Lösung durchbricht die theoretischen Optimierungsgrenzen bisheriger Lösungen und erreicht das Ziel, alle heterogenen Rechenressourcen einer Maschine zu integrieren, wodurch das Inferenzdurchsatzvolumen mehr als das Zehnfache gesteigert und die Implementierungskosten großer Modelle erheblich gesenkt werden.

Als Lösung, die hohe Leistung, niedrige Kosten und hohe Effizienz in Einklang bringt, wird die große Modellinferenzlösung von Trend Intelligence die Transformation großer Modelle von der „Trainingsfreiheit“ in der Entwicklungsphase zur „Inferenzfreiheit“ in der Implementierungsphase vorantreiben.

Von Training zu Inferenz: Paradigmenwechsel durch Scaling Law

Die Pre-Training-Phase der traditionellen GPT-Ära 1 bis 4, basierend auf dem Scaling Law, setzte auf das gemeinsame Wachstum von Modellparametern, Trainingsrechenleistung und Datenvolumina. Doch mit dem allmählichen Erschöpfen der qualitativ hochwertigen Daten im Internet (unter der Annahme unbegrenzter Rechenleistung) stößt diese Dreiecksbeziehung auf ein Engpass, das Modelle nicht mehr schnell und effektiv in ihrer Leistung steigern kann.

Doch mit der Einführung des OpenAI o1 hat sich diese Nebelwand zumindest vorübergehend aufgelöst. Indem es Techniken wie Reinforcement Learning integriert, internalisiert das Modell die CoT-Fähigkeiten, indem es komplexe Probleme in eine Reihe von zusammenhängenden einfachen Problemen zerlegt und die menschliche Vorgehensweise simuliert, um die Inferenzleistung des Modells zu steigern.

Dahinter steht, dass das OpenAI o1 sowohl in der Training- als auch in der nachfolgenden Bereitstellungsphase eine große Menge an Inferenzleistung erfordert, um komplexe Denkketten zu generieren. Diese Eigenschaft sorgt dafür, dass o1 sich nicht nur in der Pre-Training-Phase auszeichnet, sondern auch nach dem Training die Leistung durch die Erhöhung der Inferenzrechenleistung weiter steigern kann, was als Inference time scaling law bekannt ist.

Dies begründet die zweite Kurve des Scaling Law auf dem Weg zu AGI im Bereich der großen KI-Modelle.

In dieser neuen Phase wird der Schwerpunkt des Rechenleistungsaufwands von der Trainings- auf die Inferenzebene verlagert. Die Inferenzebene trägt nach der Implementierung des Modells die direkte Verantwortung für die Anwendungsergebnisse, weshalb die Sicherstellung der Inferenzrechenleistung zu einer zentralen Anforderung für das nachhaltige Wachstum der großen Modellindustrie geworden ist. Sobald ein bestimmtes technisches Paradigma zur neuen Branchenrichtung wird, wird die gesamte Branche von der Forschung bis zur Anwendung mit einem explosionsartigen Anstieg des Inferenzrechenleistungsbedarfs konfrontiert sein. Um sicherzustellen, dass Modelle im Anwendungsbereich skalieren können, wird die Effizienz- und Kostenoptimierung der Inferenzrechenleistung zu einer entscheidenden Aufgabe.

Dies bedeutet, dass ein neues Paradigma des rechenzentrischen Infrastrukturausbaus offiziell begonnen hat.

Wie renoviert man kostspielige traditionelle Rechnencluster-Infrastruktur?

Das Auftauchen des OpenAI o1 hebt die Veränderung im Inferenzrechnen eindeutig hervor, was durch die signifikant limitierten Kosten der Rechenleistung deutlich wird. Während jeder zahlende ChatGPT Plus-Benutzer bereits 4480 GPT-4o-Verwendungen pro Woche haben kann, sind die Verwendungen von o1-preview und o1-mini auf nur 30 bzw. 50 pro Woche beschränkt.

Darüber hinaus hat sich die Antwortzeit von o1 von der Sekundenskala der GPT-Serie auf einige Dutzend Sekunden oder noch länger erhöht, was auch mit einer erheblichen Zunahme des zu bearbeitenden Textvolumens einhergeht. Beide Faktoren bedeuten höhere Rechenleistungskosten. Als Folge hat das OpenAI o1 bereits in seinem Previews-Stadium die Aktienkurse von NVIDIA und Microsoft steigen lassen.

Diese hohen Kosten für Inferenzleistungen machen es für Unternehmen immer schwieriger, bei der Implementierung großer Modelle ein Gleichgewicht zwischen Wirkung, Effizienz und Kosten zu erreichen, was das sogenannte „unmögliche Dreieck“ darstellt. Einfach ausgedrückt bedeutet das „unmögliche Dreieck“, dass man mit einem leistungsfähigeren großen Modell gute Ergebnisse erzielen soll, gleichzeitig jedoch bei der eigentlichen Implementierung eine niedrigere Antwortlatenz bieten muss und dabei noch niedrige Kosten erreichen soll. Diese Herausforderung ist auch der Schmerzpunkt für viele Branchen bei der Implementierung großer Modelle.

Eine mögliche Ursache dafür ist, dass die traditionellen Clusterlösungen, die nach dem Rechenleistungsaufbau-Paradigma entwickelt wurden, sich hauptsächlich auf Trainingsszenarien konzentrieren und für die Inferenzphase teuer sind.

Ein Beispiel dafür ist das NVIDIA HGX-Lösungsangebot, eines der weit verbreiteten Rechenleistungscluster-Angebote für das Modelltraining. Aufgrund ihrer Ausrichtung auf die Unterstützung großer Modelltrainings, die mehrere High-End-GPUs und Hochgeschwindigkeitsverbindungstechnologien umfassen, sind die damit verbundenen hohen Kosten möglicherweise nicht wirtschaftlich für Inferenzaufgaben.

Mit anderen Worten, die Vorteile der traditionellen Bauweise von Rechnenclustern, die im Training hervorgehoben werden, werden in der Inferenzphase nicht betont und können sogar zur Last werden.

In Bezug darauf haben Industriekreise die traditionellen teuren "GPU-Superknoten"-Lösungen mit den "AI-Mainframes" verglichen. Diese Analogie nimmt Lehren aus früheren technologischen Revolutionen und zeigt auf, dass erst mit dem Übergang von teuren IBM-Lösungen zu kosteneffizienten x86-Serverclustern von Unternehmen wie Google das Zeitalter von Big Data wirklich begann.

In gleicher Weise wird es unerlässlich, wettbewerbsfähige Lösungen anzubieten, die sowohl in Bezug auf die Kosten als auch auf die Implementierungseffizienz Vorteile bieten, damit Unternehmen große Modelllösungen effektiver einsetzen können. Daher wird es immer dringlicher, schnell eine "x86-Server"-Lösung zu finden, die im Zeitalter der großen Modelle sowohl in der Kosteneffizienz als auch in der Implementierungseffizienz erhebliche Vorteile bietet, was auch zur unvermeidlichen Folge der Branche geworden ist.

Integrierte Maschine für große Modellwissenserkennung, eine machbare Lösung

Eine Betrachtung der aktuellen KI-Infrastrukturfirmen zeigt, dass dieser Bereich nicht ohne Lösungsansätze versucht wird. Tatsächlich hat Trend Intelligence, als Spieler, der Anfang 2024 neu in diesen Bereich eingetreten ist, nach Abschluss einer Finanzierungsrunde in der ersten Hälfte des Jahres eine neue Option eingeführt: die große Modellwissenserkennungsintegrator.

Bisher konzentrierten sich die technischen Ansätze der Branche stärker auf die Optimierung der GPU-Nutzung, doch vor dem Hintergrund der neuen Marktnachfrage reicht dies nicht aus, um mehrere Größenordnungen an Lücken zu überbrücken. Besonders angesichts der signifikanten Diskrepanz zwischen inländischen GPUs und NVIDIA verschärft sich das Ungleichgewicht zwischen Recheneffizienz und Inferenzbedarf weiter.

Deshalb wählte Trend Intelligence für ihr neues Produkt-Upgrade einen architektonischen Ansatz. Ihre erstmalige vollständige Systeminferenzarchitektur koordiniert effektiv Speicher, CPU, GPU, NPU und andere Geräte, wodurch die bisherigen theoretischen Optimierungsgrenzen durchbrochen und das Ziel erreicht wurde, alle heterogenen Rechenressourcen einer Maschine zu integrieren. Dies erhöht das Inferenzdurchsatzvolumen um mehr als das Zehnfache und senkt die Implementierungskosten großer Modelle erheblich.

Die "große Modellwissenserkennungsintegrator" von Trend Intelligence unterstützt die lokale Bereitstellung von Modellen mit mehr als zehn Milliarden Parametern durch eine integrierte Hard- und Softwarelösung, bietet APIs für die flexible Nutzung durch Dritte und eine "einsatzbereite" private Bereitstellungs- und Inferenzumgebung. Der Kernvorteil liegt in hoher Leistung, niedrigen Kosten und hoher Effizienz, wodurch die meisten Bedenken der Unternehmen hinsichtlich der Implementierung großer Modelle ausgeräumt werden.

Dieser Erfolg beruht auf der einzigartigen technologischen Perspektive von Trend Intelligence, die die Branche betrachtet. In den Augen von Trend Intelligence sollte die Optimierung der großen Modellinferenz nicht nur auf GPU ausgerichtet sein, sondern auch auf Festplatten, Speicher und CPUs, die ebenfalls "heterogene Rechenleistung" bieten können. Daraus ergeben sich zwei zentrale technische Strategien als Unterstützung.

Der erste Punkt ist die Brancheninnovation von Trend Intelligence, die „Speicher gegen Rechenleistung“ Technologie.

Frühere große Modellinferenzarchitekturen behandelten jede Inferenz als separaten Anfrage und fehlten die „Speicher“-Fähigkeit für eine effiziente Verarbeitung. Obwohl es in Sicht auf Technologieaktualisierungen Fortschritte gab, stützten sich große Modelle hauptsächlich auf einfache „memorieren“.

Um dieses Problem anzugehen, hat Trend Intelligence innovativerweise das Konzept der „Fusion Inferenz (Fusion Attention)“ eingeführt, um Speicherplatz zu nutzen, sodass auch bei neuen Problemen relevante Teile aus historischen Informationen extrahiert und mit aktuellen Informationen online zusammengeführt und berechnet werden können. Diese Technologie verbessert signifikant die Wiederverwendbarkeit historischer Berechnungsergebnisse, wodurch der Rechenaufwand reduziert wird.

Auf diese Weise kann „Speicher gegen Rechenleistung“ im RAG-Kontext insbesondere die Antwortverzögerung um das 20-fache senken und die Leistung um das 10-fache steigern.

Auf dieser Basis wurde das von Trend Intelligence entwickelte „vollständige Systemheterogenkoordinierungsdesign“ zu einem weiteren wichtigen technologischen Unterstützungspunkt. Diese Architektur ist der erste Inferenzrahmen, der eine Million Long-Context auf einer einzelnen GPU-Karte unterstützt, sowie das erste, dass ein 200 Milliarden MoE-Ultramodell auf einer einzelnen GPU betrieben wird.

Derzeit hat Trend Intelligence zusammen mit der Tsinghua-Universität die persönliche Version des heterogenen Inferenzrahmens namens KTransformers auf GitHub als Open Source zugänglich gemacht, was in der Open-Source-Community wie Hugging Face erhebliche Aufmerksamkeit und Diskussionen ausgelöst hat. Marktpartner haben ebenfalls großes Interesse gezeigt; mehrere bekannte Unternehmen großer Modelle haben bereits zur Initiierung von Projekten im Bereich der großen Modellinferenz eingeladen.

Die vollständige Systemheterogenkoordinierungsarchitektur im integrierten KI-Wissenserkennungsmaschine von Trend Intelligence ist die vollständige kommerzielle Version, die im Vergleich zur Open-Source-Version leistungsfähiger ist und Strategien wie Multi-Card-Hochdurchsatzplanung und RAG-Unterstützung für Teams integriert hat.

Rückblickend, welche Entwicklungen die Branche geprägt haben: Die Hauptüberlegungen in der KI-Infrastruktur umfassen Optimierungen im Modelltraining und Inferenzprozesse. Die Trainingsphase umfasst Parameteroptimierungen und Datenverarbeitungen und war der „Mainstream“ für viele große Unternehmen und Start-ups. Trend Intelligence hatte jedoch bereits vorhergesagt, dass mit der allmählichen Fokussierung auf Transformer und deren Varianten die technologischen Barrieren und der Spielraum für Trainingserhöhungen dünner werden. Im Vergleich dazu birgt die Optimierung auf der Inferenzseite ein größeres Potenzial.

Man könnte sagen, dass das OpenAI o1 ein neues technisches Paradigma für große Modelle eröffnet hat, während Trend Intelligence den zugehörigen technologischen Trend und die Wachstumschancen in der KI-Infrastruktur erkannt hat.

In Anbetracht des neuen Technologiezyklus bietet das neue Untersuchungs- und Rechenleistungsparadigma, vertreten durch Trend Intelligence, die Möglichkeit, das Wachstum der Rechenleistungsanforderungen tatsächlich zu bewältigen. Durch die Einführung von Lösungen mit hoher Leistung, niedrigen Kosten und hoher Effizienz wird es die Entwicklung großer Modelle von der „Trainingsfreiheit“ auf Entwicklungsniveau zur „Inferenzfreiheit“ auf Implementierungsebene kraftvoll fördern.