StartseiteArtikel

Mit einer Rekordrückkehr von 2,7 Milliarden US-Dollar: Entlarvung des nächsten Schrittes der AGI durch Googles teuersten "Verräter" und Autor des Transformers

新智元2025-09-22 16:45
Im nächsten Stadium der KI geht es um Rechenleistung, Rechenleistung und noch einmal Rechenleistung.

Im Zeitalter der Künstlichen Intelligenz (KI) ist die Frage, was die großen Sprachmodelle am dringendsten benötigen, von zentraler Bedeutung. Handelt es sich um Rechenleistung, Speicher oder komplexe Netzwerkanbindungen? Auf der Hot Chips 2025-Konferenz gab Noam Shazeer, einer der Erfinder des Transformer-Modells und Mitverantwortlicher für das Google Gemini-Projekt, eine Antwort.

Ein Bild, das die globalen großen Sprachmodelle auf einen Blick erklärt! Ein Juwel zur zehnten Gründungstag von New Intelligence Yuan. Der 37-seitige Bericht über die neuesten Trends in der ASI 2025 wird erstmals veröffentlicht.

Was brauchen die großen Sprachmodelle?

Bei der Keynote-Sprache am ersten Tag der Hot Chips 2025, einer renommierten Technologiekonferenz in Silicon Valley, beantwortete Noam Shazeer von Google DeepMind diese Frage und hielt eine Präsentation mit dem Titel "Prognosen für die nächste Phase der KI".

Außer als Mitautor der Transformer-Publikation "Attention Is All You Need" hat er auch viele technologische Innovationen vorangetrieben, wie beispielsweise die Verbesserung der Rechtschreibkorrekturfunktion in der Google-Suche.

Schon 2017 entwickelte er das Transformer-Modell und hat seitdem über zehn Jahre lang in der Branche der Large Language Models (LLMs) gearbeitet.

Später entwickelte er einen Chatbot, den Google jedoch nicht veröffentlichte. Dies führte ihn dazu, das Unternehmen zu verlassen und Character.AI zu gründen.

Kurz darauf erkannte Google seine eigenen Schwächen und schloss schließlich eine Kooperation mit Character.AI im Wert von 2,7 Milliarden US-Dollar ab.

Heute ist Noam wieder bei Google zurück und fungiert als Mitverantwortlicher für das Gemini-Projekt.

Wie er gezeigt hat, können die großen Sprachmodelle ihre Leistung und Genauigkeit stetig verbessern, indem sie die Ressourcen in Bezug auf Hardware und andere Aspekte nutzen.

In der nächsten Phase der KI: Rechenleistung, Rechenleistung und nochmal Rechenleistung

Noam Shazeer teilte hauptsächlich über die Anforderungen der LLMs, seine persönliche Forschungsreise in der LLM-Branche und die Beziehung zwischen Hardware und LLMs auf.

Er betonte einige Schlüsselpunkte.

Zunächst hält Noam die Sprachmodellierung für das derzeit wichtigste Forschungsgebiet.

Er widmete in seiner Präsentation eine ganze Folie diesem Thema, was zeigt, wie stark er sich für dieses Thema begeistert.

Dann sprach er über "Was die LLMs wirklich brauchen" (What LLMs want).

Er legt besonderen Wert darauf, dass mehr FLOPS (Floating Point Operations Per Second) für eine bessere Leistung sorgen.

Dies ist von großer Bedeutung, da mit zunehmender Anzahl von Parametern, Tiefe, Nichtlinearität und Informationsfluss auch die Größe der LLMs zunimmt.

Dies erfordert möglicherweise mehr Rechenressourcen. Mehr hochwertige Trainingsdaten tragen ebenfalls zur Erstellung besserer LLMs bei.

Er sprach auch darüber, dass es 2015 ein großer Schritt war, auf 32 Grafikkarten (GPUs) zu trainieren; zehn Jahre später könnten jedoch Hunderttausende von GPUs erforderlich sein.

Ein weiteres interessantes Detail ist, dass er sagte, dass Google 2018 Rechenknoten für die KI aufbaute.

Dies war ein wichtiger Schritt, da Google-Engineer zuvor normalerweise auf tausend Prozessoren (CPUs) arbeiteten. Diese wurden jedoch langsam und wurden für andere Zwecke eingesetzt, wie beispielsweise das Crawling des Internets.

Das Vorhandensein großer Maschinen, die speziell für Deep Learning- oder KI-Aufgaben eingesetzt werden, hat zu einer enormen Leistungssteigerung geführt.

Ein weiterer Höhepunkt der Chip-Konferenz war die Frage nach den Hardwareanforderungen der LLMs.

Aus dieser Folie kann man eine interessante Perspektive entnehmen.

Mehr Rechenleistung, Speicherkapazität, Speicherbandbreite und Netzwerkbandbreite sind für den Fortschritt zukünftiger KI-Modelle von entscheidender Bedeutung.

Das gilt auf "allen Ebenen", nicht nur für die Kapazität und Bandbreite von DDR5, sondern auch für High-Bandwidth Memory (HBM) und SRAM auf dem Chip.

Die Reduzierung der Genauigkeit kann helfen, diese vier Aspekte besser zu nutzen und wird in vielen Fällen auch als vorteilhaft angesehen.

Determinismus erleichtert die Programmierung.

Die Botschaft seiner Präsentation lässt sich wie folgt zusammenfassen: Größere und schnellere Geräte in einem Cluster führen zu Verbesserungen bei den LLMs.

Dies könnte für Google und andere Unternehmen gute Nachrichten sein.

Welche Hardware brauchen die großen Sprachmodelle?

Noam ist ein typischer "Umsteiger": Als KI-Forscher ist er von der Hardware fasziniert und möchte wissen, wie diese Maschinen funktionieren.

Im Rahmen des Mesh-TensorFlow-Projekts entwickelte er ein starkes Interesse an der unteren Netzwerkstruktur der Tensor Processing Units (TPUs).

Link zur Publikation: https://arxiv.org/abs/1811.02084

Er stellte viele überraschende Fragen:

Ihr Chip hat eine Ringnetzstruktur? Wie laufen die Datenpakete darin?

Wie lässt sich dies auf die Tensorberechnungen in neuronalen Netzen abbilden?

Diese Neugierde führte schließlich zu vielen Durchbrüchen bei der kooperativen Entwicklung von Software und Hardware bei Google.

In seiner Präsentation analysierte Noam Shazeer eingehend, welche Hardware die LLMs tatsächlich benötigen.

Die benötigte Hardware-Unterstützung für die KI: Nicht nur GPUs

Es besteht kein Zweifel, dass Rechenleistung der wichtigste Faktor für die LLMs ist.

Wenn man fragt, "Was wollen die LLMs", stellt man eigentlich die Frage:

Wie muss sich unser Hardware-System ändern, um die KI noch intelligenter zu machen?

Noams Antwort ist klar und direkt: Je mehr, desto besser; je größer, desto besser.

1. Mehr Rechenleistung (More FLOPs)

Je mehr Rechenleistung, desto besser. Am besten wäre eine Rechenleistung von Petaflops (Billionen von Floating Point Operations pro Sekunde). Dies bestimmt direkt, wie groß das Modell sein kann, welche Batch-Größe verwendet werden kann und wie viel Trainingsdaten abgedeckt werden können.

2. Größere Speicherkapazität und höhere Speicherbandbreite

Noam weist darauf hin, dass eine unzureichende Speicherbandbreite die Flexibilität der Modellstruktur einschränken kann, beispielsweise kann man nicht so leicht nichtlineare Schichten hinzufügen. Eine höhere Bandbreite bedeutet eine feinere Steuerung.

Der Speicher umfasst: On-Chip-Speicher (on-chip SRAM), Hoch-Bandbreiten-Speicher (HBM), Grafikspeicher oder andere Mittel- und Hochgeschwindigkeitsspeicher wie DRAM.

Die Speicherkapazität bestimmt direkt:

Wie groß das Modell sein kann;

Wie viele Zwischenzustände während der Inferenz beibehalten werden können (z. B. lange Kontexte, Caches, Attention-Heads usw.).

3. Netzwerkbandbreite (Network Bandwidth)

Dies ist ein Aspekt, der von vielen Menschen vernachlässigt wird, aber von entscheidender Bedeutung ist.

Bei der Trainingsphase wie auch bei der Inferenz wird das Modell in der Regel auf mehreren Chips verteilt und die Daten werden zwischen ihnen hin und her übertragen.

Zum Beispiel strebt man heute nach einer "langen Denkkette" (long chain of thought), was bedeutet, dass das Modell länger "denken" muss, um bessere Antworten zu geben.

Dies bedeutet aber auch, dass jeder Schritt der Inferenz schneller abgeschlossen werden muss, sonst wird die Reaktionszeit länger.

In diesem Fall liegt der Engpass oft darin, ob man schnell auf alle Modellparameter zugreifen kann - nicht nur auf diejenigen auf einem einzelnen Chip, sondern auf alle, die in einem gesamten Rechennetz verteilt sind.

Daher fasst Noam zusammen:

Um schnell zu inferieren, ist die zentrale Frage: Wie viel Speicherbandbreite können diese Gruppe von Chips insgesamt bieten?

Wie entwickelt sich die KI und was bedeutet dies für die Menschheit?

Er fügte noch einige weitere Punkte zu seiner "Wunschliste" für die Hardwareentwicklung hinzu.

1. Niedrige Genauigkeit (Low Precision)

In der traditionellen wissenschaftlichen Berechnung ist die Genauigkeit von entscheidender Bedeutung.

Aber bei den LLMs hat das Modell bereits eine gewisse "Vagheit", und niedrige Bit-Zahlen haben oft keine großen Auswirkungen.

Daher ist die Verwendung von niedriger Genauigkeit vollkommen sinnvoll. Man kann mit 8-Bit oder sogar 4-Bit mehr FLOPs erzielen, was sich lohnt.

Die Branche experimentiert tatsächlich mit immer niedrigeren Genauigkeitsformaten (FP8, INT4, Binär usw.) - solange die Konvergenz gewährleistet ist, desto niedriger desto besser.

Natürlich darf die Reproduzierbarkeit nicht beeinträchtigt werden.

Die zentrale Herausforderung besteht darin, dass die Genauigkeit während des Trainings ausreicht und der Fehler während der Inferenz gering ist.

2. Reproduzierbarkeit (Determinism)

Noam hält dies für entscheidend, da das Versagensrisiko bei KI-Experimenten relativ hoch ist.

Oft weiß man nicht, ob ein Ergebnis fehlschlägt, weil die Modellstruktur falsch ist, die Daten Probleme haben oder es einen Fehler im Code gibt.

Wenn man bei jedem Training unterschiedliche Ergebnisse erhält, ist es schwierig, die Ursache zu finden.

Er erinnerte sich, dass es in den frühen Tagen bei Google Brain bei der asynchronen Trainingsmethode oft vorkam, dass es manchmal funktionierte und manchmal nicht, was die Arbeit für die Ingenieure sehr schwierig machte.

Deshalb gibt er den Hardware-Entwicklern den Rat: Wenn Sie nicht zehnmal so viel Leistung bieten können, sollten Sie die Reproduzierbarkeit nicht aufs Spiel setzen.

3. Probleme mit Überlauf und Genauigkeitsverlust bei der Berechnung

Ein Teilnehmer stellte die Frage: Wie kann man das Problem des Überlaufs oder der