Das Geschäft in der KI-Branche ist sehr kompliziert: OpenAI hält Geheimnisse, Meta betrügt, während die chinesische Mixture-of-Experts (MoE)-Technologie unerwartet aufsteigt.
Von GPT-2 bis Llama 4: Wie stark sind die großen Modelle in den letzten Jahren actually gewachsen? Von Modellen mit hunderten von Milliarden dicht gepackter Parametern zu Modellen mit spärlichen MoE-Strukturen, von der Dominanz proprietärer Modelle bis zur Gegenwehr der Open-Source-Bewegung, mit Akteuren wie Meta, OpenAI, Mistral und DeepSeek im Rennen. Wer wird am Ende siegen?
Von der traditionellen dichten Architektur hin zu den heute beliebten spärlichen Expert-Modellen (MoE) hat die Entwicklung von Sprachmodellen rasant vorangeschritten:
Anfänglich betrug die Anzahl der Parameter nur in der Größenordnung von hunderten von Milliarden, und heute erreichen selbst die nur aktivierten Parameter schon mehrere hundert Milliarden!
Von hunderten von Milliarden bis zu Billionen: Hinter der Expansion der Parameter verbirgt sich das "Glauben" an das Skalierungsgesetz in der KI-Branche.
Seit der Veröffentlichung von GPT-2 im Jahr 2019 haben die großen Sprachmodelle (LLM) ständige Sprünge in der Parametergröße, der Menge der Trainingsdaten und der Modellarchitektur gemacht.
Wie groß sind die großen Modelle eigentlich? Welche "Massenexplosion" haben die großen Modelle von 2019 bis heute tatsächlich erfahren?
Der GitHub-Nutzer rain-1 hat manuell die Trends der Basis Modelle zusammengefasst, "ohne jeglichen KI-generierten Anteil". Er sagte auch:
In den letzten Jahren hat die Entwicklung von Sprachmodellen eine gewaltige Welle geschlagen, tiefgreifend und weitreichend.
Was hier beschrieben wird, ist nur ein winziger Ausschnitt davon, wie aus einem Röhrchen gucken, um einen Teil des Panthers zu sehen.
Dieser Artikel zielt darauf ab, die Größeninformationen von großen Sprachmodellen objektiv darzustellen. Es werden keine vertraulichen Informationen oder Gerüchte behandelt, sondern nur auf Basis Modelle (d.h. der ursprüngliche Textfortsetzungs-Engine, nicht ChatBot) fokussiert.
Die Anzahl der Parameter von KI-Modellen wächst exponentiell.
Die Entwicklung der großen Modelle - Die GPT-Serie: OpenAI geht auf den Weg zu "CloseAI"
Es lässt sich hauptsächlich in zwei Phasen unterteilen: die frühe Phase der dichten Modelle und die mittlere Phase der Transformation und Geheimhaltung.
Frühe dichte Modelle (2019 - 2020):
Die GPT-2-Familie: Die Parameter reichen von 137 Millionen bis 1,61 Milliarden, und die Trainingsdaten umfassen etwa 10 Milliarden Tokens.
GPT-3 (175 Milliarden): Das erste echte "große Modell".
Mittlere Phase der Transformation und Geheimhaltung (2022 - 2023):
GPT-3.5 und GPT-4: Die Anzahl der Parameter und die Größe der Trainingsdaten wurden nicht veröffentlicht, und die Informationen sind streng geheim gehalten.
Konkret betrachtet, GPT-2 (2019) Parameteranzahl:
GPT-2-small: 137 Millionen Parameter
GPT-2-medium: 380 Millionen Parameter
GPT-2-large: 812 Millionen Parameter
GPT-2-xl: 1,61 Milliarden Parameter
Die Trainingsdaten basieren auf dem nicht veröffentlichten WebText-Datensatz, etwa 40 GB Internettext, geschätzt auf etwa 10 Milliarden Tokens.
Im Jahr 2020 veröffentlichte OpenAI GPT-3, mit dem Code-Namen davinci/davinci-002, mit einer Parameteranzahl von 175 Milliarden (175,0 Mrd.).
Link: https://www.lesswrong.com/posts/3duR8CrvcHywrnhLo/how-does-gpt-3-spend-its-175b-parameters
Die Trainingsdaten umfassen etwa 400 Milliarden Tokens, stammen aus Quellen wie CommonCrawl, WebText2, Books1, Books2 und Wikipedia.
Für genaue Informationen zur Datenquelle siehe die folgenden wissenschaftlichen Artikel.
Link zum Artikel: https://arxiv.org/abs/2005.14165
Das Training von GPT-3 dauerte mehrere Monate und erforderte die Rechenkapazität eines Rechenzentrums mit Tausenden von A100 GPU.
Von 2022 bis 2023 haben die offizielle OpenAI keine Informationen über die Architekturdetails und die Größe der Trainingsdaten von GPT-3.5 und GPT-4 veröffentlicht.
Anschließend wurde OpenAI zu einer streng geheim gehaltenen "Black Box". Im Gegensatz dazu haben die Open-Source-Modelle, insbesondere die LLaMA-Familie, an Bedeutung gewonnen:
Von 7 Milliarden bis 65 Milliarden Parametern, wobei das Modell mit 65 Milliarden Parametern mit 1,4 Billionen Tokens trainiert wurde;
Llama 3.1 erreichte 405 Milliarden Parameter und 3,67 Billionen Tokens an Trainingsdaten, was ein Wendepunkt im Open-Source-Bereich war.
Die Entwicklung der großen Modelle - Die Llama-Serie
Die ersten Versionen von Llama hatten 7 Milliarden, 13 Milliarden, 33 Milliarden und 65 Milliarden Parameter.
Was die Trainingsdaten angeht, hat die offizielle Seite bestätigt, dass der Books3-Datensatz verwendet wurde. Die Version mit 65 Milliarden Parametern wurde mit einem Datensatz von 1,4 Billionen (1,4 T) Tokens vortrainiert.
Im Jahr 2024 hat Meta das Open-Source-Modell Llama-3.1 mit 405 Milliarden Parametern veröffentlicht, das eine dichte Transformer-Architektur verwendet (d.h. alle Parameter werden bei der Inferenz berechnet).
Was die Trainingsdaten angeht, hat Meta die Datenquelle nicht detailliert offen gelegt, sondern nur vage als "gemischte Daten aus verschiedenen Wissensquellen" beschrieben. Insgesamt wurden etwa 3,67 Billionen Tokens verbraucht:
Initiales Vortraining: 2,87 Billionen Tokens
Training für lange Kontexte: 800 Milliarden Tokens
Annealing-Training: 40 Millionen Tokens
Link zum Artikel: https://arxiv.org/abs/2407.21783
Eine wichtige Erkenntnis:
Experimente haben gezeigt, dass das Annealing-Training mit kleinen, hochwertigen Code- und Mathematikdaten in den Kern-Benchmarks die Leistung des vortrainierten Modells erheblich verbessern kann.
Aber der Nutzer rain bedauert die aktuelle Tendenz des "Benchmax-Annealing-Vortrainings" -
Es bringt die Basissprachmodelle allmählich von ihrem ursprünglichen Ziel - der reinen Textfortsetzungsfunktion - weg.
Diese Art der Optimierung sollte eigentlich dem Nachbearbeitungsschritt (d.h. dem Prozess, bei dem das Modell als "KI-Chat-Assistent" fungiert) vorbehalten sein, aber die Unternehmen legen offensichtlich mehr Wert auf die kurzfristige Verbesserung der Benchmark-Scores.
Im Jahr 2025 hat Meta die Llama-4-Serie vorgestellt, wobei das Monster mit 2 Billionen Parametern, "Behemoth", möglicherweise nie veröffentlicht wird.
Das Flaggschiffmodell Behemoth in der Llama4-Serie hat eine Gesamtzahl von
Die Maverick- und Scout-Modelle von Llama4 wurden aus diesem großen Modell abgeleitet. Doch um diese leichteren Versionen herum entbrannte ein Skandal -
Es wurde bekannt, dass Meta (ehemals Facebook) im lmarena-Benchmark-Test "geschummelt" hat:
Sie haben eine "maßgeschneiderte" Version von Llama4 Maverick zum Testen hochgeladen, aber eine andere Version veröffentlicht.
Dieser Schritt wurde von außen als wissenschaftliche Unredlichkeit angesehen und hat das Vertrauen in das Llama-Team schwer getroffen. Seitdem scheint das Llama-Team in die Auflösung zu geraten, und es ist bis heute unklar, ob das Modell mit 2 Billionen Parametern jemals veröffentlicht wird.
Was die bereits veröffentlichten kleinen Llama4-Modelle angeht, haben sie trotz des Versprechens, die Essenz der großen Modelle zu vererben, bisher eine eher geringe Intelligenz gezeigt und sind daher nicht sehr nützlich.
Die Zeit der Wüste der großen Modelle
Es war einmal eine Zeit, in der die KI-Branche in eine "Wüste der großen Modelle" geriet - keine anderen Modelle konnten mit GPT-3 mithalten.
Die Forscher mussten sich damit begnügen, kleine Modelle wie LLaMA immer wieder anzupassen, um der Spur von GPT-3 zu folgen.
Aber diese Methode des "Trainierens von KI mit KI" führte auch zu einer Verschlechterung der Modellleistung.
Die Veröffentlichung des Llama 405B-Modells war ein Wendepunkt. Davor hatte Mistral zwei Modelle mit gemischten Experten veröffentlicht:
Im Dezember 2023 wurde Mixtral 8x7B (ein gemischtes Expert-Modell) vorgestellt.
Im April 2024 wurde Mixtral-8x22B (ein spärliches gemischtes Expert-Modell mit insgesamt 141 Milliarden Parametern und 39 Milliarden aktivierten Parametern) veröffentlicht.
Obwohl Mixtral-8x22B kein dichtes Modell wie GPT-3 ist, ist die Gesamtzahl der Parameter in der gleichen Größenordnung wie die von GPT-3 (175 Milliarden).