Zwei "Kanonen" der Google-Version werden Open Source, und die 270 Millionen Parameter besiegen den aktuellen Stand der Technik.
Google hat wirklich eine tiefe Fundierung!
Nachdem es kürzlich im Bereich der „Großen Modelle“ mit Gemini 3 Pro ➕ Flash die Stärke von OpenAI geschwächt hat, setzt es unermüdlich seine Bemühungen im Bereich der „Kleinen Modelle“ auf der Geräteebene fort!
Letzte Nacht hat es plötzlich zwei neue technische Blogs veröffentlicht, die alle mit der Geräteebene in Verbindung stehen.
Eines ist T5Gemma 2, eine spezielle Innovation in der unteren Architektur. Es ist das erste offengelegte multimodale Langkontext-Codec-Decoder-Modell, mit einer minimalen Größe von 270M–270M.
Das andere ist FunctionGemma, ein auf Funktionsaufrufe optiminiertes 270M (270 Millionen Parameter) Modell, das auf Mobiltelefonen, Browsern und anderen Geräten ausgeführt werden kann.
T5Gemma 2 und FunctionGemma stammen beide aus der Gemma 3 Familie. Im Gegensatz zu „Großen Modellen“ wie Gemini ist Gemma ein „Kleines Modell“.
Obwohl beide kleine Modelle sind, verhalten sie sich wie Zwillingsbrüder aus derselben Schule, aber mit unterschiedlichen Schwerpunkten.
T5Gemma 2 konzentriert sich auf Architektureffizienz und Multimodalität (Rückkehr zur Encoder-Decoder-Architektur).
FunctionGemma hingegen konzentriert sich auf Agenten und Werkzeugnutzung (Funktionsaufruffähigkeit).
T5Gemma 2 hat eine andere Architektur als die derzeit populären LLMs und kann als ein „anderer Weg“ im Bereich der KI-Technologie verstanden werden.
Publikationslink: https://arxiv.org/pdf/2512.14856
Google hat T5Gemma 2 in drei Größen öffentlich gemacht: 270M–270M, 1B–1B und 4B–4B vortrainierte Modelle.
Open-Source-Link: https://huggingface.co/collections/google/t5gemma-2
FunctionGemma ist eine Fähigkeitsvariante, es ist eine spezielle Schulung der „Fähigkeiten“ des Modells.
Es ist so, als würde man alle Wissensfähigkeiten aus einem großen Modell entfernen und nur die gezielten Funktionsaufrufe behalten.
Open-Source-Link: https://blog.google/technology/developers/functiongemma/
Tiefgehende technische Analyse der T5Gemma-Serie
Schauen wir uns zunächst die Vorteile dieser „neuen Struktur“ von T5Gemma 2 an:
Starke multimodale Leistung: Übertrifft in mehreren Benchmark-Tests das eigene Gemma 3 von Google.
Allgemeine Verbesserung der Fähigkeiten: In Aufgaben wie Coding, Inferenz und Mehrsprachigkeit ist T5Gemma 2 insgesamt besser als das entsprechende Gemma 3-Modell in der gleichen Größe.
Ausgezeichnete Langkontextfähigkeit: Im Vergleich zu Gemma 3 und der ersten Generation von T5Gemma hat es eine deutliche Verbesserung in der Generierungsqualität erzielt.
Ähnlich wie T5Gemma kann T5Gemma 2 in der Vortrainingsphase möglicherweise die Leistung des entsprechenden Gemma 3-Modells in der gleichen Größe übertreffen und in der Nachtrainingsphase eine deutlich bessere Leistung erzielen.
Um zu verstehen, warum Google T5Gemma entwickelt, müssen wir uns die zentrale Entwicklung der aktuellen Technologierichtung der großen Modelle ansehen.
T5Gemma kann als eine „Renaissance des Klassizismus“ im Bereich der großen Modelle bezeichnet werden.
In der heutigen Zeit, in der Decoder-only (nur Decoder) Architekturen wie GPT und Llama dominieren, ist T5Gemma 2 eine Rückkehr und moderne Umgestaltung der Encoder-Decoder (Encoder-Decoder) Richtung der klassischen Transformer-Architektur.
Die von uns bekannten GPT, Gemini und DeepSeek verwenden alle Decoder-only (nur Decoder) Architekturen.
GPT-Serie (OpenAI): Von GPT-1 bis zum aktuellen GPT-4o sind alle Decoder-only.
DeepSeek: Sowohl DeepSeek-V2 als auch die neueste V3 basieren im Kern auf Decoder-only (in Kombination mit MoE-Mischtechnologie der Experten).
Llama (Meta): Es ist das derzeitige offene Marktforschungsmodell für Decoder-only.
Gemini (Google): Die Hauptmodelle (Pro/Flash) sind hauptsächlich Decoder-only.
Fast alle berühmten Supermodelle für „Chats“ sind ausschließlich Decoder-only.
Warum wird T5Gemma 2 als eine „Rückkehr“ bezeichnet?
Dafür müssen wir uns die Geschichte der Spaltung des Transformers ansehen.
Um die „Rückkehr“ zu verstehen, müssen wir zunächst sehen, wie sie ursprünglich „gespalten“ wurden.
Als Google 2017 in der Veröffentlichung von „Attention Is All You Need“ den Transformer vorschlug, war der ursprüngliche Ansatz eine vollständige Encoder-Decoder (Encoder-Decoder) Architektur.
Später hat sich die Familie in drei Schulen aufgeteilt:
Schule A: Encoder-only (nur Encoder)
Repräsentant: BERT.
Stärke: Es kann nur „lesen“, aber nicht „schreiben“. Es ist extrem gut in der Lösung von Multiple-Choice-Fragen, Klassifizierung und Sentimentanalyse, aber wenn man es auffordert, einen Aufsatz zu schreiben, schafft es das nicht.
Schule B: Decoder-only (nur Decoder)
Repräsentant: GPT.
Stärke: Es kann nur „das nächste Wort erraten“. Obwohl es den Kontext nicht so vollständig wie der Encoder sehen kann (es kann nur nach links, nicht nach rechts sehen), ist es von Natur aus gut im Sprechen, und es wurde festgestellt, dass wenn man dieses Ding groß genug macht, es tatsächlich Intelligenz entwickelt (Emergenz).
Das hat also „zufällig“ unsere KI-Ära eröffnet (lacht).
Schule C: Encoder-Decoder (vollständige Beibehaltung)
Repräsentanten: T5 (Google), BART.
Stärke: Es kann sowohl lesen als auch schreiben. Das ist die Schule, der das aktuelle T5Gemma 2 angehört.
Der volle Name von T5 ist Text-to-Text Transfer Transformer, also fünf aufeinanderfolgende Ts, daher der Name T5.
Warum hat sich dann die Decoder-only (GPT-Schule) später durchgesetzt?
- Einfache und grobe Schulung
Man muss nur eine riesige Menge von Texten aus dem Internet einfügen und es dazu bringen, ständig das nächste Wort vorherzusagen (Selbstüberwachtes Lernen).
- Sehr hohes Potenzial
Das ist das Scaling Law (Skalierungsgesetz). Es wurde festgestellt, dass Decoder-only Modelle umso intelligenter werden, je größer sie werden, und es ist einfacher, Rechenleistung hinzuzufügen.
- Encoder-Decoder wurde vernachlässigt
Da es eine komplexe Struktur hat (zwei Sets von Parametern), ist die Schulung etwas schwieriger als bei Decoder-only, und bei der Erstellung von Supermodellen (hunderte Milliarden von Parametern) scheint es nicht so kostengünstig wie reiner Decoder zu sein.
Deshalb kann nur das reiche Google die Energie aufbringen, zu diesem klassischen Modell zurückzukehren und weiterhin in die Forschung zu investieren.
Google hat plötzlich einen Rückzieher gemacht, als die ganze Welt in Decoder-only verstrickt war.
Wenn Decoder-only so stark ist, warum sollte man zurück zu Encoder-Decoder wechseln?
Weil Google einige Schwachstellen von Decoder-only entdeckt hat, die genau die Stärken von Encoder-Decoder sind:
Das Problem der „Halluzinationen“ (Erfindungen):
Decoder-only (GPT)
Denkt während des Schreibens, und manchmal kann es nicht aufhören, was zu widersinnigen Aussagen führen kann.
Encoder-Decoder (T5)
Es „liest zuerst (Encoder) - und schreibt dann (Decoder)“ .
Der Encoder zwingt das Modell, die Eingabe vollständig zu verstehen, erzeugt einen vollständigen „Zentralgedankenvektor“ und lässt dann den Decoder ihn übersetzen.
Dieser Mechanismus ist von Natur aus strenger und hat weniger Halluzinationen.
Natürlicher Vorteil im Bereich der Multimodalität
Wenn man das Modell Bilder sehen lassen möchte, ist der Encoder (Encoder) das beste „Auge“.
T5Gemma 2 kann direkt Bildsignale an den Encoder geben, was viel reibungsloser ist als die Verarbeitung durch Decoder-only.
Effizienz auf der Geräteebene (auf Mobiltelefonen laufen)
Auf Mobiltelefonen mit begrenzter Rechenleistung kann Encoder-Decoder bei Aufgaben wie Übersetzung, Zusammenfassung und Befehlsausführung oft mit weniger Parametern (weniger Arbeitsspeicher) die gleiche Leistung wie ein riesiges Decoder-only-Modell erreichen.
Die Entstehung von T5Gemma 2 soll nicht GPT ersetzen, sondern die Encoder-Decoder-Architektur in bestimmten Bereichen (z. B. Mobiltelefonen, Übersetzung, Werkzeugnutzung, strenge Inferenz) wiederbeleben.