Zwei Schwergewichte verlassen nacheinander Google – Welcher Bug steckt tatsächlich bei Google drin?

Google, das einst einen roten Alarm bei OpenAI auslöste – warum ist es nun ein halbes Jahr später auf ganzer Strecke zurückgefallen?

In weniger als einer Woche haben zwei wichtige Mitarbeiter Google verlassen.

Zuerst war es Noam Shazeer, der ehemalige Vizepräsident für Engineering bei Google DeepMind, und dann John Jumper, der Leiter von AlphaFold.

Ehrlich gesagt kann ich nicht umhin zu vermuten, dass bei Google etwas schief läuft.

Seit der Veröffentlichung von Gemini 3 sind schon mehrere Monate vergangen, und Google hat immer noch nur das nicht allzu unterschiedliche Gemini 3.1. Schauen Sie sich mal Anthropic an: Vor sechs Monaten war es noch Opus 4.5, und jetzt ist Fable 5 schon seit über einer Woche außer Betrieb.

Es ist nicht nur das Modell, das hinterher hinkt, sondern auch die Produkte. Fast alle AI - Unternehmen setzen jetzt auf AI - Agenten. OpenAI hat Codex, und Anthropic hat Claude Code.

Claude Code mit Fable 5 kann jetzt sogar selbständig Bugs beheben, Tests automatisch wiederholen, bis alles grün ist, und direkt aus Designentwürfen Produktionscode generieren und schließlich in eine vollständige Software verpacken.

Bei Google dagegen gibt es nur das Antigravity 2.0, das nicht nur schlechte Ergebnisse liefert, sondern auch ein schlechtes Benutzererlebnis bietet. Im Internet gibt es nur negative Bewertungen für dieses Produkt.

Hier muss ich etwas erwähnen: Berkshire hat seit 2025 Anteile an Google erworben, und im ersten Quartal 2026 hat es seinen Anteil an Google um 224 % erhöht.

Am 1. Juni 2026 hat Berkshire über eine private Platzierung weitere 10 Milliarden US - Dollar in das Mutterunternehmen von Google, Alphabet, investiert.

Hat Buffett diesmal wirklich einen Fehler gemacht?

01 Wo ist der Full - Stack - Vorteil von Google geblieben?

Am 18. November 2025 hat Google Gemini 3 veröffentlicht. Sundar Pichai hat selbst zugesagt, dass dies das "intelligenteste Modell" von Google sei, mit der weltweit besten Inferenzfähigkeit, multimodaler Verständnisfähigkeit und Codegenerierungsfähigkeit.

Am gleichen Tag hat Google auch noch zwei andere Dinge vorgestellt: Einmal Google Antigravity, eine Entwicklungsplattform, die als "agent - first" angepriesen wird, und Nano Banana Pro, eine stärkere Version des zuvor sehr erfolgreichen Text - zu - Bild - Modells Nano Banana von Google.

Wie beeindruckend war Google damals? So viel sei gesagt: Zwei Wochen nach der Produktpräsentation von Google hat Sam Altman an die Mitarbeiter von OpenAI eine "Code Red" - Meldung geschickt und gesagt, dass die Produktqualität und das Benutzererlebnis von ChatGPT von Google schnell eingeholt würden. Deshalb sollte das gesamte Unternehmen alle anderen Projekte einstellen und sich auf ChatGPT konzentrieren.

Altman befürchtete nicht nur diese drei Produkte, sondern den Full - Stack - Vorteil von Google.

Beim Hardware - Bereich hat Google das eigenentwickelte TPU - Chip. Google entwickelt TPU - Chips seit 2015, und jetzt ist die siebte Generation, Ironwood, auf dem Markt. Ein Chip hat die Rechenleistung von vier früheren Chips, verfügt über eine Flüssigkeitskühlung, und in einem Pod können 9216 Chips untergebracht werden, die eine Rechenleistung von 42,5 ExaFlops bieten.

Im Gegensatz zu den generischen GPU - Chips von Nvidia sind TPU - Chips speziell für AI - Inferenzaufgaben optimiert, kostengünstiger und leistungsfähiger.

Eine Ebene höher ist DeepMind.

Im April 2023 hat Google Google Brain und DeepMind zu einer Einheit zusammengeführt. Zuvor waren es zwar dasselbe Unternehmen, aber es gab lange Zeit zwei verschiedene Systeme und Kulturen. Brain war eher produkt- und kommerzialorientiert, während DeepMind sich auf langfristige Forschung konzentrierte.

Nach der Fusion hat Demis Hassabis das Team geleitet, und Jeff Dean hat sich in die Position des Chefscientists zurückgezogen. Das heißt, die "linke und rechte Hemisphäre" von Google sind vereint.

Noch eine Ebene höher gibt es etwas, das viele Menschen leicht übersehen: die Zugangspunkte. Google hat nicht nur Modelle, sondern auch Chrome, Android, YouTube, Google Maps, Gmail, Google Workspace und Google Search.

Zusammen haben diese Produkte eine tägliche Aktivität von mehreren Milliarden Benutzern. Kein anderes AI - Unternehmen auf der Welt hat so viele Benutzer. Google kann über diese Zugangspunkte seine Produkte vermarkten und dann die Benutzerfeedback nutzen, um die Produktentwicklung und - iteration zu beschleunigen.

Beispielsweise kann man sehen, an welchem Punkt die Benutzer das Produkt verlassen, welche Funktionen am häufigsten verwendet werden, welche Generierungsergebnisse von den Benutzern geändert oder verworfen werden, welche Funktionen die Benutzer halten und in welchen Szenarien es viele Fehler und Beschwerden gibt.

Nehmen wir Nano Banana als Beispiel.

Obwohl dieses Produkt sehr klein ist, hat es durch den Full - Stack von Google einen eigenen, vollständigen Zyklus.

Sobald Nano Banana in Blindtests wie der LM Arena bekannt geworden war, hat Google es sofort in der Gemini App, im AI Studio und über die Gemini API verfügbar gemacht, und auch das für Unternehmen entwickelte Vertex AI wurde nicht ausgelassen.

Die Benutzer können Nano Banana über verschiedene Produkte erleben, und Google kann die Benutzerfeedback sammeln. Deshalb ist die Produktentwicklung von Nano Banana so schnell, und es übertrifft die Bildgenerierungsfähigkeit von GPT - 4o.

Warum hat Google seinen Full - Stack - Vorteil jetzt verloren?

Text - zu - Bild - Produkte haben ein geringes Risiko, eine kurze Kette und sofort sichtbare Ergebnisse.

Der Benutzer gibt einen Satz ein, und nach einigen Sekunden erhält er ein Bild. Wenn er nicht zufrieden ist, kann er es erneut versuchen. Wenn er zufrieden ist, kann er es teilen. Es ist keine Langzeitgedächtnis erforderlich, keine Zugangsberechtigungen zu Tools und keine realen Konsequenzen für Fehler.

Agenten sind jedoch anders. Es geht nicht darum, dem Benutzer ein Ergebnis zu geben, sondern darum, in die Arbeitsumgebung des Benutzers einzudringen, den Kontext kontinuierlich zu lesen, Tools zu verwenden, Aktionen auszuführen und für das Endergebnis verantwortlich zu sein.

Der Erfolg von Nano Banana kann nicht einfach auf Agenten übertragen werden.

Wenn ein Produkt über Modelle, Zugangsberechtigungen, Ausführungsumgebungen, Unternehmenssysteme und langfristige Verantwortung hinausgehen muss, beginnt die ursprünglich starke Full - Stack - Fähigkeit von Google Probleme mit der Koordination aufzuweisen.

02 Das wirkliche Problem von Google ist die chaotische Organisationsstruktur

Wenn Sie sich die Entwicklerprodukte von Google ansehen, werden Sie ein seltsames Phänomen feststellen. Google hat mehrere Tools, die Ihnen helfen, mit AI Code zu schreiben, und ihre Funktionen überschneiden sich fast vollständig.

Gemini CLI, ein Befehlszeilentool, kann Codebibliotheken durchsuchen, Anwendungen generieren und komplexe Prozesse automatisch ausführen. Es wurde Ende 2025 zusammen mit Gemini 3 veröffentlicht. Im Juni 2026 hat Google angekündigt, dass Gemini CLI durch Antigravity CLI ersetzt werden wird.

Jules, ein asynchroner Codierungsagent, stammt von Google Labs und soll automatisch Bugs beheben, Tests schreiben und Pull - Requests erstellen. Sie müssen es nicht ständig beobachten. Sie geben ihm eine Aufgabe, und er klont das Repository, schreibt Code, eröffnet einen Pull - Request und benachrichtigt Sie, wenn er fertig ist.

Code Assist, ein unternehmensorientierter Programmierassistent von Google Cloud, kann in VS Code und JetBrains installiert werden und kostet zwischen 22,8 und 54 US - Dollar pro Benutzer und Monat. Firebase Studio, ein Full - Stack - Entwicklungsarbeitsplatz im Browser, hat ein eingebautes Gemini und kann Ihnen auch helfen, Code zu generieren.

Und dann ist da das immer wieder versagende Antigravity. Wie bereits erwähnt, wurde auf der I/O - Konferenz im Mai 2026 eine Version 2.0 veröffentlicht, die in Desktop - App, CLI, SDK, Managed Agents und Unternehmensschicht aufgeteilt ist.

Sie alle machen dasselbe, aber sie werden von verschiedenen Teams entwickelt, haben verschiedene Markennamen, verschiedene Zugangspunkte, verschiedene Preismodelle und ersetzen sich teilweise sogar gegenseitig.

Dies ist nicht die Vielfalt der Produktlinie, sondern eine Verschwendung von Rechenleistung.

Die Wurzel dieses Problems liegt eigentlich auf der Ebene der Organisationsstruktur.

Die AI - Agent - Fähigkeiten von Google sind auf mindestens mehrere voneinander unabhängige Organisationen aufgeteilt. Jede Organisation hat ihre eigenen KPIs und unabhängige Berichtslinien.

Zum Beispiel kümmert sich Google DeepMind darum, ob das Modell in Benchmarks bessere Ergebnisse erzielt als GPT und Claude. Der Erfolg von DeepMind ist, "dass wir das stärkste Modell entwickelt haben".

Es interessiert sich überhaupt nicht dafür, wie hoch die Erfolgsrate eines Benutzers ist, wenn er ein echtes Projekt in Antigravity abschließt.

Das Google Labs - Team kümmert sich nur darum, ob etwas cool ist und in den sozialen Medien Diskussionen auslöst.

Die Produkte von Google Labs sind CC (der AI - Assistent in Gmail), Project Genie (die Generierung von unendlichen Welten), Pomelli (ein AI - Marketingtool), Opal (die Erstellung kleiner Anwendungen mit natürlicher Sprache) und Jules.

Nachdem das Experiment abgeschlossen und die Aufmerksamkeit verflogen ist, geht das Team vielleicht zum nächsten Experiment, und es wird keine langfristige Wartung des Produkts durchgeführt.

Google Cloud und Vertex AI kümmern sich darum, ob das Modell über die API aufgerufen werden kann, ob Unternehmen es kaufen können, ob die Zugangsberechtigungen und die Compliance abgedeckt sind und ob der Agent in die Produktionsumgebung deployed werden kann.

Antigravity hat es noch schlechter. Es stammt aus Google DeepMind und wird jetzt von Google Labs gewartet. Aber es muss auch in das Zugangs-, Deployments- und Compliance - System von Google Cloud integriert werden.

Deshalb wird sich niemand für es verantwortlich fühlen, und es wird einfach ignoriert.

Sie mögen sich fragen, wie es bei Pichai aussieht.

DeepMind sagt, dass ihr Modell wieder die Spitzenplätze in den Benchmarks belegt. Labs sagt, dass Jules wieder 100.000 Mal auf den sozialen Netzwerken geteilt wurde. Google Cloud sagt, dass der Agent Engine wieder so und so viele Unternehmenskunden gewonnen hat. Die Gemini App sagt, dass die tägliche Aktivität in diesem Monat stabil ist. Die Suchmaschine sagt, dass die Anzahl der Benutzer von AI - Overviews 2 Milliarden überschritten hat.

Jeder hat seinen Job sichergestellt, aber am Ende bleibt Antigravity im Elend.

Aber niemand kann die einfachste Frage beantworten: Welches Tool von Google sollte ein Entwickler heute verwenden, um seine Arbeit zu erledigen? Wenn er jetzt Codex oder Claude Code verwendet, welches Produkt von Google soll ihn überzeugen, um umzusteigen?

03 Ein guter Benchmark - Wert bedeutet nicht, dass die Aufgabe tatsächlich erfüllt wurde

Alle Erzählungen von Google drehen sich nur um die Bewertungen, aber die Leute vertrauen den Benchmarks längst nicht mehr. Ein gutes Modell muss die Aufgabe erfüllen können.

Ein Modell hat einen hohen Benchmark - Wert, wenn es beispielsweise Inferenzaufgaben richtig beantworten, Code generieren, Bilder verstehen und in mehrfachen Dialogen kohärent bleiben kann.

Diese Tests werden normalerweise in einer kontrollierten Umgebung durchgeführt. Es gibt nur eine oder wenige Runden, die Eingabe und Ausgabe sind sauber, es ist keine Bedienung externer Tools, keine Verwaltungsrechte und keine langfristige kontinuierliche Ausführung erforderlich.

Was passiert, wenn es fehlschlägt? Die Antwort ist falsch. Im schlimmsten Fall muss man es einfach nochmal versuchen.

Aber wenn es um die Erfüllung einer Aufgabe geht, ändert sich der Wert des Modells.

Wenn ein Benutzer eine echte Aufgabe an die AI gibt und am Ende ein nutzbares Ergebnis erhält, ist die Kette dazwischen sehr lang.

Was heißt "echte Aufgabe"? Es könnte sein: "Es gibt einen Bug im Zahlungsmodul dieses Projekts. Bitte lokalisieren, beheben, testen und einen Pull - Request einreichen." Dies umfasst mehrere Schritte, die möglicherweise mehrere Minuten oder sogar Stunden dauern können. Es müssen Git, Terminal, Browser, Dateisystem und API verwendet werden, und jeder Schritt kann fehlschlagen.

Was passiert, wenn es fehlschlägt? Es ist nicht, dass die Antwort falsch ist, sondern dass der Code beschädigt wurde, die Zugangsberechtigungen nicht kontrolliert werden können, der Prozess blockiert ist, die Umgebung zusammenbricht und der Benutzer nicht weiß, wie er wieder anfangen kann.

Ich gebe ein Beispiel.

Nehmen wir an, ein Modell hat eine Genauigkeit von 95 % bei einzelnen Schritten. Das scheint sehr gut zu sein. Aber wenn eine echte Entwicklungsaufgabe 20 kritische Schritte erfordert, ist die Wahrscheinlichkeit, dass alle Schritte fehlerfrei ablaufen, nur 0,95 ^ 20, was etwa 36 % entspricht.

Selbst wenn die Genauigkeit bei einzelnen Schritten auf 98 % erhöht wird, ist die Wahrscheinlichkeit, dass alle 20 Schritte erfolgreich ablaufen, nur etwa 67 %.

Die wirkliche Schutzmauer für Agent - Produkte ist nicht, den Benchmark - Wert um ein paar Punkte zu erhöhen, sondern es ist die Schaffung zuverlässiger Mechanismen für die Fehlerbehebung, den Zustandsspeicher, die Zugangsberechtigungsprüfung, die manuelle Übernahme, das Rückgängigmachen und die Ergebnisüberprüfung.

Aber Antigravity 2.0 hat immer noch keine solchen und vollständigen Mechanismen.

Wenn Sie den offiziellen Blog - Beitrag zu Gemini 3 lesen, der von Pichai selbst geschrieben wurde, finden Sie hinter dem Einleitungstext nur Benchmark - Vergleichstabellen.

Aber wenn Sie jetzt die offiziellen Blog - Beiträge von OpenAI und Anthropic zu ihren neuen Modellen lesen, finden Sie darin nur Bewertungen von Kunden.

Das heißt nicht, dass Benchmarks nutzlos sind. Benchmarks sind natürlich nützlich, sie sind ein Maßstab. Aber wenn die gesamte Erzählung eines Agent - Produkts nur um Benchmarks herumdreht,

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Zwei Schwergewichte hintereinander haben das Unternehmen verlassen – Welcher Bug steckt eigentlich bei Google drin?

01

Wo ist der Full - Stack - Vorteil von Google geblieben?

02

Das wirkliche Problem von Google ist die chaotische Organisationsstruktur

03

Ein guter Benchmark - Wert bedeutet nicht, dass die Aufgabe tatsächlich erfüllt wurde