Googles neueste Version "Tiefgehende Forschung" wehrt GPT-5.2 ab.
Google und OpenAI stehen sich derzeit diametral gegenüber! Beide Unternehmen bombardieren sich nun mit verschiedenen neuen Produkten.
Letzte Nacht hat OpenAI mit der Expert-Version GPT-5.2 erfolgreich gegen Gemini 3 gerächt!
Etwa eine Stunde vor der Veröffentlichung von GPT-5.2 hat Google bereits die neue Version des Gemini Deep Research Agent vorgestellt.
Google hat die tiefgreifende Forschung von Gemini neu konzipiert, um es stärker als je zuvor zu machen.
Die neue Version des Deep Research Agent basiert auf dem Gemini 3 Pro;
Durch mehrstufiges Reinforcement Learning wird die Genauigkeit verbessert und die Halluzinationen reduziert;
Er kann eine riesige Menge an Kontext verarbeiten und die Herkunft jeder aufgestellten These verifizieren.
Neben den Funktionsupdates des Deep Research Agent wurden zwei weitere neue Fähigkeiten eingeführt:
Die Open-Source-Benchmark DeepSearchQA für Netzwerkforschung-Agenten, um die Vollständigkeit von Agenten bei Netzwerkforschungstasks zu validieren;
Die Einführung der neuen Interaktions-API (Interactions API).
Obwohl GPT-5.2 gerade erst veröffentlicht wurde und noch nicht verglichen werden kann, hat Lukas Haas, Produktmanager von Google DeepMind, auf der sozialen Plattform X angegeben:
Der neueste Gemini Deep Research Agent erzielte in Google's neuen Benchmark-Tests 46,4 %, ist in BrowseComp mit GPT-5 Pro vergleichbar, kostet aber um eine Größenordnung weniger.
Tiefgreifende Forschung wird noch "tiefgreifender"
Gemini Deep Research ist ein Agent, der speziell für langfristige Kontextsammlungs- und Synthesetasks optimiert ist.
Der Kern des Agenten basiert auf dem bisher faktisch genauesten Gemini 3 Pro-Modell und wurde speziell trainiert, um Halluzinationen bei komplexen Tasks zu reduzieren und die Berichtsqualität zu maximieren.
Durch die Erweiterung der Anwendung von mehrstufigem Reinforcement Learning in der Suche kann der Agent komplexe Informationsumgebungen mit hoher Genauigkeit autonom bewältigen.
Gemini Deep Research erreichte in der kompletten Humanity's Last Exam (HLE)-Testsuite eine Spitzenleistung von 46,4 %, erzielte in DeepSearchQA 66,1 % und belegte in den BrowseComp-Tests 59,2 %.
DeepResearch nutzt einen iterativen Forschungsplanungsmechanismus – er formuliert Abfragen, liest die Ergebnisse, erkennt Wissenslücken und sucht erneut.
In dieser Version wurde die Netzwerksuchfunktion erheblich verbessert, sodass es möglich ist, tief in Websites vorzudringen und spezifische Daten zu erhalten.
Der Agent wurde optimiert, um auf kostengünstigere Weise gut recherchierte Berichte zu generieren.
Im Gegensatz zu herkömmlichen Chatbots ist Deep Research als langfristig laufendes System konzipiert, dessen Kernkompetenz darin besteht, "nicht sofortige" komplexe Tasks zu bewältigen.
Ein kurzer Blick auf die tiefgreifende Forschung
Tiefgreifende Forschung ist eine der am häufigsten genutzten Funktionen bei der alltäglichen Nutzung von KI-Tools.
Nach alledem können Sie sich für nur 20 Dollar pro Monat mehrmals "doktorwürdige" Dienstleistungen leisten. Warum also nicht?
Meiner Meinung nach ist die tiefgreifende Forschung das beste KI-Tool für Durchschnittsleute, um in der Wissensversorgung eine Überlegenheit zu erlangen.
Die Intelligenz von Deep Research und ähnlichen tiefgreifenden Forschungstools basiert nicht auf der brutalen Rechenleistung eines einzelnen Modells, sondern auf einem komplexen Agenten-Workflow (Agentic Workflow).
Dieser Workflow simuliert das kognitive Verhalten eines menschlichen Experten, wenn er sich mit einem unbekannten Bereich befasst. Er besteht hauptsächlich aus vier geschlossenen Schleifen: Planung, Durchführung, Inferenz und Berichterstattung.
Wenn ein Benutzer eine unklare, grobe Anweisung wie "Analysieren Sie den Kommerzialisierungspfad von Quantsensoren bis 2030" abgibt, startet DeepResearch zunächst seinen Planungsmodul.
Basierend auf der starken Inferenzfähigkeit von Gemini 3 Pro führt das System keine sofortige Suche durch, sondern zerlegt das grobe Problem mithilfe der "Schritt zurück"-Technik in mehrere Teilbereiche, wie z. B. die technische Reife, Engpässe in der Lieferkette, die politische Regulierungsumgebung und die Analyse der Hauptkonkurrenten.
Dieser Planungsprozess ist dynamisch. Im Gegensatz zum herkömmlichen linearen Denken in Ketten ist der Planungszweig in DeepResearch erweiterbar.
Wenn während der ersten Suche ein unerwartetes neues Konzept entdeckt wird, passt das System den Forschungsplan in Echtzeit an und fügt neue Zweige hinzu, um es eingehender zu erforschen.
DeepSearchQA: Die Benchmark-Test für tiefgreifende Forschungsmodelle
In den oben genannten Benchmark-Tests sollten Sie auf etwas namens DeepSearchQA aufmerksam geworden sein.
Dies ist die von Google speziell für tiefgreifende Forschungsmodelle entwickelte Testbenchmark, ein neues Benchmark, um die Leistung von Modellen bei komplexen, mehrstufigen Informationssuchtasks zu bewerten.
DeepSearchQA umfasst 900 künstlich entworfene Kausalitätsketten-Tasks aus 17 Bereichen, wobei jeder Schritt auf der vorherigen Analyse basiert.
Im Gegensatz zu herkömmlichen faktischen Tests bewertet DeepSearchQA die Vollständigkeit der Forschung, indem es von den Modellen erwartet, umfassende Antwortmengen zu generieren, und prüft gleichzeitig die Genauigkeit der Forschung und die Fähigkeit, Informationen wieder aufzurufen.
DeepSearchQA kann auch als diagnostisches Instrument zur Bewertung der Zeit-Nutzen-Relation dienen.
In internen Bewertungen hat Google festgestellt, dass die Leistung der Modelle erheblich verbessert wird, wenn sie mehr Such- und Inferenzschritte ausführen dürfen.
Der Vergleich der Ergebnisse von pass@8 und pass@1 beweist den Wert der Antwortüberprüfung durch parallele Erkundung mehrerer Pfade.
Diese Ergebnisse basieren auf einer Teilmenge von 200 Prompts aus DeepSearchQA.
Interaktions-API: speziell für die Entwicklung von Agenten-Apps entwickelt
Die Interaktions-API integriert nativ eine spezielle Schnittstelle, die speziell für die Entwicklung von Agenten-Apps konzipiert ist und die komplexe Kontextverwaltung von verzahnten Nachrichten, Denkketten, Toolaufrufen und deren Statusinformationen effizient handhaben kann.
Neben dem Gemini-Modell-Set bietet die Interaktions-API auch ihren ersten integrierten Gemini Deep Research Agent.
Als nächstes wird Google seinen integrierten Agenten erweitern und die Möglichkeit bieten, andere Agenten zu erstellen und einzubinden. Dadurch können Entwickler über eine API das Gemini-Modell, Googles integrierten Agenten und benutzerdefinierte Agenten verbinden.
Die Interaktions-API bietet einen einzigen RESTful-Endpunkt für die Interaktion mit Modellen und Agenten.
Die Interactions API erweitert die Kernfunktion von generateContent und bietet die erforderlichen Funktionen für moderne Agenten-Apps, einschließlich:
Optionaler serverseitiger Status: Die Möglichkeit, die Verwaltung des Gesprächshistorie auf den Server zu übertragen. Dies vereinfacht den Client-Code, reduziert Fehler bei der Kontextverwaltung und kann möglicherweise die Kosten durch eine höhere Cache-Trefferquote senken.
Interpretierbares und kombinierbares Datenmodell: Eine klare Architektur, speziell für die komplexe Agenten-Geschichte entwickelt. Sie können verzahnte Nachrichten, Denkprozesse, Tools und deren Ergebnisse debuggen, manipulieren, streamen und logisch ableiten.
Hintergrundausführung: Die Möglichkeit, langlaufende Inferenzschleifen auf den Server zu übertragen, ohne dass eine Client-Verbindung aufrechterhalten werden muss.
Remote-MCP-Tool-Unterstützung: Das Modell kann direkt einen Model Context Protocol (MCP)-Server als Tool aufrufen.
Mit der Einführung der Interactions API versucht Google, die Art und Weise, wie Entwickler KI-Apps erstellen, neu zu definieren, von einem "zustandslosen Anfrage-Antwort"-Modell zu einem "zustandsbehafteten Agenten-Interaktions"-Modell.
Die meisten aktuellen LLM-APIs sind zustandslos. Entwickler müssen die gesamte Gesprächshistorie auf der Client-Seite verwalten und bei jeder Anfrage Tausende von Token an Kontext an den Server zurücksenden.
Dies erhöht nicht nur die Latenz und die Bandbreitennutzung, sondern macht es auch extrem schwierig, komplexe, mehrstufige Agenten zu erstellen.
Die Interactions API führt serverseitige Zustandsverwaltung ein.
Entwickler müssen nur über den /interactions-Endpunkt eine Sitzung erstellen, und Googles Server wird automatisch den gesamten Kontext dieser Sitzung, die Toolaufrufergebnisse und den internen Denkzustand des Agenten verwalten.
Das ist, was ich für die beeindruckendste Eigenschaft dieser neuen Google-API halte.
Das revolutionärste Merkmal der Interactions API ist, dass es Entwicklern ermöglicht, direkt auf Googles vorgespeicherte, hochwertige Agenten zuzugreifen, nicht nur auf die Basis-Modelle.
Zum Beispiel können Entwickler durch einen einfachen API-Aufruf (mit agent=deep-research-pro-preview-12-2025) Googles Spitzenforschungskapazitäten in ihre ERP-, CRM- oder Forschungsprogramme integrieren.
Angesichts der Tatsache, dass eine einzelne DeepResearch-Aufgabe Hunderttausende von Token an Lese- und Generierungsaufwand verursachen kann, kann die Kosten für eine einzelne tiefgreifende Forschung mehrere Dollar betragen.
Dennoch ist dieser Preis im Vergleich zu den Kosten, die ein menschlicher Junior-Analyst für Stunden oder sogar Tage an Arbeit aufwenden würde, noch immer ein äußerst rentabler Investment.
DeepMind setzt sich mit der britischen Regierung zusammen
Schließlich gibt es noch eine Nachricht, die Sie beachten sollten.
Während Google und OpenAI sich gegenseitig bekämpfen, hat Google DeepMind auf staatlicher Ebene eine Partnerschaft eingegangen.
Als aus London stammender KI-Riese führt DeepMind mit der britischen Regierung eine Zusammenarbeit