StartseiteArtikel

Google hat in der späten Nacht sensationell Open Source veröffentlicht. Die tiefgehende Studie zu Agenten hat die SOTA erreicht und ist um 90 % billiger als GPT-5 pro.

智东西2025-12-12 08:46
Google setzt drei Agent-Sonderwaffen hintereinander ein.

Nachrichten von Zhidx vom 12. Dezember. In der Nacht von heute hat Google, eine Stunde früher als OpenAI, drei Agent-Strategien ins Feld geschleudert:

Aktualisierung der Deep Research Agent-Funktion und erstmals Offenlegung für Entwickler; Open-Sourcing des neuen Netzwerkforschung-Agent-Benchmarks DeepSearchQA, das Ziel ist es, die Vollständigkeit von Agenten bei Netzwerkforschungstasks zu testen; Einführung der neuen Interaktions-API (Interactions API).

Gemini Deep Research ist ein Agent, der speziell für langfristige Kontextsammlung und komplexe Aufgaben optimiert ist. Das dahinterliegende Modell ist Gemini 3 Pro. Durch erweiterte Suche mit mehrstufiger Verstärkungslernen kann der Agent autonom in komplexen Informationsumgebungen mit hoher Genauigkeit navigieren. Diese Aktualisierung umfasst Websuche für bestimmte Daten, kostengünstigere Erstellung von Forschungsberichten usw.

Der Google DeepMind-Produktmanager Lukas Haas hat auf der sozialen Plattform X bekannt gegeben, dass der neue Gemini Deep Research Agent bereits State-of-the-Art (SOTA) erreicht hat, 46,4 % in den neuen Google-Benchmarktests erzielt hat, auf BrowseComp mit GPT-5 Pro vergleichbar ist und etwa ein Zehntel seiner Kosten hat.

Der Deep Research Agent wird bald in Google Search, Google Notebooks und Google Finance zur Verfügung gestellt und in den Gemini-Anwendungen aktualisiert.

DeepSearchQA beinhaltet 900 handgefertigte "Kausalitätsketten"-Tasks, die 17 Bereiche abdecken und die Fähigkeit von Agenten bei komplexen Tasks, die mehrstufige Informationsabfragen erfordern, bewerten können.

Die Interaktions-API dient als einheitliche Schnittstelle für die Interaktion mit dem Gemini-Modell und Agenten und ist für Entwickler über die öffentliche Testversion der Gemini API in Google AI Studio zugänglich. Entwickler können die Interaktions-API über das Agent Development Kit (ADK) und das A2A-Protokoll nutzen.

Einige Internetnutzer haben kommentiert, dass Google den Entwicklern "einen digitalen Sherlock Holmes" gegeben hat. Jetzt können Sie einfach Kaffee trinken und jede Anwendung wie ein Essay verfassen lassen, um tiefe Untersuchungen durchzuführen.

Open-Source-Adresse von DeepSearchQA: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

01 Deep Research Agent: Aktualisierung der Websuche und kostengünstige Erstellung von Forschungsberichten

Nach dem Google-Blog ist das Gemini 3 Pro-Modell hinter Deep Research das realitätsgetreueste Modell, das sie bisher entwickelt haben. Dieses Modell wurde speziell trainiert, um Halluzinationen zu reduzieren und die Qualität von Berichten bei komplexen Aufgaben zu maximieren.

Deep Research arbeitet in einem iterativen Prozess. Es stellt Fragen, liest die Ergebnisse, erkennt Wissenslücken und sucht dann erneut. Die neue Version hat die Websuchfunktion erheblich verbessert, sodass es in Websites nach bestimmten Daten suchen kann.

Der neue Gemini Deep Research Agent hat in den vollständigen HLE-Tests 46,4 % erreicht, Gemini 3 Pro 43,2 % und GPT-5 Pro 38,9 %. Er hat in den Tests von DeepSearchQA und BrowseComp mit geringem Vorteil gewonnen.

Google hat auch die Funktion des Agents zur kostengünstigen Erstellung von tiefgehenden Forschungsberichten optimiert.

Der Gemini Deep Research Agent wird bereits in komplexen Bereichen eingesetzt, die hohe Genauigkeit erfordern und auf frühen Rückmeldungen und Tests basieren, einschließlich Finanzdienstleistungen, Biotechnologie und Marktforschung. Diese Bereiche können Gemini Deep Research nutzen, um erste Recherchetasks durchzuführen.

Für Entwickler, die die nächste Generation von automatisierten Forschungstools entwickeln, kann der Gemini Deep Research Agent Informationen zusammenfassen und detaillierte Berichte erstellen:

Einheitliche Informationszusammenfassung: Gemini Deep Research analysiert Benutzerdokumente und öffentliche Netzwerkdaten über Dateiupload und Dateisuchetools. Es kann auch lange Kontexte verarbeiten und ermöglicht es Benutzern, eine große Menge an Hintergrundinformationen direkt in den Hinweisen zu platzieren;

Berichtskontrolle: Benutzer können die Ausgabe steuern, indem sie die Struktur, die Überschriften definieren oder die Erstellung und das Format von Datentabellen angeben;

Detaillierte Referenzen: Es bietet feingrained Quellenangaben, sodass Benutzer die Datenquellen überprüfen können;

Strukturierte Ausgabe: Es unterstützt die Ausgabe im JSON-Format, was es für nachgelagerte Anwendungen erleichtert, die Forschungsergebnisse zu analysieren.

02 DeepSearchQA: Neuer Agent-Basis, abdeckend 17 Bereiche und 900 Tasks

DeepSearchQA ist der Testbenchmark für den Deep Research Agent.

Die bestehenden Benchmarktests spiegeln oft nicht die Komplexität der realen Welt bei mehrstufigen Netzwerkforschungen wider. Google hat den neuen Open-Source-Benchmark DeepSearchQA veröffentlicht, um Agenten bei komplexen Tasks, die mehrstufige Informationsabfragen erfordern, zu bewerten.

DeepSearchQA hat 900 handgefertigte "Kausalitätsketten"-Tasks, die 17 Bereiche abdecken. Jeder Schritt hängt von einer vorherigen Analyse ab. Im Gegensatz zu herkömmlichen Tatsachen-basierten Tests misst DeepSearchQA die Vollständigkeit und fordert vom Agenten die Erstellung eines detaillierten Antwortensatzes. Dies bewertet nicht nur die Genauigkeit der Forschung, sondern auch die Gedächtnisleistung der Abfrage.

DeepSearchQA kann auch als Werkzeug zur Messung der Effizienz der "Denkzeit" dienen. Google hat in internen Bewertungen festgestellt, dass die Leistung eines Agenten erheblich verbessert wird, wenn er mehr Such- und Inferenzschritte ausführen darf.

03 Interaktions-API: Integration einer speziell für Agentenanwendungen entwickelten Schnittstelle

Die Interaktions-API integriert nativ eine Reihe von speziellen Schnittstellen, die für die Entwicklung von Agentenanwendungen konzipiert sind und die komplexe Kontextverwaltung von wechselseitigen Nachrichten, Denkketten, Toolaufrufen und deren Statusinformationen effizient verarbeiten können. Neben dem Gemini-Modell-Set bietet die Interaktions-API auch ihren ersten eingebauten Agenten Gemini Deep Research Agent.

Als nächstes wird Google seinen eingebauten Agenten erweitern und die Funktion zum Erstellen und Einführen anderer Agenten bieten. Dies ermöglicht es Entwicklern, über eine API das Gemini-Modell, die eingebauten Google-Agenten und benutzerdefinierte Agenten zu verbinden.

Die Interaktions-API bietet einen einzigen RESTful-Endpunkt für die Interaktion mit Modellen und Agenten.

Interaktion mit Modellen durch Angabe von Modellparametern:

Interaktion mit Agenten durch Angabe von Agentenparametern, derzeit unterstützt wird deep-research-pro-preview-12-2025:

Die Interaktions-API erweitert die Kernfunktionen der generierten Inhalte um Funktionen, die moderne Agentenanwendungen benötigen, einschließlich:

Optionaler serverseitiger Status: Möglichkeit, die Verlaufsverwaltung auf den Server zu übertragen. Dies vereinfacht den Client-Code der Entwickler, reduziert Kontextverwaltungsprobleme und kann möglicherweise die Kosten durch erhöhte Cache-Trefferrate senken.

Interpretierbares und kombinierbares Datenmodell: Ein sauberes Schema für komplexe Agentenverläufe. Entwickler können wechselseitige Informationen, Gedanken, Tools und deren Ergebnisse debuggen, strömungsanalysieren und inferieren.

Hintergrundausführung: Möglichkeit, langlaufende Inferenzschleifen auf den Server zu übertragen, ohne die Client-Verbindung aufrechtzuerhalten.

Remote-MCP-Tool-Unterstützung: Das Modell kann direkt den Modellkontextprotokoll-Server (MCP) als Tool aufrufen.

04 Fazit: Erweiterung der Gemini-Ekosystem, Google vereinfacht die Agentenentwicklung

Der Deep Research Agent wird derzeit in vielen Bereichen wie Finanzwesen und wissenschaftlicher Forschung eingesetzt. Google hat nicht nur diesen Agenten aktualisiert, sondern auch die Interaktions-API veröffentlicht, um den Interaktionsprozess mit dem Gemini-Modell und Agenten zu vereinfachen und eine benutzerfreundlichere Entwicklungsökosystem zu schaffen.

Das Google-Blog erwähnt, dass zukünftige Updates sich auch auf reichhaltigere Ausgaben konzentrieren werden, wie z. B. die native Generierung von Diagrammen, um visualisierte Analyseberichte zu unterstützen, sowie die Unterstützung der erweiterten Konnektivität über das Modellkontextprotokoll (MCP), um leichter auf benutzerdefinierte Datenquellen zuzugreifen. Darüber hinaus wird es bemühen, den Gemini Deep Research in das Vertex AI für Unternehmen einzubringen.

Dieser Artikel stammt aus dem WeChat-Account "Zhidx" (ID: zhidxcom), Autor: Cheng Qian. Veröffentlicht von 36Kr mit Genehmigung.