OpenAIs neue Funktion „Tiefenforschung“ ist da und übertrifft DeepSeek R1 im ultimativen Menschheitstest.
Am Morgen des 3. Februar, Pekinger Zeit, hat OpenAI offiziell die Einführung des Deep Research-Features, eines Agentenprodukts für den Bereich der Tiefenforschung, angekündigt.
Ein erfahrener Branchenanalyst benötigte früher Tage oder sogar Wochen, um einen professionellen Forschungsbericht zu erstellen. Jetzt kann diese bahnbrechende Funktion dies in nur 5-30 Minuten erledigen. Diese Funktion, vergleichbar mit einem "KI-Forscher", kann eigenständig komplexe Fachinformationen analysieren, Hunderte von Online-Ressourcen in Echtzeit durchsuchen und zusammenführen und letztlich einen vollständigen Bericht mit professionellem Standard erstellen.
Bildquelle: OpenAI
Diese leistungsstarke Funktion wird von einer speziellen Version des demnächst erscheinenden OpenAI o3-Modells unterstützt. Diese Version wurde speziell optimiert, um die Szenarien der Web-Browsing und Datenanalyse zu unterstützen. Sie kann ihre Fähigkeiten zur Schlussfolgerung nutzen, um im Internet eine riesige Menge an Texten, Bildern und PDF-Dateien zu durchsuchen, zu interpretieren und zu analysieren, und kann Forschungsrichtungen flexibel anpassen, basierend auf den gefundenen Informationen.
Bemerkenswert ist, dass OpenAI in der Bewertung der Fähigkeiten dieses Agenten einen Vergleich mit DeepSeekR1 durchgeführt hat. In dem Humanity's Last Exam (kurz HLE)-Test hat das von Deep Research verwendete Modell bei Expertenthemen eine Genauigkeit von 26,6% erreicht, was einen neuen Rekord darstellt.
Im Vergleich dazu liegt die Genauigkeit des R1-Modells von DeepSeek bei 9,4%.
Diese Prüfung wurde von vielen Experten aus verschiedenen Bereichen weltweit gemeinsam entwickelt, um die Leistungsfähigkeit künstlicher Intelligenz in einer breiten Palette wissenschaftlicher Disziplinen zu bewerten. Sie wird als fortschrittliche Benchmark zur Bewertung der akademischen Fähigkeiten künstlicher Intelligenzen angesehen. Der Test umfasst mehr als 3000 Multiple-Choice- und Kurzantwortfragen, die über 100 Disziplinen abdecken, von Linguistik bis Raketentechnik, von Klassik bis Ökologie.
Hieraus lässt sich erkennen, dass DeepSeek tatsächlich einen gewissen Druck auf OpenAI ausübt.
Tencent Technology hat die Einführung von OpenAIs Deep Research und den Livestream zur technischen Analyse zusammengefasst, um die wichtigsten technischen Punkte dieser Veröffentlichung herauszustellen.
Bildquelle: OpenAI
Verwandlung in einen professionellen Forscher, der auf die Suche nach obskuren Informationen und die Integration des gesamten Internets spezialisiert ist
Die Deep Research-Funktion wurde speziell für Intensivarbeitende in den Bereichen Finanzen, Wissenschaft, Politik, Technik usw. entwickelt, die umfassende, präzise und zuverlässige Forschungsergebnisse benötigen. Gleichzeitig ist es auch für Verbraucher geeignet, die beim Kauf von Autos, Haushaltsgeräten, Möbeln usw., die sorgfältig erforscht werden müssen, nach hochgradig personalisierten Empfehlungen suchen.
1. Der Output von Deep Research wird mit klaren Zitaten und einer Zusammenfassung seines Denkprozesses ergänzt, was den Benutzern das Nachschlagen und Verifizieren von Informationen erleichtert.
2. Es ist besonders geschickt im Aufspüren obskurer und nicht intuitiver Informationen, erleichtert Benutzern die Entladung und Beschleunigung komplexer und zeitaufwändiger Web-Recherche-Aufgaben durch eine einzige Abfrage und spart so Zeit.
3. Deep Research kann unabhängig Erkenntnisse aus dem Netz entdecken, reflektieren und integrieren. Dabei nutzt es dieselbe Verstärkungslernmethode wie OpenAI o1 (OpenAIs erstes Schlussfolgerungsmodell) und hat für das Browsen von Webseiten und den Einsatz von Python-Tools unter realen Aufgaben eine echte Trainingseinheit durchlaufen.
Obwohl o1 in technischen Bereichen wie Programmierung und Mathematik hervorragend abschneidet, erfordern viele reale Herausforderungen das weitreichende Sammeln von Kontextinformationen aus einer Vielzahl von Online-Ressourcen.
Deep Research erweitert auf dieser Basis seine Schlussfolgerungsfähigkeit, um die bestehenden Defizite zu schließen und es so in die Lage zu versetzen, vielfältige Probleme zu bewältigen, die Menschen in Arbeit und Alltag begegnen.
In ChatGPT können Benutzer die Option "Deep Research" im Nachrichtenfeld wählen und eine Frage eingeben. Benutzer können ChatGPT auch auf ihre spezifischen Anforderungen hin beleuchten oder Dateianhänge oder Tabellen hinzufügen, um den Kontext der Anfragen zu erweitern. Ist der Prozess gestartet, zeigt die Seitenleiste die durchgeführten Schritte und zusammengefassten Quellen an.
Deep Research kann zwischen 5 und 30 Minuten benötigen, um eine Aufgabe abzuschließen. Die genaue Dauer hängt von der Komplexität der Aufgabe und der benötigten Informationsmenge ab. Während dieser Zeit können Benutzer andere Aufgaben übernehmen oder weggehen – sobald die Forschung abgeschlossen ist, werden sie benachrichtigt. Der endgültige Output wird in Form eines Berichts im Chat angezeigt.
In den kommenden Wochen plant OpenAI, eingebettete Bilder, Datenvisualisierungen und andere Analyseergebnisse in diese Berichte zu integrieren, um mehr Klarheit und Hintergrundinformationen zu bieten.
Im Vergleich zu Deep Research ist GPT-4o besser für Echtzeit-, multimodale Gespräche geeignet.
Für komplexe Fragen, die eingehende Erkundung und detaillierte Analyse erfordern und aus verschiedenen spezifischen Fachbereichen stammen, bietet Deep Research eine umfassende Forschung und liefert für jede Perspektive Quellenangaben. Dies unterscheidet sich von einfachen, schnellen Zusammenfassungen, da es eine ausführlich protokollierte und überprüfte detaillierte Antwort liefert, die direkt als Arbeitsprodukt verwendet werden kann.
End-to-End-Verstärkungslernen ist das Highlight: Mehrmodularer kooperativer Betrieb
Deep Research wurde durch End-to-End-Verstärkungslernen für komplexe Aufgaben des Web-Browsings und der Schlussfolgerung in einer Vielzahl von Domänen trainiert.
Durch dieses Training lernte es, wie man mehrschrittige Arbeitsabläufe plant und ausführt, um die benötigen Daten zu finden, bei Bedarf rückblickend vorzugehen und auf Echtzeitinformationen zu reagieren.
Das Modell kann auch Benutzerdateien durchsuchen, Python-Tools zur Erstellung und Iteration von Diagrammen nutzen, die erstellten Diagramme und von Websites bezogene Bilder in seine Antwort einbetten und spezifische Sätze oder Absätze aus seinen Quellen zitieren.
Dieser innovative Ansatz des Lernens durchbricht die Grenze herkömmlicher maschineller Lernmethoden, bei denen Schichten des Trainingsprozesses manuell festgelegt werden müssen. Er ermöglicht es dem Modell, so ganzheitlich wie ein menschlicher Forscher zu denken und Entscheidungen zu treffen.
In Bezug auf die technische Architektur besteht Deep Research aus vier Kernmodulen, die zusammenarbeiten, um ein vollständiges intelligentes Forschungssystem zu schaffen.
Das erste ist das Informationsentdeckungsmodul, ähnlich einem "Entdecker" des Systems.
Es kann wertvolle Informationen in akademischen Datenbanken, auf Websites von Forschungseinrichtungen, in Fachforen und auf mehreren Plattformen schnell und genau ausfindig machen. Dieses Modul verfügt nicht nur über starke Suchfähigkeiten, sondern ist auch mit einem fortschrittlichen Filtersystem ausgestattet, das schnell hochwertige Forschungsergebnisse basierend auf Schlüsselwörtern, semantischen Kontexten, Aktualität und Vertrauenswürdigkeit herausfiltern kann.
Das zweite ist das Informationsintegrationsmodul, das als der "Integrator" dient.
Es kann verstreute Informationen aus verschiedenen Kanälen in ein systematisches Wissensnetz einordnen. Ob es sich um die Verarbeitung von Textberichten, die Analyse von Datencharts oder das Verständnis von professionellen Bildern handelt, dieses Modul kann die logischen Zusammenhänge zwischen Informationen korrekt erfassen und wesentliche Aspekte extrahieren.
Wenn zum Beispiel eine Forschungsaufgabe im Bereich der Technik behandelt wird, kann das Modul technische Prinzipien, Anwendungsfälle und Entwicklungstrends aus verschiedenen Dimensionen verschmelzen und zu einem vollständigen technischen Analysebericht zusammenfügen.
Das dritte ist das Schlussfolgerungsmodul, das dem System menschenähnliches Denkvermögen gibt.
Es verwendet logische Schlussfolgerungen und Knowledge Graph-Technologie, um gesammelte Informationen tiefgehend zu analysieren. Bei komplexen wissenschaftlichen Problemstellungen kann das Schlussfolgerungsmodul anhand von bekannten Tatsachen strenge Argumentationen vollführen; bei Marktforschung berücksichtigt es historische Daten, Marktdynamiken und das politische Umfeld, um vernünftige Vorhersagen zu treffen. Bemerkenswerterweise verfügt dieses Modul über die Fähigkeit der Selbstkorrektur, um bei neu entdeckten Informationen den Schlussfolgerungsweg kontinuierlich anzupassen.
Das vierte ist das Ausgabemodul – der "Ausdruckskünstler" des Systems, der die Forschungsergebnisse in professionelle Präsentationsformen umwandelt.
Je nach Benutzeranforderung kann es Berichte, Aufsätze oder Analysegrafiken erzeugen, die einem präzisen Formstandard entsprechen. Während dieses Prozesses hält sich das System streng an akademische Standards und liefert für jede Schlussfolgerung genaue Quellenangaben, um die Zuverlässigkeit und Professionalität der Forschungsergebnisse zu gewährleisten.
Das Zusammenspiel dieser Module ähnelt einem kooperativen Multi-Agent-System. Das Deep Research System kann, abhängig von der Komplexität der Aufgabe, 5-30 Minuten oder sogar länger benötigten, um eingehend zu forschen, und zeigt seinen Arbeitsprozesses in der Seitenleiste an. Während dieses Prozesses können Benutzer andere Aktivitäten unternehmen und werden benachrichtigt, sobald das Modell die Recherche abgeschlossen hat und eine Benachrichtigung sendet. Diese Mechanik zielt darauf ab, die Produktfähigkeiten optimal auszunutzen und gleichzeitig die Benutzererfahrung zu verbessern.
Hinweis: Je gründlicher das Modell recherchiert und je tiefer es über die Inhalte nachdenkt, umso besser sind seine Leistungen, was die Bedeutung von Denkzeit unterstreicht.
26,6% Genauigkeit im HLE-Test erreicht
Basierend auf dieser technischen Plattform hat Deep Research in zahlreichen öffentlich zugänglichen Bewertungen realer Probleme neue Höhen erreicht.
Anm.: Ergebnisse von Deep Research und Modellen bei der letzten Prüfung der Menschheit
In dem Humanity's Last Exam (HLE)-Test hat das von Deep Research verwendete Modell bei Expertenfragen eine Genauigkeit von 26,6% erreicht und damit einen neuen Höchststand verzeichnet.
Demgegenüber liegt die Genauigkeit des R1-Modells von DeepSeek bei 9,4%. Diese Prüfung, die von einem globalen Expertenkollektiv aus verschiedenen Bereichen entwickelt wurde, hat es zum Ziel, die Leistungsfähigkeit von KI in einem breiten Spektrum von akademischen Disziplinen zu bewerten. Sie gilt als fortschrittlicher Maßstab zur Beurteilung der akademischen Fähigkeiten von KI. Der Test umfasst mehr als 3000 Multiple-Choice- und Kurzantwortfragen, die über 100 Fachbereiche abdecken, von Linguistik über Raketentechnik bis hin zu Klassik und Ökologie.
Im Vergleich zum OpenAI-Modell o1 hat das Deep Research-Modell in chemischen, geistes- und sozialwissenschaftlichen und mathematischen Disziplinen bemerkenswerte Fortschritte gemacht. Es zeigte menschenähnliche Verarbeitungen durch die effektive Suche nach Fachinformationen.
Anm.: Deep Research Ergebnisse im GAIA-Benchmarktest
In den GAIA-Benchmark Tests hat das von Deep Research verwendete Modell den neuesten Stand der Technik (State of the Art - SOTA) erreicht und die externe Rangliste angeführt.
GAIA ist ein öffentlich verfügbarer Benchmark, der speziell zur Beurteilung der KI-Performance bei der Bewältigung realer Weltprobleme entwickelt wurde. Der Test beinhaltet Fragen in drei Schwierigkeitsgraden und deckt verschiedene reale Anwendungsszenarien ab. Das erfolgreiche Absolvieren dieser Aufgaben setzt Fähigkeiten in der Schlussfolgerung, multimodaler Interaktion, webbasiertem Browsen und professioneller Werkzeugnutzung voraus.
Im Rahmen intern durchgeführter Bewertungen verschiedener Expertenaufträge in unterschiedlichen Domänen wurde Deep Research von Fachbereichsexperten als fähig bewertet, komplexe, manuelle Studienschritte von mehreren Stunden zu automatisieren.
Deep Research hat viele neue Fähigkeiten freigeschaltet. Es befindet sich jedoch noch in den Anfangsstadien und weist immer noch einige Einschränkungen auf. Laut interner Beurteilung liegt die Fehlerrate deutlich unter der des aktuellen ChatGPT-Modells, tiefes Forschen kann jedoch immer noch gelegentlich falsche Informationen generieren oder fehlerhafte Schlussfolgerungen ziehen.
Zusätzlich könnte es schwerfällig darin sein, zwischen glaubwürdigen Informationen und Gerüchten zu unterscheiden, und es weist eine unzureichende Genauigkeitskalibrierung auf, die oft das Unsicherheitsmaß nicht korrekt vermittelt. In der Anfangsphase der Veröffentlichung können Berichts- und Zitatformate einige Fehler aufweisen und der Start der Aufgaben kann mehr Zeit in Anspruch nehmen. OpenAI erwartet jedoch, dass sich diese Probleme mit steigender Nutzung und im Laufe der Zeit rasch verbessern werden.
Pro-Nutzer dürfen maximal 100 mal pro Monat verwenden
Der Einsatz von Deep Research in ChatGPT erfordert momentan erhebliche Computerressourcen. Je länger die für die Anfragen benötigte Forschungszeit, desto größer ist die benötigte Schlussfolgerungs- und Rechenleistung. OpenAI hat bereits eine optimierte Version für Pro-Nutzer eingeführt, die monatlich maximal 100 Anfragen unterstützt.
Nächste Woche werden Plus- und Team-Benutzer Zugriff erhalten, gefolgt von Unternehmenskunden. Derzeit arbeitet OpenAI intensiv daran, Nutzern in Großbritannien, der Schweiz und dem Europäischen Wirtschaftsraum den Zugriff zu ermöglichen.
Alle zahlenden Kunden werden bald in puncto Zugriffsbeschränkung deutlich gesteigerte Möglichkeiten in Deep Research genießen. OpenAI plant, bald eine schnellere und kosteneffizientere Version zu veröffentlichen, die von einem kleineren Modell gesteuert wird, aber dennoch qualitativ hochwertige Ergebnisse liefern kann.
In den kommenden Wochen und Monaten wird sich OpenAI darauf konzentrieren, die zugrunde liegende technische Infrastruktur zu optimieren, die Leistung der aktuellen Version genau zu überwachen und strengere Tests durchzuführen. Dies entspricht den Prinzipien des iterativen Releases von OpenAI. Wenn alle Sicherheitskontrollen weiterhin den Standards der Veröffentlichung entsprechen, wird erwartet, dass Deep Research binnen eines Monats für Plus-Nutzer bereitgestellt wird.
Deep Research ist derzeit auf der Webversion von ChatGPT verfügbar und soll innerhalb eines Monats auf mobile und Desktopanwendungen ausgeweitet werden. Deep Research kann derzeit auf das offene Web und von Benutzern hochgeladene Dateien zugreifen. In Zukunft können Benutzer mit mehr spezialisierten Datenquellen verbunden werden, sodass der Zugriff auf abonnierte oder interne Ressourcen erweitert wird, was die Ausgabe noch umfassender und individueller macht.
Langfristig wird die Kombination von Deep Research und Operator Nutzern leistungsfähigere asynchrone Forschungs- und Echtweltfähigkeiten bieten.
Deep Research ist fähig zu asynchroner Online-Forschung, während Operator echte Handlungen außen vornehmen kann; somit ermöglicht es die Kombination mit ChatGPT immer komplexere Aufgaben auszuführen.
Dieser Artikel stammt von dem WeChat-Öffentlichen Konto “Tencent Technology”, Autor: Xiaojing Wuji, veröffentlicht von 36Kr mit Erlaubnis.