StartseiteArtikel

Die Bedeutung von Gemini 3: Künstliche Intelligenz hat die "Halluzinationsphase" überschritten und nähert sich dem Menschen. Die "Mensch-Maschine-Kollaboration" wird von der "Fehlerkorrektur von KI durch Menschen" zur "Arbeitsleitung von KI durch Menschen" übergehen.

36氪的朋友们2025-11-19 09:59
Ethan Mollick ist der Ansicht, dass das Auftauchen von Gemini 3 bedeutet, dass "Agentenmodelle" mit Fähigkeiten zur eigenständigen Handlung auf dem Vormarsch sind. Obwohl es nicht fehlerfrei ist, sind die Fehler, die es macht, nicht mehr die "Halluzinationen" aus dem Nichts, sondern eher den Abweichungen bei der Beurteilung oder Intentionseinschätzung des Menschen ähnlich.

Ethan Mollick ist der Ansicht, dass das Auftauchen von Gemini 3 bedeutet, dass "Agentenmodelle" mit eigenständiger Handlungsfähigkeit aufsteigen. Obwohl es nicht fehlerfrei ist, sind die Fehler, die es macht, keine mehr aus dem Nichts ersponnenen "Halluzinationen", sondern eher Abweichungen bei der Beurteilung oder Intentionseinschätzung, wie sie auch Menschen machen können. Mit der Verbesserung der Fähigkeiten von KI entwickelt sich die Mensch-Maschine-Kollaboration von "Menschen reparieren die Fehler der KI" zu "Menschen leiten die Arbeit der KI".

Das neueste von Google veröffentlichte Modell Gemini 3 markiert einen entscheidenden Wendepunkt im Bereich der Künstlichen Intelligenz.

Wie Wall Street News zuvor berichtete, hat Google am Dienstag, dem 18. (Ostamerikanische Zeit), das lang erwartete, bisher leistungsfähigste Künstliche-Intelligenz-(KI)-Modell Gemini 3 offiziell vorgestellt und es am Veröffentlichungstag sofort in Google Search, der Gemini App und mehreren Entwicklerplattformen gleichzeitig online gestellt und in mehreren lukrativen Produkten eingesetzt.

Google-Manager betonten auf der Pressekonferenz: Auf mehreren beliebten Branchenrankinglisten zur Messung der Leistung von KI-Modellen führt Gemini 3 an. Demis Hassabis, der CEO von Googles KI-Forschungsinstitut DeepMind, sagte, dass Gemini 3 "das beste multimodale Verständnismodell der Welt" und auch das bisher leistungsfähigste Agenten- und Codegenerierungsmodell des Unternehmens sei.

Nach einer ausführlichen Evaluierung von Ethan Mollick, einem Professor an der Wharton School, zeigt die Veröffentlichung von Gemini 3 und sein begleitendes Tool "Antigravity" erstaunliche "Agenten"-Fähigkeiten. Im Vergleich zum GPT - 3 - Modell vor drei Jahren kann die KI nicht nur Text generieren, sondern auch Code schreiben, interaktive Anwendungen erstellen und mehrstufige Aufgaben ausführen.

Mollick weist darauf hin, dass dieser Sprung von "Beschreibung" zu "Aktion" bedeutet, dass die KI sich von einem Gesprächspartner zu einem universellen Werkzeug entwickelt, das in Computer eingebunden werden und tatsächliche Arbeit verrichten kann.

Mollicks Schlussfolgerung lautet: Wir gehen aus der "Chatbot - Ära" in die "Ära der digitalen Kollegen". Obwohl Gemini 3 nicht fehlerfrei ist, sind die Fehler, die es macht, keine mehr aus dem Nichts ersponnenen "Halluzinationen", sondern eher Abweichungen bei der Beurteilung oder Intentionseinschätzung, wie sie auch Menschen machen können.

Dies zeigt, dass sich das Muster der Mensch - Maschine - Kollaboration ändert. Menschen werden nicht mehr die elementaren Fehler der KI korrigieren, sondern ihr strategische Anleitungen und Richtungen geben. Dies könnte die größte Veränderung im Bereich der KI seit der Veröffentlichung von ChatGPT sein.

Im Folgenden der vollständige Text von Ethan Mollicks Evaluierungsartikel:

Drei Jahre von GPT - 3 zu Gemini 3

Von Chatbot zu Agent

Ethan Mollick

19. November 2025

Ich habe das neu veröffentlichte Google - Modell Gemini 3 getestet. Es ist ausgezeichnet. Anstatt aber Benchmark - Zahlen aufzulisten, habe ich die KI darum gebeten, zu zeigen, wie weit wir in diesen drei Jahren gekommen sind - und das hat sie getan.

Es ist fast drei Jahre her, seit der Veröffentlichung von ChatGPT. Ein paar Tage vor seinem Start schrieb ich in diesem Substack einen Artikel über das frühere GPT - 3 von OpenAI. Dann kam ChatGPT auf den Markt, und ich schrieb sofort einen weiteren: "Ich bin normalerweise bei technologischen Vorhersagen vorsichtig, aber diesmal wird es unsere Welt schneller und radikaler verändern, als wir erwarten. Es geht nicht nur darum, repetitive und gefährliche Jobs zu automatisieren. Die ersten von der KI veränderten Jobs könnten eher analytische, kreative, schreibende und kommunikative Berufe sein."

Heute scheint meine Vorhersage richtig zu sein.

(Illustration: Screenshot meines ersten Artikels nach der Verwendung von GPT - 3.5 vor drei Jahren)

Ich könnte erklären, wie groß der Unterschied zwischen dem ersten ChatGPT und dem heute von Google veröffentlichten Gemini 3 ist, aber das ist nicht nötig. Ich habe das obige Screenshot an Gemini 3 geschickt und nur einen Satz geschrieben:

Ich: "Mache etwas, um zu zeigen, wie weit die KI in diesen drei Jahren fortgeschritten ist."

Gemini: "Klar kann ich das. Ihr Tweet stammt aus November 2022 - der Nacht vor der modernen KI - Boom. Damals war das größte 'Wow' - Moment, dass die KI einen zusammenhängenden Text schreiben oder ein kleines Gedicht zu einem albernen Thema wie 'Bonbon - getriebenes Überschallschiff flieht vor Ottern' verfassen konnte.

Um den Fortschritt zu zeigen, habe ich nicht nur eine Beschreibung geschrieben, sondern direkt einen interaktiven und spielbaren 'Bonbon - getriebenen Überschallschiff - Simulator' erstellt.

Im Jahr 2022 konnte die KI nur den Motor beschreiben; im Jahr 2025 kann die KI den Motor schreiben, die Benutzeroberfläche zeichnen und Ihnen ermöglichen, das Schiff selbst zu steuern."

Es hat tatsächlich ein Minispiel erstellt: Ich musste mich mit Bonbonenergie vor verfolgenden Ottern retten, wobei zwischendurch Gedichte und verschiedene lustige Updates auftauchten. Die Leser dieses Blogs wissen wahrscheinlich bereits, dass die KI Code schreiben kann. Interessanter ist jedoch - was kann Gemini 3 tun, wenn man es nicht mehr als 'Chatfenster', sondern als 'etwas anderes' ansieht?

01

Ein Werkzeug, das Code schreiben kann

Nicht nur 'ein Werkzeug, das Code schreiben kann'

Zusammen mit Gemini 3 hat Google auch Antigravity veröffentlicht. Programmierer verstehen sofort: Es ist ähnlich wie Claude Code und OpenAI Codex und gibt Ihnen Zugang zu Ihrem Computer, um unter Anleitung autonom Programme zu schreiben.

Wenn Sie kein Programmierer sind, könnten Sie es vielleicht übersehen - ich denke, das wäre ein Fehler. "Code schreiben können" bedeutet nicht "Programmierer sein", sondern "alle Aufgaben erledigen können, die nur auf einem Computer erledigt werden können". Somit wird das Wesen dieser Werkzeuge grundlegend verändert.

Gemini 3 ist extrem gut darin, Code zu schreiben, und das betrifft Sie auch, wenn Sie sich nicht als "Programmierer" bezeichnen. Ein grundlegendes Konzept in der KI - Welt ist: Alles, was Sie auf einem Computer tun, ist letztendlich Code. Wenn die KI Code schreiben kann, kann sie Dashboards erstellen, Websites scrapen, Präsentationen erstellen, Dateien lesen... Dies macht den "Code schreibenden Agenten" zu einem universellen Werkzeug. Antigravity macht dieses Konzept zu einem Produkt: Geben Sie mir einen "Posteingang", und ich weise die Aufgaben an die Agenten zu. Sie benachrichtigen mich, wenn sie Genehmigung oder Hilfe benötigen.

(Illustration: Vier Agenten laufen gleichzeitig, einer arbeitet, einer wartet auf meine Antwort)

Ich kommuniziere mit ihnen nicht in Code, sondern in Englisch; sie arbeiten für mich mit Code. Gemini 3 ist gut darin, Pläne zu erstellen und zu wissen, was zu tun und wann nachfragen ist. Beispielsweise habe ich alle alten Newsletter - Artikel in einem Ordner gespeichert und dann befohlen:

"Erstelle mir eine schöne Website, die alle meine Vorhersagen zur KI zusammenfasst, und suche im Internet, welche davon richtig und welche falsch waren."

Es hat alle Dateien gelesen, Code ausgeführt und mir zunächst einen bearbeitbaren Entwurf vorgelegt - ich war über die Genauigkeit seiner Einschätzung erstaunt. Ich habe einige kleine Änderungen vorgenommen und es dann losgelassen.

Anschließend hat es im Internet gesucht, die Website erstellt, den Browser übernommen, um die Wirkung zu testen und dann das fertige Produkt an mich gesendet. Ich habe wie bei einem echten Kollegen Verbesserungsvorschläge gemacht, und es hat weiter optimiert.

Es ist nicht perfekt - die Agenten sind noch nicht so weit. Ich habe keine Halluzinationen entdeckt, aber es gab sicherlich Stellen, die ich korrigieren musste. Diese Fehler waren eher wie "Urteilsfehler oder Missverständnisse, die ein menschlicher Kollege machen könnte", als die abstrusen Halluzinationen traditioneller KI. Wichtig ist, dass ich das Gefühl habe, die Entscheidungen der KI kontrollieren zu können, da die KI regelmäßig ihre Arbeit überprüft und bestätigt und mein Handlungsprozess klar sichtbar ist. Dies fühlt sich eher wie die Leitung eines Teamkollegen an, als wie die Kommunikation mit der KI über eine Chat - Oberfläche.

02

Doktorwürdige Intelligenz?

Antigravity ist nicht das einzige Überraschungselement. Ein weiterer Schock liegt darin - es zeigt echte "Urteilsfähigkeit".

Ich beschwerte mich oft: Die KI - Benchmarks sind total durchgekrempelt. Gemini 3 führt in den meisten Rankings an (vielleicht kann es noch nicht mit dem 200 - Dollar - GPT - 5 Pro mithalten, aber wenn die "Deep Thinking" - Version von Gemini 3 kommt, könnte sich das ändern). Die Branche liebt das Slogan: "Doktorwürdige Intelligenz". Ich habe beschlossen, es tatsächlich zu testen.

Ich habe es mit einer Reihe alter Dateien aus einer Crowdfunding - Forschung vor zehn Jahren konfrontiert - die Dateinamen waren wie "project_final_seriously_this_time_done.xls", und das Format war noch das uralte STATA. Der Befehl war nur ein Satz:

"Erfahre selbst die Datenstruktur und bereite die STATA - Datei für eine neue Analyse vor."

Es hat tatsächlich die beschädigten Daten wiederhergestellt und die komplexe Umgebung verstanden.

Dann habe ich es mit einer typischen "Aufgabe für einen zweiten Doktoranden" konfrontiert, ohne irgendeine Anleitung:

"Gut, schreibe jetzt eine originale Dissertation mit diesen Daten. Führe eine eingehende Recherche im Bereich durch, hebe das Thema auf die Ebene der Unternehmensgründungs - oder Strategietheorie, führe eine strenge Statistik durch und schreibe es im Zeitschriftenformat."

Es hat selbst ein Thema ausgewählt, Hypothesen aufgestellt, Statistiken durchgeführt, Diagramme erstellt und das Ganze formatiert - das schwierigste "Gleichgewicht zwischen Themaauswahl und Umsetzbarkeit" hat es selbst bewältigt. Ich habe nur vage gesagt: "Ergänze noch etwas und verbessere es", und schließlich habe ich eine 14 - seitige Dissertation erhalten.

(Illustration: Die ersten beiden Seiten der Dissertation)

Noch beeindruckender ist, dass es einen eigenen Indikator entwickelt hat: Es hat mit NLP die Projektbeschreibung mit einer großen Anzahl von Beschreibungen mathematisch verglichen, um die "Eigenart der Crowdfunding - Ideen" zu messen. Es hat den Code selbst geschrieben und die Ergebnisse selbst überprüft.

Also, kann man es als "doktorwürdig" bezeichnen?

Wenn Sie damit meinen, dass es die Arbeit eines qualifizierten Doktoranden an einer Spitzenuniversität verrichten kann, ist der teilweise Antwort "ja". Aber es hat auch die typischen Probleme von Doktoranden: Die statistischen Methoden sind fehlerhaft, die theoretischen Sprünge sind zu groß, die Beweisstrecke ist nicht streng genug... Wir sind über die "Halluzinationsphase" hinaus und in einen subtileren, "menschlicheren" Fehlerbereich gelangt. Interessanterweise verbessert es sich deutlich, wenn ich offene Vorschläge mache, wie ich es bei Student