StartseiteArtikel

Die Erwartungen an die Veröffentlichung von Google Gemini 3 sind extrem hoch. Historiker sagen, dass es zwei der ältesten Probleme im Bereich der Künstlichen Intelligenz gelöst hat.

36氪的朋友们2025-11-13 11:16
Das Google KI-Modell zeigt Durchbrüche bei der Handschrifterkennung und der Symbolableitung auf und könnte möglicherweise Gemini-3 sein.

Am 12. November wurde bekannt, dass kürzlich ein Artikel mit dem Titel „Hat Google still und leise zwei der ältesten Probleme der Künstlichen Intelligenz gelöst?“ (Has Google Quietly Solved Two of AI’s Oldest Problems?) in der KI-Community rapide verbreitet wurde.

Der Autor ist Mark Humphries, ein stellvertretender Professor für Geschichte an der Wilfrid Laurier University in Waterloo, Kanada. Dieser Forscher, der sich bisher auf die Geschichte Nordamerikas im 20. Jahrhundert spezialisiert hatte, hat sich in den letzten Jahren auf die Forschung zur digitalen Geisteswissenschaft und der Anwendung von Künstlicher Intelligenz gewandt. In seiner Kolumne „Generative History“ auf der Plattform Substack berichtete er, dass ein geheimnisvolles Modell, das er in Google AI Studio getestet hat, eine „fast perfekte“ Handschrifterkennungsfähigkeit und ein Phänomen von „spontaner, abstrakter und symbolischer Argumentation“ gezeigt habe.

Hinweis: Anzeige eines A/B-Tests in der Google AI Studio-Oberfläche

Google AI Studio ist eine offene Experimentierplattform, auf der Benutzer Prompt-Wörter testen und die Leistung von Modellen vergleichen können. In der letzten Woche haben einige Benutzer festgestellt, dass das System zufällig zwei Antworten generiert und sie aufgefordert hat, die bessere auszuwählen. Dies ist eine gängige Methode des A/B-Tests (zur Vergleich der Effekte von zwei oder mehreren Lösungen, um zu entscheiden, welche besser ist), die große KI-Labore vor der Veröffentlichung eines Modells anwenden. Aus diesem Grund vermutet die Außenwelt, dass das derzeit getestete Modell möglicherweise das kommende Gemini-3 sein könnte.

Humphries' Experiment hatte ursprünglich nur das Ziel, die Leistung des Modells bei der Aufgabe der „Transkription von historischen Handschriften“ zu überprüfen. Dabei beobachtete er jedoch unerwartet tiefere Phänomene: Das Modell erreichte nicht nur ein Niveau an Transkriptionsgenauigkeit, das dem von menschlichen Experten entsprach, sondern war auch in der Lage, bei unklaren oder unvollständigen Informationen selbstständig zu argumentieren, zu korrigieren und zu erklären, als ob es die historischen Quellen „verstehen“ würde, anstatt nur die Schriftzeichen zu erkennen.

Er schrieb: „Ich hatte gedacht, dass es noch Jahre dauern würde, bis es in der KI in Bezug auf historische Dokumente zu einem Durchbruch käme. Aber die Fähigkeiten, die dieses Modell zeigt, sind bereits nahe an denen echter menschlicher Experten, und in Bezug auf logische Urteile und die Wiederherstellung des Kontexts übertroffen sie meine Erwartungen.“

Wenn diese Ergebnisse bestätigt werden, würde dies einen entscheidenden Moment in der Geschichte der KI markieren: Maschinen können nicht nur Handschriftzeichen „lesen“, sondern auch wie Wissenschaftler hinter den Zeichen liegende Logik „denken“. Dies bedeutet, dass die KI möglicherweise gleichzeitig zwei der ältesten Probleme der KI-Forschung – die Erkennung von Handschrifttexten und die symbolische Argumentation – überwunden hat.

01. Vom „Vorhersagemaschinen“ zum „Versteher“

Die Erkennung von Handschrifttexten (Handwritten Text Recognition, HTR) ist eines der ältesten Themen in der Geschichte der KI-Forschung. Bereits in den 1940er Jahren versuchten Forscher, Computern das Erkennen von menschlicher Handschrift beizubringen. 1966 veröffentlichte IBM die Maschine IBM 1287, die Zahlen und einige lateinische Buchstaben lesen konnte und als Beginn der KI-basierten Handschrifterkennung angesehen wird. Über Jahrzehnte hinweg haben Forscher ständig Algorithmen und visuelle Modelle verbessert, blieben jedoch immer an einem Problem hängen: Maschinen können nur Muster erkennen, aber keine Semantik verstehen.

Hinweis: Erkennung von historischen Manuskripten

Humphries weist darauf hin, dass die Erkennung von historischen Manuskripten viel komplexer ist als die von normalen Texten. Denn es geht dabei nicht nur um ein visuelles Problem, sondern auch um die Verständnis von Sprache und Kultur. Die Manuskripte aus dem 18. und 19. Jahrhundert sind voller Rechtschreibfehler, unregelmäßiger Grammatik, unklarer Symbole und semantischer Mehrdeutigkeiten. Um diese Inhalte zu verstehen, müssen Sprachwissenschaft, historische Hintergründe, gesellschaftliche Allgemeinwissen und logische Argumentation zusammengebracht werden.

Er erklärt: „Menschen denken, dass die Schwierigkeit bei alten Dokumenten in der Handschriftenerkennung liegt. Tatsächlich besteht die eigentliche Herausforderung darin, die Absicht des Autors zu erschließen – das ist eine Kombination aus visueller Erkennung und logischer Argumentation.“

In seiner Forschung ist die Handschrifterkennung ein idealer Anwendungsfall, um die Grenzen der Fähigkeiten von Large Language Models (LLM) zu testen. Denn es erfordert, dass das Modell Wahrnehmung (Vision), Sprache (Language), Weltwissen (World Knowledge) und Logik (Reasoning) in einer einzigen Aufgabe integriert. Wenn das Modell in einer solch komplexen Aufgabe einen Durchbruch erzielen kann, könnte dies auf das Entstehen breiterer kognitiver Fähigkeiten hinweisen.

Hinweis: Die Leistung von Transkribus, Menschen und Google-Modellen bei der Handschrifttextenerkennung (HTR) im Laufe der Zeit

Von GPT-4 bis Gemini-2.5-Pro hat die Genauigkeit der KI in der HTR kontinuierlich zugenommen. Ende 2024 erreichte das Gemini-2.5-Pro bereits eine Zeichenfehlerrate (CER) von 4% und eine Wortfehlerrate (WER) von 11% bei komplexen Manuskripten, was dem Niveau von professioneller menschlicher Arbeit entspricht. Das neue Modell, das Humphries testete, hat die CER weiter auf 0,56% und die WER auf 1,22% gesenkt – das bedeutet, dass nur etwa ein Buchstabe oder ein Zeichen in 200 Zeichen falsch erkannt wird.

Er weist darauf hin, dass diese übergenerationelle Verbesserung gut mit den „Skalierungsgesetzen“ (Scaling Laws) übereinstimmt: Wenn die Anzahl der Parameter eines Modells um eine Größenordnung erhöht wird, steigt seine Leistung bei komplexen Aufgaben exponentiell. Wenn diese Gesetzmäßigkeit weiterhin gilt, könnte das Modell möglicherweise automatisch die Grenzen der logischen Argumentation überschreiten, die bisher als „exklusiv menschlich“ galten.

02. Von der Transkription zur Argumentation: Unerwartete Entdeckungen im Experiment

Um die Leistung des Modells zu überprüfen, hat Humphries eine Serie von Handschreibbuchen und Briefen aus dem 18. Jahrhundert hochgeladen. Diese Quellen sind oft voller Rechtschreibfehler, mit unleserlicher Handschrift geschrieben und in unterschiedlichem Format. Der Testablauf war äußerst mühsam – er musste die Seite ständig neu laden und warten, bis das System eine Möglichkeit für einen A/B-Vergleich bot. Manchmal musste er es mehr als dreißig Mal versuchen.

Das Ergebnis war überraschend. Das Modell war nicht nur fast perfekt bei der Erkennung von Wörtern und Zeichen, sondern zeigte auch eine „aktive Argumentation, die über die Aufgabenstellung hinausgeht“.

Hinweis: Tagebuchblatt eines Kaufmanns aus Albany

Ein besonders repräsentatives Beispiel stammt aus dem Tagebuch eines Kaufmanns aus Albany, New York, aus dem Jahr 1758. Im Buchstand wurde notiert: „To 1 loaf Sugar 145 @1/4 0 19 1“. Menschliche Wissenschaftler wissen, dass dies bedeutet: „Einen Zucker-Kegel gekauft, 1 Schilling und 4 Pence pro Pfund, Gesamtpreis 0 Pfund, 19 Schilling und 1 Pence.“ Aber das Manuskript war äußerst unklar. Es war nicht klar, ob die Zahl „145“ für „14,5“ oder „1,45“ stand.

Hinweis: Nahaufnahme der Transkription

Hinweis: Nahaufnahme des Originaldokuments

Fast alle KI-Modelle hätten hier einen Fehler gemacht – entweder hätten sie „145“ als 145 Pfund missinterpretiert oder die Zahlen und Einheiten durcheinander gebracht. Das neue Gemini-Modell hat jedoch selbstständig die richtige Antwort hergeleitet: „14 lb 5 oz“.

Es hat nicht einfach geraten, sondern die Lösung durch logische Berechnungen gefunden:

Hinweis: Ergebnisse des Tests

1 Schilling und 4 Pence = 16 Pence, Gesamtpreis 0 Pfund, 19 Schilling und 1 Pence = 229 Pence, 229 ÷ 16 = 14,3125, also 14 Pfund und 5 Unzen. Das Modell hat nicht nur die richtige Berechnung durchgeführt, sondern auch die Schreibweise automatisch standardisiert und die Einheiten „lb“ und „oz“ in der Ausgabe ergänzt.

Humphries stellte erstaunt fest: „Es scheint zu wissen, dass die Rechnung nicht stimmt, und hat eine Rückwärtsberechnung durchgeführt und die Einheiten korrigiert. Das ist keine Vorhersage, sondern Argumentation.“

Dies bedeutet, dass das Modell bei unklaren oder mehrdeutigen Eingaben in der Lage ist, eine „interne Problemdarstellung“ zu erstellen und durch mehrstufige logische Berechnungen zu einem vernünftigen Schluss zu kommen. Dies sind genau die Kernmerkmale der „symbolischen Argumentation“, die die KI seit langem für unmöglich gehalten wurde.

In ähnlichen Aufgaben haben frühere GPT- oder Gemini-Serien oft Halluzinationen oder Zahlenfehler gezeigt. Das aktuelle Modell hat nicht nur die richtige Berechnung durchgeführt, sondern auch Kontextkonsistenz und semantische Stabilität gezeigt. Es wurde nicht aufgefordert, die mathematische Berechnung zu überprüfen, hat aber dennoch während des „Verstehens des Textes“ die Argumentation selbstständig durchgeführt – dieses Phänomen hat die Forscher geschockt.

03. Vom auftauchenden Intelligenz zum theoretischen Rütteln

Die symbolische Argumentation (Symbolic Reasoning) wird als Kern der menschlichen Kognition angesehen. Sie bedeutet, dass ein Individuum in der Lage ist, abstrakte Symbole im Geist zu manipulieren und logische Regeln anzuwenden, anstatt nur auf Mustererkennung zu vertrauen. Seit den 1950er Jahren hat die Künstliche Intelligenz versucht, Maschinen diese Fähigkeit beizubringen. In der Ära des Deep Learning wurde die symbolische Argumentation jedoch als ein Bereich angesehen, der für neuronale Netze schwer zugänglich ist. Humphries' Entdeckung hat diese Annahme zerstört.

Er weist darauf hin: „Strikt genommen wurde dieses Modell nicht als symbolisches System konzipiert, es hat keine expliziten logischen Module. Aber seine Verhaltensweise stimmt mit der symbolischen Argumentation überein – es kann Mehrdeutigkeiten erkennen, Hypothesen aufstellen, diese überprüfen und die richtige Erklärung ausgeben.“

Mit anderen Worten, dies ist ein Auftauchen von impliziter Argumentation (Emergent Implicit Reasoning). Das Modell weiß nicht wirklich, was es tut, aber seine interne hochdimensionale Darstellung reicht aus, um eine Struktur zu bilden, die der Argumentation entspricht. Es manipuliert keine expliziten Regeln, aber in einem komplexen statistischen Netzwerk kann es natürlicherweise logische Muster hervorbringen.

Dieses Phänomen hat weitreichende Auswirkungen auf die KI-Theorie. In der Vergangenheit wurden „statistisches Lernen“ (Pattern recognition) und „symbolische Argumentation“ (Symbolic Manipulation) als zwei völlig verschiedene Formen der Intelligenz betrachtet. Jetzt scheinen sie sich zu verschmelzen, und Maschinen können möglicherweise ohne explizite Regeln lernen, zu argumentieren, wenn sie eine ausreichende Größe erreichen.

Noch bemerkenswerter ist, dass diese Fähigkeit kein Einzelfall ist. Mehrere Benutzer in der KI-Community haben ähnliche Erfahrungen berichtet: Das neue Modell kann in Aufgaben wie der Ableitung von chemischen Formeln, der Datierung von Manuskripten und der Umrechnung von alten Währungen selbstständig mehrstufige logische Denkprozesse zeigen.

Dies zwingt die Forscher, die Definition von „Verstehen“ neu zu überdenken: Wenn die KI in der Lage ist, ohne externe Anweisungen selbstständig Probleme zu stellen und zu lösen, ist sie immer noch ein „Vorhersagemodell“? Oder hat sie bereits eine primitive „kognitive Struktur“ gebildet?

Die akademische Diskussion hat sich schnell verbreitet. Ein