Die Allgemeine Künstliche Intelligenz (AGI) wird nicht so bald hereinkommen: Ohne kontinuierliches Lernen kann die KI die Büroangestellten nicht vollständig ersetzen.
Das Göttliche Übersetzungsbüro ist ein Übersetzungsteam von 36Kr, das sich auf Technologie, Geschäft, Arbeitsplatz und Lebensbereiche konzentriert und vor allem neue Technologien, neue Ansichten und neue Trends aus dem Ausland vorstellt.
Herausgeberhinweis: Ein erfahrener AI-Praktiker berichtet anhand seiner eigenen Erfahrungen aus über hundert Stunden Entwicklung, dass die größte Hürde für die Implementierung von AGI darin besteht, dass die Modelle das kontinuierliche Lernvermögen des Menschen fehlen. Der Autor analysiert tiefgehend das Paradoxon des „Saxophonlernens“ und die Datengrenze und prophezeit, dass die kurzfristigen Veränderungen begrenzt sein werden, aber die Wahrscheinlichkeit eines Intelligenzsprungs innerhalb von zehn Jahren stark ansteigt, was eine beruhigende Überlegung in die heftige Debatte einbringt. Der Artikel ist eine Übersetzung.
„Dinge passieren immer langsamer, als man erwartet, und dann schneller, als man sich vorstellen kann.“ —— Rudiger Dornbusch
In meinem Podcast gibt es nie ein Ende an den Debatten über den Zeitplan, wann die allgemeine Künstliche Intelligenz (AGI) erreicht werden wird.
Einige Gäste glauben, dass es noch 20 Jahre dauern wird, andere sind fest davon überzeugt, dass es nur 2 Jahre brauchen wird.
Im Folgenden sind meine Überlegungen aus Juni 2025.
Die Schwierigkeiten des kontinuierlichen Lernens
Oft wird gesagt, dass selbst wenn die Entwicklung der KI vollständig zum Stillstand käme, die Transformationskraft der bestehenden Systeme für die Wirtschaft noch weit über der des Internets liegen würde.
Ich bin mir dessen nicht sicher.
Die heutigen Large Language Models (LLM) sind wirklich erstaunlich, aber die Fortune 500-Unternehmen nutzen sie nicht, um ihre Arbeitsabläufe zu verbessern. Das liegt nicht daran, dass die Unternehmensleitung rückständig ist. Das grundlegende Problem besteht darin, dass es schwierig ist, menschliche Arbeitsleistungen zu erreichen. Dies hängt mit dem Fehlen von grundlegenden Fähigkeiten der Modelle zusammen.
Als „AI-Vanguardist“ habe ich mehr als hundert Stunden in die Entwicklung kleiner LLM-Tools investiert. Die praktische Erfahrung hat mich jedoch dazu gebracht, meine Erwartungen zu verschieben. Ich habe versucht, dass das LLM wie ein Mensch eine maschinelle Transkription verbessert, um sie lesbarer zu machen, oder dass es aus Interviews Twitter-Inhalte extrahiert oder sogar Artikel zusammen mit mir schreibt. Diese kurzfristigen, sprachlichen Eingabe- und Ausgabebereiche sollten eigentlich Kernfähigkeiten des LLM sein. Die tatsächliche Leistung war jedoch nur gerade ausreichend (5/10) — natürlich ist dies immer noch beeindruckend.
Das Kernproblem besteht darin, dass das LLM nicht wie ein Mensch kontinuierlich verbessern kann. Das Fehlen des kontinuierlichen Lernvermögens ist ein tödlicher Mangel. Obwohl die Basisleistung der großen Modelle bei den meisten Aufgaben bereits höher ist als die eines Durchschnittsmenschen, ist es unmöglich, dass das Modell hochwertige Rückmeldungen gibt. Die Auslieferungsfähigkeit des Modells ist die Obergrenze. Selbst wenn man die Systemhinweise ständig anpasst, ist die tatsächliche Leistung immer noch weit hinter der Erfahrung eines menschlichen Mitarbeiters zurück.
Der Kern des menschlichen Wertes liegt nicht in der ursprünglichen Intelligenz, sondern in der Fähigkeit, Kontexte zu erstellen, Fehler zu reflektieren und Details in der Praxis kontinuierlich zu optimieren.
Stellen Sie sich vor, Sie lehren ein Kind, das Saxophon zu spielen: Sie lassen es probieren → Sie analysieren den Ton → Sie passen es an. Wenn Sie jedoch diese Methode anwenden: Wenn der Schüler beim ersten Versuch einen Fehler macht, unterbrechen Sie ihn sofort und schreiben eine detaillierte Fehleranalyse. Der nächste Schüler liest die Notizen und versucht direkt ein Stück von Charlie Parker. Wenn er scheitert, verbessern Sie die Notizen und geben sie an den dritten Schüler weiter.
Dies wird sicherlich nicht funktionieren. Selbst die besten Hinweise können nicht dazu führen, dass jemand nur anhand von Worten das Saxophon lernt — und das ist der einzige Weg, wie wir das LLM „unterrichten“ können.
Ja, es gibt Dinge wie das Fine-Tuning durch verstärkendes Lernen (RL fine-tuning), aber das LLM fehlt die aktive Anpassungsfähigkeit des menschlichen Lernens. Meine Redakteure sind so gut, weil sie in der Arbeit selbständig Details entdecken können: Sie überlegen sich die Präferenzen des Publikums, erkennen meine Interessenspunkte und optimieren den täglichen Arbeitsablauf. Wenn für jede Teilaufgabe ein angepasstes Lernumfeld für verstärkendes Lernen erstellt werden muss, ist es unmöglich, eine solche Entwicklung zu erreichen.
Vielleicht wird es in Zukunft intelligentere Modelle geben, die ihre eigenen Lernkreisläufe für verstärkendes Lernen aufbauen können: Ich gebe höhere Rückmeldungen, und das Modell generiert automatisch überprüfbare Trainingsaufgaben und baut sogar Übungsumgebungen auf, um Schwächen auszugleichen. Aber die Realisierung dieses Ziels ist sehr schwierig, und die Generalisierbarkeit der Technologie ist zweifelhaft. Obwohl die Modelle eines Tages wie Menschen in der Arbeit natürlich lernen können, sehe ich in den nächsten Jahren keinen klaren Weg, um das Online-Kontinuierliche Lernen in die bestehende LLM-Architektur zu integrieren.
Das LLM kann tatsächlich in einem einzelnen Gespräch brillante Ideen zeigen. Wenn ich beispielsweise einen Artikel mit ihm zusammen schreibe, sind die ersten vier Vorschläge sehr schlecht. Wenn ich selbst neu schreibe und ihm direkt sage: „Deine Schreibweise ist schrecklich, schau dir meine Version an“, werden seine späteren Vorschläge besser. Aber dieses subtilere Verständnis der Präferenzen wird sofort auf Null gesetzt, wenn das Gespräch endet.
Eine scheinbare Lösung könnte ein langer Kontextfenster sein (z. B. komprimiert Claude Code alle 30 Minuten die Erinnerungen zu einem Resümee). Aber außerhalb der Softwareentwicklung ist es schwierig, reiche Erfahrungen in einen Textzusammenfassung zu packen — stellen Sie sich vor, Sie versuchen, jemandem das Saxophonspielen nur mit Worten beizubringen. Selbst Claude Code wirft oft die gewonnenen Optimierungslösungen nach der Komprimierung weg, weil das Resümee die entscheidenden Entscheidungslogiken nicht beinhaltet.
Deshalb widerspreche ich den Behauptungen der Podcast-Gäste Sholto und Trenton (zitierend Trenton):
Selbst wenn die Entwicklung der KI stagniert und es keine allgemeine Intelligenz gibt, hat sie noch einen großen wirtschaftlichen Wert. Die Daten von Büroarbeiten können leicht gesammelt werden, und in den nächsten fünf Jahren werden diese Aufgaben vollständig automatisiert werden.
Wenn die Entwicklung der KI heute stagniert, denke ich, dass weniger als 25 % der Büroarbeiten von der KI ersetzt werden. Zwar können viele Aufgaben automatisiert werden (z. B. kann Claude 4 Opus tatsächlich eine Transkription verbessern), aber weil das Modell nicht wie ein Mensch meine Präferenzen lernen kann, werde ich weiterhin menschliche Mitarbeiter anstellen. Ohne einen Durchbruch beim kontinuierlichen Lernen wird es auch mit mehr Daten schwer, die Situation zu verbessern: Die KI kann vielleicht einige Teilaufgaben bewältigen, aber das Fehlen der Kontextbildung führt dazu, dass die KI niemals ein echter „Mitarbeiter“ werden kann.
Dies macht mich pessimistisch in Bezug auf die kurzfristige transformierende KI, aber optimistisch für die Zeit nach zehn Jahren. Sobald das kontinuierliche Lernen überwunden wird, wird der Wert der Modelle sprunghaft steigen. Selbst wenn es keinen reinen „Software-Singularität“ (das Modell iteriert selbständig zu intelligenteren Nachkommen) gibt, kann es eine weit verbreitete Intelligenzrevolution geben: Die KI dringt in alle Wirtschaftsbereiche vor und lernt wie Menschen in der Arbeit. Noch schlimmer ist — sie können die Lernergebnisse aller Kopien integrieren, was bedeutet, dass ein einzelnes AI-Modell gleichzeitig alle Arbeitsplätze weltweit lernt. Eine KI mit Online-Lernfähigkeit kann sich schnell in eine Superintelligenz verwandeln, ohne dass es eines Algorithmusdurchbruchs bedarf.
Ich erwarte jedoch nicht, dass ich eines Tages auf der OpenAI-Liveübertragung höre, dass das kontinuierliche Lernen vollständig überwunden wurde. Die Labore haben einen Anreiz, Innovationen schnell zu veröffentlichen. Wir werden zuerst unvollständige frühe Versionen (oder auch Testphasen-Training) bekommen, bevor wir die echte menschliche Lernfähigkeit erreichen. Bevor dieser große Engpass überwunden wird, haben wir genug Zeit, uns vorzubereiten.
Fähigkeit zur Computerbedienung
Während meines Interviews mit den Forschern Sholto Douglas und Trenton Brickerton von Anthropic haben sie prophezeit, dass bis Ende nächsten Jahres zuverlässige Computerbedienungs-Intelligenzagenten entstehen werden.
Aktuell gibt es zwar auch Computerbedienungs-Intelligenzagenten, aber ihre Leistung ist schlecht. Sie stellen sich etwas völlig anderes vor. Bis Ende nächsten Jahres müssen Sie nur der KI sagen: „Hilf mir, meine Steuern zu bezahlen“, und sie wird es automatisch erledigen — sie durchsucht Ihre E-Mails, Amazon-Bestellungen und Slack-Nachrichten, fordert die Rechnungen von den Lieferanten an, ordnet alle Quittungen, unterscheidet die Geschäftskosten, fragt Sie bei unklaren Punkten um Bestätigung und legt schließlich das Formular 1040 bei der IRS ab.
Ich bin mir dessen nicht sicher. Ich bin zwar kein AI-Forscher und möchte nicht über technische Details urteilen, aber auf der Grundlage meines gegenwärtigen Wissens habe ich die folgenden Zweifel:
Je länger die Aufgabe dauert, desto länger wird die Ausführungsreihe. Die KI muss zwei Stunden lang Computerbedienungen ausführen, um die Richtigkeit des Ergebnisses zu überprüfen, ohne die zusätzliche Rechenleistung für die Verarbeitung von Bildern und Videos zu berücksichtigen. Eine Verlangsamung des Fortschritts ist fast unvermeidlich.
Das inhärente Defizit bei den multimodalen Daten für die Computerbedienung. Ich mag die prägnante Argumentation von Mechanize über die automatisierte Softwareentwicklung sehr: „Die Modellentwicklung in den letzten zehn Jahren hat von der riesigen Menge kostenloser Internettexte profitiert, aber das hat nur das Problem der natürlichen Sprachverarbeitung gelöst. Wenn Sie einen zuverlässigen Bedienungsintelligenzagenten trainieren möchten, stellen Sie sich vor, Sie trainieren GPT-4 mit Texten aus den 1980er Jahren — selbst wenn es genug Rechenleistung gibt, wird es nicht funktionieren.“
Vielleicht hat das reine Texttraining das Modell bereits in der Lage gemacht, die UI-Logik zu verstehen? Vielleicht kann das Fine-Tuning durch verstärkendes Lernen (RL fine-tuning) die Datenbeschränkungen überwinden? Aber ich habe noch keine Beweise dafür gesehen, dass das Datenhungerproblem der Modelle gelöst ist, insbesondere in Bereichen, in denen sie nicht so erfahren sind.
Es gibt auch eine andere Möglichkeit: Das Modell ist ein Experte in der Frontend-Programmierung und kann Millionen von simulierten UIs erstellen, um zu üben? Meine Meinung dazu finden Sie in der nächsten Anmerkung.
Der Prozess des Fine-Tuning durch verstärkendes Lernen, wie er in der R1-Publikation von DeepSeek beschrieben wird, scheint einfach zu sein, aber es hat zwei Jahre gedauert, bis von der Veröffentlichung von GPT-4 bis zur Entstehung von o1 gekommen ist. Natürlich ist es absurd, zu sagen, dass die Entwicklung von R1/o1 einfach war — dahinter stecken eine enorme Menge an technischen Anpassungen und Lösungsauswahl. Aber das bestätigt meine Meinung: Selbst eine so einfache Idee wie das Training eines Modells, um lösbare mathematische Codierungsaufgaben zu lösen, hat so lange gedauert. Bei den Computerbedienungsproblemen, die an Daten noch ärmer sind und in einer völlig anderen Modalität vorliegen, haben wir offensichtlich die Schwierigkeit, diese Probleme zu lösen, unterschätzt.
Schlussfolgerung
Machen Sie sich nicht zu schnell pessimistisch. Ich möchte nicht wie die verwöhnte Jugend auf Hackernews sein, die selbst wenn man ihnen eine goldene Henne gibt, nur darüber klagt, dass das Gackern zu laut ist.
Haben Sie sich die Denkprozesse von o3 oder Gemini 2.5 angesehen? Sie können tatsächlich schlussfolgern! Sie zerlegen das Problem → schätzen die Benutzerbedürfnisse ab → prüfen ihre inneren Gedanken → stellen sofort eine Korrektur her, wenn sie feststellen, dass sie auf dem falschen Weg sind. Und wir nehmen das einfach hin: „Natürlich kann eine Maschine denken und schlau antworten, das ist ihre Aufgabe.“
Einige Menschen sind zu pessimistisch, weil sie die Leistung der besten Modelle in ihren Fächern nicht kennen. Geben Sie Claude Code eine unklare Anforderung, und in zehn Minuten generiert es direkt ein nutzbares Programm ohne vorherige Beispiele — diese beeindruckende Erfahrung lässt einen fragen: „Hat es das tatsächlich geschafft?“ Sie können viel über Schaltpläne, Trainingsverteilungen oder verstärkendes Lernen reden, aber die einfachste Erklärung ist: Die babyähnliche allgemeine Intelligenz hat sich erwacht. In diesem Moment muss es in Ihrem Herzen eine Stimme geben, die sagt: „Es hat funktioniert, wir haben tatsächlich eine intelligente Maschine geschaffen.“
Meine Prognose
Die Wahrscheinlichkeitsverteilung ist sehr breit (das ist auch der Grund, warum ich an die Wahrscheinlichkeitstheorie glaube). Es ist sogar völlig vernünftig, sich auf eine fehlpositionierte Superintelligenz (ASI) im Jahr 2028 vorzubereiten — dieses Ergebnis ist keineswegs abwegig.
Im Folgenden sind die Zeitpunkte, für die ich eine 50:50-Wahrscheinlichkeit vorhersage:
2028
Die KI kann wie ein kompetenter Geschäftsführer in einer Woche die Steuererklärung meines kleinen Unternehmens erledigen: Sie durchsucht verschiedene Websites nach Rechnungen, ergänzt fehlende Belege, fordert Rechnungen per E-Mail an und legt das Formular bei der IRS ab.
Die aktuelle Fähigkeit zur Computerbedienung entspricht der GPT-2-Phase: Es fehlen Trainingsdaten, und das Modell muss mit unbekannten Bedienungsanweisungen in einem langen Zeitraum spärliche Belohnungen optimieren. Aber das Basismodell ist intelligent genug und hat vielleicht bereits das Potenzial für die Computerbedienung. Zusammen mit der heutigen weltweiten Zunahme der Rechenleistung und der Anzahl der Forscher könnte es möglich sein, die Lücke zu schließen. Die Steuererklärung eines kleinen Unternehmens hat für die Computerbedienung die gleiche Meilensteinbedeutung wie GPT-4 für die Sprachmodelle. Und von GPT-2 bis GPT-4 hat es genau vier Jahre gedauert.
(Hinweis: Im Jahr 2026–2027 werden sicherlich beeindruckende Demos erscheinen, die wie damals GPT-3 cool, aber nicht praktisch sind. Aber sie sind nicht in der Lage, komplexe End-to-End-Projekte, die die Computerbedienung betreffen und eine Woche dauern, zu bewältigen.)
2032
Die Lernfähigkeit der KI in der Arbeit ist vergleichbar mit der eines menschlichen Büroangestellten: Wenn ich einen KI-Videoeditor einstelle, wird er nach sechs Monaten wie ein menschlicher Kollege meine Präferenzen, die Stimmung me