Wie baut man ein AI-kompatibles zweites Gehirn?

Wie baut man ein zweites Gehirn, das mit Künstlicher Intelligenz kompatibel ist?

Sie fahren gerade zum Autohändler. Unterwegs beginnen Sie, sich selbst über einen Artikel zu unterhalten, den Sie schon seit einiger Zeit im Kopf haben. Die Künstliche Intelligenz stellt Ihnen eine Frage. Während Sie auf die Autobahn einfädeln, improvisieren Sie zwei Minuten lang. Sie extrahiert das, was Sie gesagt haben, in einen strukturierten Artikel, archiviert ihn in den entsprechenden Ordner und geht dann zur nächsten Aufgabe über. Sie müssen dabei keine Bildschirme berühren.

Als Sie in den Parkplatz einfahren, gibt es bereits drei Bereiche, die es bei Ihrer Abreise noch nicht gab. Als Sie nach Hause kommen, liegt ein Entwurf still in Ihrem Dokumenteneditor, richtig formatiert, gut strukturiert und mit einem Titel versehen, obwohl Sie ihn nie geöffnet haben. Sie haben sogar einen ganzen Artikel geschrieben, ohne jemals wirklich sitzen zu müssen und zu schreiben.

Genau so habe ich den Artikel geschrieben, den Sie gerade lesen. Das Fangen von Ideen, das Ordnen von Gedanken und das Suchen nach Informationen – diese drei Aufgaben beanspruchen normalerweise den größten Teil der Zeit zwischen der Entstehung einer Idee und der endgültigen Fertigstellung eines Dokuments – und diese Arbeit wurde ganz still im Laufe eines Tages erledigt.

Stellen Sie sich jetzt eine andere Situation vor. Auch beim Fahren hatten Sie die gleichen Ideen, aber Ihr Werkzeug kann Sie nicht hören. Also müssen Sie warten, bis Sie nach Hause kommen. Sie öffnen ein Dokument. Sie starren auf die leere Seite. Sie versuchen, sich zu erinnern, was Sie schreiben wollten, aber die Inspiration ist verschwunden. Im Auto war die Idee lebendig. Jetzt ist es Arbeit. Sie schreiben ein paar Sätze, werden dann abgelenkt und schließen die Registerkarte. Drei Wochen später finden Sie den Entwurf wieder, stellen fest, dass er nicht mehr sinnvoll ist, und löschen ihn.

Das ist die Kluft zwischen einem künstlichen Intelligenz-kompatiblen System und einem künstlichen Intelligenz-gesteuerten System. Ein System kann Ihre Gedanken jederzeit und überall fangen, während das andere System Sie zwingt, sich hinzusetzen und das Ritual des Schreibens zu beginnen. Ein System fördert die Entwicklung Ihrer Ideen, während das andere System sie in allerlei Reibungen versickern lässt.

In diesem Artikel wird der Unterschied zwischen den beiden untersucht – und warum fast alle Werkzeuge, die Sie verwenden, auf der falschen Seite liegen.

Koordination ist immer ein Problem

Alle Notizapplikationen auf dem Markt versprechen, Ihnen helfen zu können, Ihre Notizen zu organisieren, aber im Endeffekt bringen Sie sie nur dazu, sich mit der Archivierung zu beschäftigen. Benennen, Archivieren, Hinzufügen von Tags, Verlinken, Beschreiben, Suchen – all das sind Koordinationsaufgaben, die als „Notizen organisieren“ getarnt sind. Sobald Sie aufhören, einzugeben, tun diese Werkzeuge nichts mehr.

Seit der Entstehung der Künstlichen Intelligenz ist dies kein neues Problem. Es war schon immer ein Problem, das niemand zugeben wollte. Die oft beklagte Kluft zwischen Wissen und Handeln ist eigentlich die Kluft zwischen Wissen und Finden. Sie haben die Informationen gesammelt, aber sechs Wochen später können Sie sie nicht mehr finden, weil das System Ihnen die Verantwortung für die Suche überträgt, sobald Sie die Registerkarte schließen.

Autonome Agenten sind nicht die Ursache für dieses Problem. Sie haben nur eine Belastungsprüfung durchgeführt, bis das Problem öffentlich zum Vorschein kam. Alle bestehenden Werkzeuge basieren auf der Annahme, dass der Mensch die Entscheidungen trifft:

Wann ein Dokument erstellt werden soll

Wie es benannt werden soll

Wo es archiviert werden soll

Wann es wieder gesucht werden soll

Diese Annahme ist gerechtfertigt, wenn ein Wissensarbeiter möglicherweise nur zehn Dokumente pro Woche schreibt. Die menschliche Reibung, die durch das langsame Organisieren entsteht, ist zwar ärgerlich, aber noch zu überwinden.

Agenten haben diese Reibung nicht, da keine menschliche Intervention erforderlich ist, und so wird die Frage nach der Ansammlung von Dokumenten vermieden. Wenn ein Agent täglich fünfzig Dokumente erstellt, werden diese Werkzeuge innerhalb einer Woche zu einer Müllhalde – die Seiten sind ineinander verschachtelt, es gibt keine Suchpfade; die Dateinamen sind willkürlich und stammen aus den momentanen Gedanken des Agenten, und drei Tage später sind diese Dateien für jemanden, der nach einem bestimmten Inhalt sucht, nutzlos.

Die Künstliche Intelligenz hat die Wissensmanagementwerkzeuge nicht zerstört. Sie hatten immer schon Mängel. Der Mensch hat immer die Rolle der Koordinationsschicht gespielt – er war für die Archivierung, die Aufrechterhaltung der Struktur und das Merken der Speicherorte der Informationen verantwortlich. Sobald der Mensch aus diesem Kreislauf entfernt wird oder die Künstliche Intelligenz schneller läuft, als der Mensch es manuell warten kann, zeigt sich das System in seiner wahren Gestalt: ein Speicherbehälter ohne Koordinationsmechanismus. Künstliche Intelligenz-Agenten haben keine neuen Mängel aufgedeckt. Sie generieren einfach Dokumente so schnell, dass die bestehenden Mängel nicht mehr ignoriert werden können.

AI-gesteuert vs. AI-kompatibel

Alle wichtigen Produktivitätstools bemühen sich darum, Künstliche Intelligenz-Funktionen hinzuzufügen. Notion hat eine KI-Zusammenfassungsfunktion, Google Docs hat Gemini, Obsidian hat ein Plugin zur Verbindung mit Sprachmodellen. Sie werden alle von Künstlicher Intelligenz angetrieben, aber keiner von ihnen ist ein wirklich AI-kompatibles Werkzeug.

Unter „AI-gesteuert“ versteht man, dass ein Sprachmodell ungeschickt in ein Werkzeug integriert wird, das ursprünglich für Menschen entwickelt wurde. Die Bildschirmlayouts, die Ordnerstruktur, die Datenorganisation – alles wurde unter der Annahme aufgebaut, dass der Benutzer Menüs anklickt und Elemente zieht. Die Künstliche Intelligenz muss all diese Hindernisse überwinden. Sie läuft in einem System, das nie auf ihre Denkweise ausgelegt war.

Deshalb fühlt sich die Künstliche Intelligenz in den meisten Tools wie ein intelligenter Assistent an, der in einem Raum gefangen ist und sich nicht frei bewegen kann. Das Tool sagt: „Hier ist eine Suchleiste, finde das, was du brauchst.“ Die Künstliche Intelligenz sucht und erhält fünfundsiebzig Ergebnisse, kann aber nicht unterscheiden, welches das wirklich Wichtige ist, und muss schließlich raten oder dich fragen. Das Tool sagt auch: „Hier ist eine Seite“ – die Künstliche Intelligenz kann den Inhalt der Seite lesen und vielleicht zusammenfassen, aber sie kann die Informationen nicht an andere Stellen übertragen, kann sie nicht mit verwandten Inhalten verknüpfen und kann keine Aktionen ausführen, ohne dass du manuell koordiniert hast. Die Intelligenz ist vorhanden, aber die Architektur hindert sie überall.

„AI-kompatibel“ bedeutet, dass das System von Anfang an so konzipiert wurde, dass Informationen reibungslos fließen können – sei es zwischen Tools, zwischen Aufgaben oder zwischen Menschen und KI, die dieselbe Aufgabe bearbeiten. Die Datenstruktur ist optimiert, so dass das Sprachmodell die Daten lesen, verarbeiten und wiederherstellen kann, ohne Dropdown-Menüs oder verschachtelte Ordnerstrukturen durchsuchen zu müssen. Die Bedienung ist einfach genug, so dass die KI nicht raten muss, was Sie wollen.

So sieht es in der Praxis aus. Ich habe diesen Artikel geschrieben, organisiert und bearbeitet, ohne jemals einen Dokumenteneditor zu öffnen. Zum Verständnis: Das bedeutet nicht, dass die Künstliche Intelligenz das Schreiben erledigt hat – sie hat nur die Formatierung und Organisation übernommen. Sie hat tatsächlich Folgendes getan:

Den gesamten Text innerhalb von Sekunden extrahiert

Den Änderungsanweisungen, die in einfacher Sprache geschrieben waren, genau zugehört und sofort umgesetzt.

Es ist keine Kopier- und Einfügefunktion zwischen Anwendungen möglich, keine manuelle Archivierung, keine Wechsel zwischen Registerkarten

Die Informationen fließen dorthin, wo sie hingehen müssen, weil das zugrunde liegende System auf diesen Informationsfluss ausgelegt ist.

Das ist der Unterschied. Unter „AI-gesteuert“ versteht man, dass in einer bestehenden fehlerhaften Architektur intelligentere Funktionen implementiert werden; während „AI-kompatibel“ bedeutet, dass die Architektur selbst neu strukturiert wurde, so dass die Intelligenz tatsächlich darin funktionieren kann.

Um den Grund zu verstehen, muss man nur die Stapel betrachten, die jedes Mal fehlschlagen, wenn jemand versucht, Künstliche Intelligenz in ein bestehendes Produkt zu integrieren. Die meisten Teams haben das nie in Frage gestellt, weil Software immer so entwickelt wurde. Die Reihenfolge ist wie folgt:

Benutzeroberfläche – einschließlich Bildschirmen, Buttons, Modalen Fenstern und Drag-and-Drop-Interaktionen. Sie ist für Menschen designed, die lesen, anklicken und über die Handlungsschritte nachdenken. Jede Designentscheidung hier geht davon aus, dass ein Mensch die Bedienung vornimmt.
Datenmodell – wie die zugrunde liegenden Daten organisiert sind, um die Oberfläche zu unterstützen. Wenn die Benutzeroberfläche verschachtelte Seiten hat, hat auch das Datenmodell verschachtelte Objekte. Wenn die Benutzeroberfläche Drag-and-Drop-Sortierung unterstützt, verfolgt das Datenmodell den Sortierindex. Die Oberfläche formt die Daten.
API – die Programmschicht, die auf dem Datenmodell aufbaut. Da das Datenmodell für die Unterstützung der Schnittstelle entwickelt wurde, erbt die API auch alle gleichen Annahmen. Beispielsweise verschachtelte Strukturen, Pflichtfelder, die nur im Modal-Kontext sinnvoll sind, und ID-Suchtabellen, die der Mensch nie sieht, die aber jetzt das Sprachmodell zugreifen muss.
Sprachmodell – erst zuletzt hinzugefügt, wie eine nachträgliche Überlegung. Es muss rückwärts arbeiten und alle eingebetteten UI-Annahmen der oberen Ebenen einzeln ableiten. Jeder Schritt steht im Widerspruch zum Datenmodell.

Deshalb kann Googles Gemini kein Google-Dokument in eine Google-Präsentation umwandeln, ohne menschliche Intervention. Die Künstliche Intelligenz ist nicht für diese mühsamen Umwandlungsarbeiten verantwortlich – das müssen Sie tun. Sie müssen den Output des Google-Dokuments kopieren, ihn in die Präsentation einfügen und dann der eingebauten KI der Präsentation sagen, wie sie mit den Inhalten umgehen soll.

Zwei Produkte, die von der gleichen Firma entwickelt wurden und sich in demselben Ökosystem befinden, können nicht miteinander kommunizieren, ohne dass ein Vermittler als Bote erforderlich ist. Wenn Sie direkt fragen, ob Gemini das kann, lautet die Antwort: Nein – aber hier sind sechs Schritte, die mit Hilfe eines Drittanbieter-Tools durchgeführt werden müssen. Der erste Satz:

Obwohl Google Docs keine native Schaltfläche zum „Umwandeln in Präsentation“ hat, können Sie einige zuverlässige Drittanbieter-Erweiterungen und AI-Tools verwenden, um dies automatisch zu erreichen.

Google ist nicht die Ausnahme, sondern die Regel. Die Architektur aller PKM-Tools auf dem Markt – Notion, Obsidian, Roam, Mem – ist die gleiche: Zuerst wird die Oberfläche entworfen, dann wird das Datenmodell um die Oberfläche herum aufgebaut, die API wird nachträglich hinzugefügt und die KI wird als letztes integriert. Keines von ihnen hat die Zeit berücksichtigt, in der intelligente Agenten täglich Hunderte von Dokumenten ohne menschliche Intervention generieren können.

Bei dieser Skala wird der auf die Benutzeroberfläche ausgelegte Technologiestack nicht nur langsam laufen, sondern auch unter seiner eigenen Überlastung zusammenbrechen. Jedes von einem intelligenten Agenten ohne menschliche Intervention erstellte Dokument hat nur einen Titel und einen Zeitstempel, keine Beschreibung, kein Suchpfad. Bei tausend Aufgaben pro Monat ist das Wissensverzeichnis dahin. Sie erhalten nur eine Müllhalde mit einer Suchleiste, die überhaupt nicht funktioniert.

Theoretisch ist diese Umkehrung einfach, aber fast niemand tut es. Bei der Gestaltung muss zuerst die tatsächliche Denkweise des Sprachmodells berücksichtigt werden.

Verwenden Sie flaches JSON anstelle von verschachtelten Hierarchien – denn verschachtelte Strukturen führen zu Markierungsüberprägung und Traversierungsfehlern, die sich bei zunehmender Skala akkumulieren.

Die Bedienung ist einfach und der Zustand eindeutig. Die Parameter sind klar und verständlich und können nie missverstanden werden.

Es gibt keine Modalannahmen, keine notwendigen Suchschritte und keine Datenstrukturen, die nur auf dem Bildschirm verstanden werden können.

Sobald die API klar ist und das Datenmodell flach ist, wird die Oberfläche optional. Sie ist ein Anzeigefenster, das um die Ergebnisse der API aufgebaut ist – nicht die Datenquelle und auch kein notwendiger Schritt im Arbeitsablauf. Ohne Editor zu öffnen, können Sie 21 permanente Notizen schreiben, 143 Metadatenfelder ergänzen und die Suchfunktion verbessern. Der Editor dient nur zum Lesen und Polieren. Alle Koordinationsarbeiten werden auf API-Ebene durchgeführt und laufen über Aufgaben und Agenten mit Maschinen-Geschwindigkeit.

Wenn die Benutzeroberfläche im Vordergrund steht, erbt die API alle Annahmen der Benutzeroberfläche. Wenn die API im Vordergrund steht, kann das System ohne menschliche Intervention funktionieren.

Warum sind Metadaten nutzlos und die Suchfunktion wirkungslos?

Der Aktenordner ist tatsächlich eine ausgezeichnete Lösung für ein schwieriges Problem:

Sie haben ein Dokument, das irgendwo aufbewahrt werden muss.
Sie erstellen Ordner, befestigen Etiketten und legen das Papier hinein.
Sie archivieren sie in einer Schublade.

Dieses System funktioniert, weil es eine natürliche Obergrenze für die Anzahl der Papiere gibt, die eine Person tatsächlich produzieren kann. Ihre Schreibgeschwindigkeit ist schließlich begrenzt, und der Aktenordner kann nur so schnell mitkommen.

Nach der Entstehung des Computers hat niemand sich Gedanken darüber gemacht, ob das Aktenordner-Modell noch funktioniert. Sie haben es einfach übernommen:

Die Ordner wurden zu elektronischen Ordnern
Die Dateien bekamen Namen
Die Hierarchie wurde tiefer

Die gesamte Organisationslogik der physischen Welt wurde auf ein Medium abgebildet, das keine der gleichen Einschränkungen hat – und niemand hat es bemerkt, weil die Datenmenge für eine Zeit lang noch beherrschbar war. Eine Person, die nur wenige Dokumente pro Woche erstellt, kann immer noch die Illusion aufrechterhalten, dass das System funktioniert.

Denken Sie aber mal darüber nach, was sich tatsächlich auf dem Festplattenlaufwerk eines Durchschnittsbenutzers befindet. Wenn Sie alle Ihre Dateien, E-Mails und heruntergeladenen Dokumente ausdrucken und versuchen würden,

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。