Einleitung der Interviewreihe über interdisziplinäre Attention-Mechanismen
Wenn wir uns die Hauptlinie des künstlichen Intelligenz(KI)-Technikpfads der letzten sieben Jahre ansehen, ist die Attention-Mechanik die gemeinsame Grundlage fast aller wichtigen Fortschritte. Sie ist nicht nur eine Modellkomponente, sondern ein Paradigma für Struktur, Fokus und Informationsverteilung sowie eine Übertragung technischer Methodik.
Ab jenem Moment sind wir in eine neue Ära eingetreten.
An diesem Punkt heute werden wir eine Reihe tiefergehender Interviews rund um die Attention-Mechanik durchführen und uns auf die interdisziplinäre Forschung zur „Aufmerksamkeitsmechanik“ konzentrieren.
Dieser Artikel ist ein Q&A vor dem Start dieser Interviewreihe von Oasis. Wir versuchen, eine Frage zu klären: Wenn es sich hier nicht um eine Rückschau oder eine Hommage an ein klassisches Thema handelt, warum sollten wir heute noch einmal über Attention reden?
Tatsächlich werden nicht nur Bilder, sondern auch der Markt von Rauschen überdeckt.
Vom Jahr 2022 bis zum ersten Halbjahr 2023 war das vorherrschende Diskussions-Thema auf dem Markt, ob KI ein riesiger Blasenphänomen sei und ob es einen Unterschied zwischen der aktuellen und der vorherigen Generation von KI gebe. In diesem Rauschen hat Oasis im ersten Halbjahr 2023 den Großteil seines Kernportfolios in den Bereichen KI und Embodied Intelligence aufgebaut, darunter fast zwanzig Projekte wie MiniMax, Vast, Boson, Zhujidongli, Qianxun Intelligence und Jike Technology.
Wir glauben, dass dies eine Innovation auf einem Niveau jenseits der industriellen Revolution ist, die in kürzerer Zeit größere Auswirkungen hat.
Danach haben wir die erste tiefergehende Interviewreihe von Oasis mit dem Thema „KI“ gestartet.
Der Anlass für den Start war eine Erkenntnis, die wir bei der Aufbau dieser KI-Portfolios gewonnen haben: Dies ist keine Revolution, die durch Veränderungen im Produkt oder im Betriebsmodell ausgelöst wird, sondern eine wissenschaftliche Erkundung, die auf den neuesten Technologien der KI basiert. Daher müssen wir einen Schritt zurückgehen und die grundlegendste Frage „Was ist eigentlich KI?“ diskutieren – wir müssen mit weltweit führenden Professoren und Wissenschaftlern kommunizieren, um zu besprechen, was KI ist, was GPT ist und auf welchen Technologien und Erkenntnissen die Veränderungen, die wir gerade erleben, beruhen.
Damals hat Oasis weltweit Dutzende von Professoren interviewt. Durch diese tiefgehenden Interviews haben wir die Erkenntnis gewonnen, dass die von uns gesehenen großen Modelle im Wesentlichen zukünftige Infrastrukturen sind. In der binären Welt wird Intelligenz standardisiert verwaltet und verteilt, ähnlich wie das heutige menschliche Stromsystem, das die Modellfähigkeiten an alle Stellen liefert, die „Strom“ benötigen. Die angeschlossenen Endgeräte sind dann die „Elektrogeräte“ der KI-Zeit.
Diese Erkenntnis war der Abschlusspunkt der ersten tiefgehenden Interviewreihe von Oasis über KI und zugleich der Anfang einer neuen Frage: Wenn wir die Form des „Stromversorgungssystems“ verstehen, was werden dann die zukünftigen „Haushaltsgeräte“ sein?
Daher hat Oasis die zweite tiefgehende Interviewreihe – über Agenten – gestartet.
Im Juli 2023 konzentrierte sich die vorherrschende Meinung auf dem Markt auf zwei Wettlaufrichtungen: Einige glauben, dass die Zukunft den vertikalen großen Modellen gehört, während andere an die Weiterentwicklung der allgemeinen großen Modelle glauben. Damals hat nur wenige Menschen über die Modelle hinausgeguckt und sich für die Systemform betätigt, die die Modellfähigkeiten trägt – die Agenten.
Obwohl wir ständig Artikel geschrieben und in einem Interview „Die Menschen, die am meisten in KI investieren“ einen Schlussstrich gezogen haben: Wir glauben nicht, dass die Zukunft den vertikalen Modellen gehört. Die Allgemeingültigkeit der Modelle wird schließlich vorherrschen. Aber die Allgemeingültigkeit allein ist nicht genug. Wir sollten uns stärker darauf konzentrieren, wie die Modellfähigkeiten als Schnittstellen gekapselt werden, das ist, was Oasis als Agenten sieht.
Agenten sind die Zukunft.
Heute sind Agenten ein beliebtes Thema im Bereich KI. Aber zurück im Sommer 2023 war es weder von der Mainstream-Markt gefördert noch gab es eine einheitliche theoretische Erkenntnis darüber.
Daher hat Oasis die zweite tiefgehende Interviewreihe mit dem Thema Agenten gestartet und wieder weltweit nach Spitzenforschern und Professoren gesucht, um die grundlegende Frage „Was meinen wir eigentlich, wenn wir über Agenten sprechen?“ zu diskutieren.
Diese Reihe hat fast ein Jahr gedauert, bis August 2024. Im Verlauf der Interviews hat sich die Antwort allmählich herauskristallisiert: Agenten sind keine isolierten Dinge oder irgendwelche Hüllen. Mikroskopisch gesehen sind Agenten handlungsfähige Einheiten, die aktiviert und angepasst werden können, ähnlich wie ein Lebewesen. Makroskopisch gesehen sind Agenten eher wie ein Fluss.
Im Wesentlichen ist ein Agent ein von einem großen Modell angetriebener Service, der auf einer konkreten Szene eine Integrations von Bedürfnissen und Intelligenz darstellt. Sein Kern ist nicht das Werkzeug, sondern eine Art von Existenz.
So endete die zweite tiefgehende Interviewreihe.
Wir danken allen Forschern, die in den beiden Interviewreihen über KI und Agenten mit Oasis intensiv gesprochen haben. Sie bilden gemeinsam den Schlüsselweg für die Erkundung dieser Veränderung. Jetzt, hier und jetzt, starten wir die dritte tiefgehende Interviewreihe mit dem Thema Attention.
Also zurück zur Frage am Anfang dieses Artikels: Was hat uns zu diesem dritten Thema inspiriert?
Wie in dem berühmten Artikel „Attention is All You Need“ am Anfang dieses Artikels erwähnt, hat der Mensch seit langem versucht, Maschinen beizubringen:
Was ist Aufmerksamkeit?
Aber warum ist der Mensch so besessen, Maschinen das Verständnis für Aufmerksamkeit beizubringen?
Nehmen wir ein einfaches Beispiel: Wenn ein Mensch ein Auto fährt, bemerkt er instinktiv die Änderungen an den Straßenschildern oder ein plötzlich auftauchendes Kaninchen. KI kann dies möglicherweise nicht. Das liegt natürlich nicht daran, dass KI nicht intelligent genug ist. Im Gegenteil, aufgrund der begrenzten Rechenleistung des menschlichen Gehirns, das die Menge der Informationen, die das Sehnetz empfängt, nicht verarbeiten kann, hat sich eine Aufmerksamkeitsmechanik entwickelt. Diese Mechanik ermöglicht es dem Menschen, schnell die wichtigste Information zu identifizieren und unwichtige Störungen auszublenden.
Leider besitzt KI diese Mechanik nicht. In der Welt der KI haben alle Pixel die gleiche Bedeutung. Mit unbegrenzter Rechenleistung versucht KI, alle Eingaben vollständig zu verarbeiten. Daher hat der Mensch seit langem versucht, eine Methodik zu finden und ein neues Paradigma zu entwickeln, damit KI Aufmerksamkeit erlangen und gut skalierbar wird (Scaling Law). Wir glauben, dass KI so besser Informationen verarbeiten kann.
Mit der Entwicklung der technologischen Erforschung freuen wir uns zu sehen, dass beispielsweise das von Oasis unterstützte Unternehmen MiniMax kürzlich die Flash Attention (Blitz-Aufmerksamkeitsmechanik) veröffentlicht hat, die das Aufmerksamkeitsmodul innerhalb der Transformer-Architektur optimiert hat und die Rechenleistung in der Trainings- und Inferenzphase erheblich verbessert hat, wodurch die Attention-Mechanik auf algorithmischer Ebene einen Durchbruch erzielt hat. Die Bedeutung der Aufmerksamkeitsmechanik hat sich bereits weit über die Optimierung der Modellstruktur hinausentwickelt. In den letzten Jahren hat Attention nicht nur die Sprachenmodelle vorangetrieben, sondern auch in die Bereiche der Gehirnforschung, der Kognitionswissenschaft und der Psychologie vordringen. Wir beginnen zu verstehen, dass der Prozess, in dem KI die Aufmerksamkeit lernt, uns wiederum hilft, unser eigenes Wahrnehmungs- und Kognitionssystem neu zu verstehen.
Was ist also die Schlussfolgerung?
Die Schlussfolgerung ist, dass wir sehen, dass KI einen doppelten Entwicklungspfad zeigt: Einerseits versuchen Wissenschaftler weltweit, größere Trainings auf der Transformer-Struktur durchzuführen. Andererseits werden auf der Ebene der Kognitionsstruktur und des Algorithmusframeworks weitere Innovationen versucht, um KI zu helfen, die Frage zu beantworten, die wir es immer gelernt haben möchten – Was ist Aufmerksamkeit?
Wenn wir heute noch tiefer in die Zukunft von KI eintauchen möchten, sollten wir uns der wesentlichen Frage widmen:
Was bedeutet Aufmerksamkeit in einem System, das von Menschen und KI gemeinsam gebildet wird?
Wenn wir von der technologischen Forschung zur Selbstüberprüfung der menschlichen Gesellschaft übergehen, wenn Agenten die Hauptproduzenten der Gesellschaft werden und immer besser verstehen, was der Mensch will, wird die menschliche Aufmerksamkeitsmechanik einer Herausforderung ausgesetzt, wie es noch nie zuvor war. Vor zwanzig Jahren lasen wir Bücher, vor zehn Jahren sahen wir Filme, vor fünf Jahren schauten wir Kurzvideos, und jetzt werden wir in der unendlichen fragmentierten Information, die von KI generiert wird, verloren gehen.
Jedes unserer Gedanken kann uns zu unendlichen Informationen führen, die Welt wird weiter zersplittert.
Daher taucht eine tiefere Frage auf: Wie können wir unsere eigene Aufmerksamkeit schützen, wenn wir KI helfen, Aufmerksamkeit zu entwickeln?
Die Antwort ist vielleicht nicht so optimistisch.
Statistiken zeigen, dass eine Person durchschnittlich mehr als 500 Mal am Tag ihr Smartphone nimmt und die Dauer der Aufmerksamkeit auf weniger als 100 Sekunden reduziert wird. Vom Langzeitfilm zum Kurzvideo, von der tiefgehenden Lektüre zur Informationsfragmentierung wird die Aufmerksamkeitsspanne des Menschen stetig kürzer. Gleichzeitig beschleunigt KI die Geschwindigkeit der Informationsgewinnung und -antwortung auf ein nie dagewesenes Niveau. Wenn in Zukunft ein Super-KI entsteht, das menschliche Präferenzen genau erfassen, Bedürfnisse vorhersagen und alle gewünschten Inhalte generieren kann, wird die menschliche Aufmerksamkeitsmechanik weiter sinken. Wird die Aufmerksamkeit schließlich an Maschinen ausgelagert? Wird der Mensch schließlich das „Recht auf Aufmerksamkeit“ vollständig an Maschinen abgeben?
Die Buddhisten sprechen von „Bewusstsein“. Wo sich das Bewusstsein des Menschen befindet, da manifestiert sich die Welt. Aus der Sicht der Signaltheorie bestimmt die Aufmerksamkeit die Frequenz des Bewusstseins. Wo unsere Frequenz liegt, da liegt auch die Zeitdomäne. In der wissenschaftlichen Sprache ist es ähnlich: Die Selbstverwaltung eines Menschen ist letztendlich die Verwaltung der Aufmerksamkeit. In dieser Zeit, in der KI und der Mensch unweigerlich nebeneinander existieren, ist das Verständnis von „Aufmerksamkeit“ nicht nur für die Klärung der Entwicklung der KI-Technologie notwendig, sondern auch für die Entwicklung des Menschen selbst.
Wir helfen KI, Aufmerksamkeit zu entwickeln und uns gleichzeitig, unsere eigene Aufmerksamkeit zu schützen.
Dies ist die Antwort auf die Frage am Anfang dieses Artikels und der Ausgangspunkt unserer dritten tiefgehenden Interviewreihe.
Diese Reihe wird länger dauern als die ersten beiden, und Oasis wird mehr Zeit und Ressourcen darauf verwenden. Wir glauben, dass wir auf diesem Weg Freunde finden werden, die ähnliche Interessen haben. Wir freuen uns darauf, gemeinsam neue Erkenntnisse zu entwickeln.
Der erste Artikel dieser Reihe wird im August veröffentlicht, und die Folgebeiträge werden monatlich aktualisiert. Wir hoffen, dass Sie es genießen.
Beitrag zur Vitalität.
Dieser Artikel stammt aus dem WeChat-Account „Oasis Capital Vitalbridge“. Verfasser: Beitrag zur Vitalität. Veröffentlicht von 36Kr mit Genehmigung.