Fang Yi von Daily Interaction: Vom DI zum AI, über den großen Modellen gibt es mindestens vier Ebenen von Gründungsgelegenheiten.
Die Menschen stolpern in Richtung KI. Sorgen Sie sich, wo für gewöhnliche Menschen Entwicklungsmöglichkeiten bestehen, wenn große Modelle überall sind? Welche Produktivitätsrevolution wird sich ergeben, wenn KI stärker mit Anwendungsfällen kombiniert wird? Die Agenten bringen die bestehende App-Ökosystem und offene Protokolle in heftigen Konflikt. Wird das nächste Kapitel des chinesischen Internets „geschlossen“ oder „symbiotisch“ sein? Dieser Artikel basiert auf der Keynote des CEOs von Daily Interactive, Fang Yi, auf dem Forum für die hochwertige Entwicklung von KI-Endgeräten der China Internet Conference 2025. Er wird gemeinsam mit Ihnen die härtesten Überlebensregeln und Ökosystemschlüssel in der Ära der großen Modelle untersuchen. Im Folgenden finden Sie die Transkription von Fang Yis Live-Rede:
I. Von „Datenintelligenz“ zu „Künstlicher Intelligenz“: Beobachtungen eines Branchenpraktikers
Heute habe ich hier viele technische Überlegungen und tiefgehende Debatten über große Modelle gesehen. Viele haben systematische Zusammenfassungen geteilt. Als Branchenpraktiker möchte ich nun auch meine eigenen Eindrücke teilen.
Wenn wir die Geschichte der KI betrachten, haben wir von der Dartmouth-Konferenz bis heute drei Höhen- und zwei Tiefpunkte erlebt. Bezüglich der Übersetzung von „Artificial Intelligence“ halte ich die Übersetzung „Künstliche Intelligenz“ für irreführend, da man schnell an „Arbeit ersetzen“ oder „Mensch + Intelligenz“ denkt. Vielleicht ist „Künstliche Intelligenz“ eine passendere Übersetzung, deren Gegenbegriff „Göttliche Intelligenz“ ist. Seit langem hat sich die Entwicklung der KI hauptsächlich in der Richtung der Nachahmung und Annäherung an den Menschen bewegt, wie beispielsweise beim Schachspiel. Dies führt zu einer Schlüsselüberlegung: Wissenschaftler haben aus dem Menschen hoch abstrakte Merkmale extrahiert (z. B. das Transformer-Modell) und damit die heutige KI geschaffen. Wie kann der Mensch nun aus der KI diese abstrahierten Essenzen wieder lernen?
II. Lehren aus den drei Phasen der KI-Entwicklung: Regeln verstehen, zwei Schritte vorausdenken und früher anfangen (wie der späte Vogel)
Um die Evolution der KI zu verstehen, können wir aus ihrer Entwicklungsgeschichte Weisheit schöpfen:
Erstens: Regeln verstehen (wie beim Gomoku): So wie ein Student im ersten Semester ein einfaches Programm für das Mensch-Maschine-Spiel schreiben kann, indem er die begrenzten Regeln (z. B. Blockieren, verbotene Züge) versteht. Wenn man die Regeln kennt, kann man etwas tun. In der Realität ist es das Gleiche, wenn man eine Prüfung macht. Man muss die Regeln der verschiedenen Branchen gründlich studieren, das „Zertifikat“ bekommen und die Dinge innerhalb des Regelrahmens klären.
Zweitens: Mehr Schritte vorausdenken (wie Deep Blue): Das Schachspiel kann theoretisch vollständig auswendig gelernt werden, aber warum kann der Mensch Deep Blue nicht schlagen? Weil Deep Blue 12 Züge vorausberechnen kann, weit über der menschlichen Grenze von 10 Zügen. Es ist in der Realität sehr selten, wenn jemand immer mehr als andere denkt. So wie in der Arbeit, wer in der Lage ist, „zwei Schritte voraus zu denken“ (z. B. Geräteausfälle vorhersehen, Ressourcen im Voraus koordinieren), hat bessere Chancen, sich hervorzuheben und ein Experte zu werden. Sein Wert liegt darin, ob er das nächste Problem vorhersehen und eine Lösung vorbereiten kann – wie Deep Blue, das mit zwei zusätzlichen Berechnungen gewinnt.
Drittens: Früher anfangen (wie AlphaGo): Bei Go, einem Spiel, dessen Züge nicht vollständig aufgelistet werden können, hat AlphaGo zuerst menschliche Spielnotationen gelernt und dann durch verstärktes Lernen (Selbstspiel + Belohnungsfunktion) den Menschen übertroffen, bis AlphaGo Zero unbesiegbar wurde. Dies zeigt die Macht des „frühen Anfangs“ und der kontinuierlichen Verbesserung. Wenn wir also KI lernen, sollten wir von AlphaGo lernen: Jeder Schritt ist eine Verbesserung. Wie unser altes Sprichwort sagt: „Jeder Tag einen kleinen Schritt vorwärts, die Mühe wird sich lohnen.“
III. Kernherausforderungen in der Ära der großen Modelle: Aufmerksamkeit, Daten und Ökosystem
Heute haben viele Experten darauf hingewiesen, dass ein sehr wichtiger Aspekt der KI die „Aufmerksamkeitsmechanik“ (Attention Mechanism) ist. Ein weiterer wichtiger Aspekt der KI ist die effiziente Informationsverarbeitung durch Multi-Head Attention und das Mixture of Experts (MoE)-Modell. Kimi hat dies auch sehr gut umgesetzt, indem es weniger Multi-Head Attention-Modelle, aber mehr MoE-Modelle verwendet. Normalerweise verbraucht das menschliche Gehirn nur 20 bis 30 Watt (bei einer Hochschulaufnahmeprüfung etwa 40 bis 50 Watt), während eine einzelne NVIDIA-Grafikkarte bis zu 4000 Watt verbraucht. Das bedeutet, dass die Maschine noch einen Verbesserungsbedarf von 100 Mal hat, um das menschliche Gehirn zu imitieren. Andererseits wird die Moore'sche Regel oder eine übermäßige Moore'sche Regel ihre schnelle Entwicklung antreiben. Deshalb macht es in Zukunft keinen Sinn, mit großen Modellen in der Rechengeschwindigkeit zu konkurrieren. Wir müssen uns stattdessen auf das Verständnis der Daten konzentrieren und uns als menschliche Experten qualifizieren.
Nehmen wir beispielsweise die medizinische Bilderkennung im MoE-Modell. Wir wissen, dass die Erkennungsgenauigkeit der KI für CT-Bilder derzeit 95 % oder sogar 97 % erreichen kann. Im Vergleich dazu liegt die Genauigkeit eines menschlichen Experten normalerweise bei etwa 92 % bis 93 %. Dies führt zu einem interessanten Phänomen: Menschliche Experten lernen, „später ins Feld zu treten“ – sie reden zuerst über andere Dinge, bevor die KI ihre Ergebnisse liefert. Nachdem die KI ihre Ergebnisse präsentiert hat, überprüfen die Experten sie sorgfältig und finden die entscheidenden 3 % Fehler. Dieser Prozess beweist genau den unverzichtbaren Wert der menschlichen Experten.
Umgekehrt, wenn der menschliche Experte zuerst seine Meinung äußert, wird die KI wahrscheinlich 7 % Fehler darin finden. Der zukünftige Trend wird also sein, dass der Mensch immer mehr die Weisheit des „später Sprechens“ verstehen wird – zuerst die Fähigkeiten der KI zeigen lassen und dann die einzigartigen Urteils- und Fehlerkorrekturfähigkeiten des Menschen einsetzen, um eine effizientere Zusammenarbeit zu erreichen. Dies könnte auch der wichtigste Ansatzpunkt für die Zukunft der Koexistenz von Mensch und KI sein.
Während der praktischen Anwendung von Big Data haben wir die Kernbestandteile gründlich überdacht und sie in drei Schlüsselkomponenten zusammengefasst: Data (Daten), Machine (Maschine), People (Mensch).
Daten sind die Grundlage, die Maschine ist das Trägermedium, auf dem verschiedene Algorithmen und Modelle implementiert sind. Am wichtigsten ist jedoch die Fähigkeit des Menschen, den Anwendungsfall zu verstehen. Dies wurde von vielen Experten in der Branche betont und wird niemals veralten. Wie die jüngsten Branchendiskussionen gezeigt haben: Früher brauchte man möglicherweise einen Produktmanager und sieben Programmierer, um eine Idee umzusetzen. Heute braucht ein Produktmanager möglicherweise nur noch einen halben Programmierer. Dies zeigt, dass die reine technische Umsetzung relativ weniger wichtig wird.
Dies bringt mich an das von der amerikanischen Firma Palantir vorgeschlagene Framework: Data (Daten), Logical (Logik), Action (Aktion). Dieses Modell ist in der Branche weit bekannt und stimmt mit der von der China Academy of Information and Communications Technology (CAICT) und anderen Experten zusammengefassten fünfschichtigen Architektur der KI-Ära überein.
Bezüglich der Entwicklung der Wissenshierarchie besteht in der Branche ein Konsens: In der Ära der Datenintelligenz werden Daten zu Informationen, Informationen zu Wissen und Wissen zu Weisheit. In der KI-Ära beschreibt die vorherrschende Meinung, wie von der sogenannten „Internet Queen“ Mary Meeker geteilt, die Progression der Fähigkeiten: Von der Chat-Interaktion über die logische Schlussfolgerung bis zur intelligenten Entscheidungsfindung, zur Entwicklung als Innovator und schließlich zum Organisator. Natürlich gibt es unterschiedliche Formulierungen von verschiedenen Experten.
Dies führt zu einer praktischen Frage: Wie wählt man in Zukunft einen Beruf? Kürzlich fragte meine Nichte mich, welche Fakultät sie bei der Hochschulbewerbung wählen sollte. Mein Rat war: Entweder sich auf die grundlegenden Disziplinen konzentrieren, die von der KI schwer zu ersetzen sind, wie Physik und Mathematik, oder ein „Organisator“ in der KI-Ära werden. Sie hat schließlich die Film- und Fernsehkamera- und Schnitttechnik gewählt. In Zukunft wird der Wert dieser Art von Jobs möglicherweise noch wichtiger werden – denn der Kern der Arbeit eines Drehbuchautors und Schnitters liegt darin, „was zu exprimieren“ (What), „warum zu exprimieren“ (Why) und „wie zu exprimieren“ (How), was gerade die Kreativität widerspiegelt. Die konkreten Ausführungsschritte wie „wie es umzusetzen“ (How to do) und „was zu tun“ (What to do) werden in Zukunft wahrscheinlich der KI überlassen.
IV. Zukünftiger Weg: Zusammenarbeit zwischen Edge und Cloud
Wir glauben, dass der Schlüssel für die zukünftige KI-Anwendung die Zusammenarbeit zwischen Edge (Geräteseite) und Cloud (Zentralseite) ist. Deshalb haben wir während der chinesischen Neujahr alle wichtigen KI-Unternehmen in Hangzhou eingeladen (witzigerweise als „Sammeln der sieben Drachenperlen“ bezeichnet) und eine vierstündige intensive Diskussion geführt. In der Diskussion haben sich zwei technische Schulen gebildet – die „Cloud-Schule“ befürwortet die zentrale Bereitstellung von Modellen in der Cloud; die „Edge-Schule“ (wie wir) befürwortet, dass die Modelle näher am Benutzer und auf dem lokalen Gerät bereitgestellt werden.
Bei der praktischen Umsetzung der lokalen Bereitstellung haben wir festgestellt, dass die Investitionsbereitschaft der Unternehmen mit ihrer Marktkapitalisierung zusammenhängt – im Allgemeinen sind sie bereit, etwa ein zehntausendstel ihrer Marktkapitalisierung zu investieren (z. B. ein Unternehmen mit einer Marktkapitalisierung von 100 Milliarden Yuan ist bereit, 10 Millionen Yuan zu investieren, und ein Unternehmen mit einer Marktkapitalisierung von 1 Milliarden Yuan ist bereit, 100.000 Yuan zu investieren). Derzeit beträgt die Kosten für die vollwertige (hochleistungsfähige) lokale Bereitstellung von inländischer Rechenleistung jedoch noch fünf- bis sechs Millionen Yuan, was eine sehr hohe Schwelle darstellt. Um diese Schwelle zu senken, haben wir auch ein kostengünstiges Gerät entwickelt und es geschafft, ein vollständiges Modell mit 671 Milliarden Parametern darin zu integrieren. Dies hat jedoch einige Kompromisse in Bezug auf die Leistung zur Folge – langsame Ausgabe, begrenzte Verarbeitungsfähigkeit und manchmal auch „Faulheit“. Diese Erfahrung ist alles andere als ideal.
Während des Prozesses der Umsetzung von großen Modellen haben wir auch viele eigene Erfahrungen und Lehren gesammelt. Wir haben festgestellt, dass „vollständig auf die KI zu vertrauen, ist genauso schlecht wie gar keine KI zu haben“, und es gibt auch einen Ausspruch: „Zählbare Zahlen sind nicht die ewigen Zahlen, unzählbare Zahlen sind es.“ Dies bedeutet, dass bei der Verwendung der KI die Qualität der Daten selbst sehr wichtig ist. Denn außer den Halluzinationen der Modelle gibt es auch das „Problem des ehrlichen Schülers“ – sie nehmen naiv alle Informationen, die der Mensch eingibt, als absolute Wahrheit und zitieren sie umfassend, was jedoch zu einer durchschnittlichen Leistung führt.
Um diese Einschränkungen zu überwinden, werden eine hochwertige Prompt-Engineering und die kontinuierliche Akkumulation von individualisierten Daten besonders wichtig. Wir sehen einen klaren Trend: Die Fähigkeiten der Modelle gehen in Richtung „Gleichberechtigung“ – die Technologie der grundlegenden großen Modelle wird unter der Förderung der Open-Source-Kraft und der Großkonzerne immer mehr verbreitet und gleichberechtigt. Aber der Wert der Daten wird niemals „gleichberechtigt“ sein. Deshalb liegt die zukünftige Schlüsselrichtung darin, öffentliches Wissen, private Daten und individuelle Präferenzen zu kombinieren und ein hoch individualisiertes eigenes Intelligenzmodell zu schaffen. Dies wird die Kernkompetenz der nächsten Generation von KI-Anwendungen sein.
Aber beim Prozess der Umsetzung der Technologie stehen wir oft vor einem Kernproblem: „Angst vor hohen Kosten bei der Verwendung eines privaten Cloud-Services (Arme sind nur zeitweise eingeschränkt), Angst vor Datenlecks bei der Verwendung eines öffentlichen Cloud-Services (Furchtsame sind lebenslang eingeschränkt).“ Wie können wir dieses Dilemma lösen? Dies bringt uns auch dazu, über ein grundlegendes Problem nachzudenken: Wird das chinesische Internet-Ökosystem in Zukunft geschlossen oder offen sein? Wir wissen, dass Google Apple jedes Jahr Hunderte von Millionen Dollar zahlt, um Zugang zu den iPhone-Benutzern zu erhalten; Amazon gibt ebenfalls eine enorme Summe für die Google-Werbung aus.
In China sind die Suchmaschinen und die E-Commerce-Plattformen getrennt. Die meisten Apps neigen dazu, ein geschlossenes Ökosystem aufzubauen und die Benutzer und den Traffic in ihrem eigenen System zu halten. Dieser Tendenz zum Schließen war bereits in der Anfangsphase des mobilen Internets zu erkennen. Um etwa 2011 haben wir mit Branchenführern darüber diskutiert: „Was wird der Zugangspunkt für das mobile Internet in Zukunft sein? Wie wird sich die Form der mobilen Suche entwickeln?“
Damals habe ich vorausgesagt, dass der App-Store der zentrale Zugangspunkt werden wird. Die Benutzer werden zuerst im App-Store nach Apps suchen und herunterladen und dann innerhalb der Apps vertikal suchen. Die Rolle der generellen Suchmaschinen (wie Baidu) wird sich zu einem „Rettungswagen“ ändern – sie werden hauptsächlich für die langfristigen Bedürfnisse verwendet, die der App-Store nicht abdecken kann. Ihre Wichtigkeit wird sich von der Zeit des PCs unterscheiden. Die spätere Entwicklung hat diese Vorhersage bestätigt.
V. Öffnung des Ökosystems: Die unvermeidliche Wahl für die KI-Entwicklung
Was soll die Branche tun, wenn es um die Frage geht, ob das aufstrebende intelligente Internet, also die KI-Ära, geschlossen oder offen sein soll? Wir haben auch viele Meinungen aus der Branche gehört. Die vorherrschende Meinung ist, dass China nicht vollständig das MCP-Protokollmodell des offenen Internets in den USA kopieren muss, sondern einen geeigneten offenen Weg