StartseiteArtikel

Yang Zhilin kann nicht auf alles antworten.

咏仪2024-11-17 14:31
Scaling-Gesetz ist weiterhin gültig, nur hat sich das zu skalierende Objekt geändert.

Text|Deng Yongyi

Bearbeitung|Su Jianxun‍

Im Jahr 2024 wird das Blatt für die chinesischen Großmodellunternehmen immer schwieriger. Einerseits stehen die "Sechs kleinen Tiger", die 2023 schnell eingestiegen sind und große Finanzierungen und hohe Bewertungen erhielten, vor verschiedenen Herausforderungen: Homogenität der KI-Anwendungen und Geschäftsmodellen, die noch nicht ausgereift sind.

Andererseits verlangsamt sich die Iterationsgeschwindigkeit von Spitzenmodellen wie OpenAI, GPT-5 lässt auf sich warten, und kürzlich diskutiert die gesamte Branche: Ist das Scaling Law für Großmodelle noch gültig?

Doch Yang Zhiling, der seit langem nicht mehr aufgetaucht ist, Gründer von "Dark Side of the Moon", sagt: Das Scaling Law ist weiterhin gültig, nur das was skaliert wird, hat sich geändert.

△ Yang Zhiling, Gründer von "Dark Side of the Moon" Bildquelle: Foto des Autors

Am 16. November veröffentlichte "Dark Side of the Moon" offiziell das neue mathematische Modell K0-math.

Es handelt sich um ein mathematisches Modell, das auf Berechnungskapazität fokussiert ist. In der Demo zeigte K0-math nicht nur die Fähigkeit zur Lösung von schwierigen Mathematikwettbewerbsproblemen, sondern auch die Fähigkeit, die verteilten Denkschritte während des Lösungsprozesses zu zeigen - vom Erhalt des Problems bis zur Schritt-für-Schritt-Analyse. Bei Fehlern im Lösungsweg kann K0-math selbst reflektieren, ob es logische Fehler gibt, und zurück zu spezifischen Schritten gehen, um die Argumentation neu zu beginnen.

Die von "Dark Side of the Moon" veröffentlichten Benchmark-Tests zeigen, dass die mathematische Fähigkeit des Kimi k0-math vergleichbar ist mit zwei öffentlich zugänglichen Modellen von OpenAI o1: o1-mini und o1-preview.

Yang Zhiling betonte auch, dass das "Dark Side of the Moon"-Team verschiedene Arten von Testsets für Echtzeit-Tests verwendet hat, um den Vergleich mit o1 fair zu gestalten.

△ Benchmark-Testergebnisse des K0-math-Modells Bildquelle: Foto des Autors

Bei vier mathematischen Benchmarks - der Mittelschulprüfung, Hochschulaufnahmeprüfung, Postgraduiertenprüfung und MATH, die Einstiegskompetenztests enthalten - übertrifft das erste Modell von k0-math die o1-mini und o1-preview Modelle.

Bei zwei schwierigeren Wettbewerbs-Mathematik-Aufgabensets - den OMNI-MATH und AIME Benchmarks - erreichte das erste Modell von k0-math 90% bzw. 83% des o1-mini Höchstwertes.

Erst einen Monat zuvor hatte Kimi die neueste Version "Kimi Explorationsversion" veröffentlicht, die die Fähigkeiten der CoT (Denkkette) in das Modell integrierte. Die eigenständige Suchfähigkeit der Kimi Explorationsversion kann den menschlichen Denkprozess simulieren, komplexe Probleme mehrstufig zerlegen, vertiefte Recherchen durchführen und die Ergebnisse sofort verbessern.

Ob Kimi Explorationsversion oder das aktuelle K0-math, die übermittelten Informationen sind ähnlich: das kontinuierliche Verbessern von Intelligenz und Denkniveau des Modells. Dies ist auch der erste Schritt, um an Modelle wie OpenAI o1 heranzukommen.

Jedoch gesteht Yang Zhiling auch die aktuellen Einschränkungen von K0-math ein.

Zum Beispiel kann bei schwierigen Aufgaben der Hochschulaufnahmeprüfung oder der IMO Mathematik-Olympiade K0-math Fehler machen. Manchmal überlegt das Modell übertrieben - bei einfachen Mathematikaufgaben wie 1+1=2 kann das Modell unnötige Schritte zur Bestätigung der Antwort machen oder sogar geraten, ohne erklären zu können, warum die Antwort richtig ist.

Als Vertreter des technischen Idealismus unter den AI-Startups in China hat Yang Zhiling mehrfach die Bedeutung und Wichtigkeit des Scaling Laws (Vergrößerungsgesetzes, das wichtigste technische Prinzip von Großmodellen) betont.

Aber jetzt erklärt er auch klar, dass ein Paradigmenwechsel in der Industrie stattfindet: von der ursprünglichen Erweiterung der Berechnungs- und Parametergrößenverhältnisse hin zu einem technikzentrierten Ansatz mit verstärktem Lernen, der auf die Verbesserung der Intelligenz des Modells abzielt.

“Die Entwicklung der KI ist wie eine Schaukel, wir wechseln immer wieder zwischen zwei Zuständen: Manchmal sind Algorithmus und Daten bereit, aber die Rechenleistung reicht nicht aus, dann müssen wir die Rechenleistung erhöhen; aber heute erkennen wir, dass das ständige Erhöhen der Rechenleistung möglicherweise nicht mehr direkt die Probleme löst, also müssen wir den Algorithmus ändern, um diesen Engpass zu durchbrechen.” erklärt Yang Zhiling.

Der Grund für die heutige Veröffentlichung des mathematischen Modells K0-math hat ebenfalls einen besonderen Hintergrund: Der 16. November ist der Jahrestag des ersten Produkts von "Dark Side of the Moon", Kimi Chat.

In den letzten zwei Jahren war "Dark Side of the Moon" eines der genau beobachteten AI-Startups in China. Von der explodierenden Popularität des Kimi-Assistenten 2023 bis zum schnellen Werbewachstum 2024 und den jüngsten Arbitragekontroversen war das Team stets im Mittelpunkt und wanderte wie im Nebel.

Doch jetzt scheint "Dark Side of the Moon" nicht mehr auf alles antworten zu wollen. Bei der Pressekonferenz sprach Yang Zhiling nur über das neue Modell und technische Fragen und gab einfach eine Zahl bekannt: Bis Oktober 2024 hat Kimi 36 Millionen monatlich aktive Nutzer erreicht.

△ Neueste Nutzerdaten von Kimi Bildquelle: Foto des Autors

“Ich bleibe weiterhin optimistisch.” Yang Zhiling prognostiziert: Der Paradigmenwechsel in der Branche bedeutet nicht, dass der vortrainierte Modus, der auf Skalierung basiert, völlig seine Wirksamkeit verliert – die Spitzenmodelle können in der nächsten halben bis ganzen Generation noch viel Potenzial durch Vortraining ausschöpfen.

Und mit der weiteren Verbesserung der Denkfähigkeit des Modells bedeutet dies auch, dass Großmodelle weiter im Einsatz sein und spezifische Aufgaben in verschiedenen Bereichen lösen können.

Nachfolgend sind weitere Aussagen und Antworten von Yang Zhiling telefonisch bei der Pressekonferenz von "Emerging Intelligence" zusammengefasst:

Die Entwicklung der KI ist wie eine Schaukel, im Grunde muss man mit dem Scaling befreundet sein

Q: Wird der Wechsel zu einem verstärkten Lernansatz dazu führen, dass Daten in der Modelliteration zu einer größeren Herausforderung werden?

Yang Zhiling: Das ist in der Tat das Kernproblem des verstärkten Lernansatzes. Früher bei der Vorhersage des nächsten Feldes verwendeten wir in der Regel statische Daten, wir hatten ausgereifte Technologien für die Datenfilterung, -bewertung und -auswahl.

Aber beim verstärkten Lernansatz werden alle Daten selbst generiert (zum Beispiel einige Denkprozesse). Wenn das Modell denkt, muss es wissen, ob die Idee richtig oder falsch ist, und das stellt höhere Anforderungen an das Belohnungsmodell des Modells. Wir müssen auch viel Abstimmungsarbeit leisten, um diese Probleme in gewissem Maße zu unterdrücken.

Q: Wie balancieren Sie den Prozess der Modelliteration zwischen der vorherigen Skalierung des Rechenleistungspfades und dem verstärkten Lernen?

Yang Zhiling: Ich denke, die Entwicklung der KI ist ein Schaukelprozess, bei dem man zwischen zwei Zuständen hin und her wechselt. Wenn Ihr Algorithmus und Ihre Daten bereit sind, aber Ihnen die Rechenleistung fehlt, dann müssen Sie mehr ingenieurtechnische Arbeiten durchführen, die Infrastruktur verbessern, damit sie kontinuierlich wächst.

Vom Aufkommen von Transformer bis zu GPT-4 sehe ich, dass im Wesentlichen der Konflikt mehr darin lag, wie man skalieren kann, während es bei Algorithmus und Daten möglicherweise keine wesentlichen Probleme gab.

Aber heute, wenn das Skalieren fast abgeschlossen ist, erkennt man, dass das Hinzufügen von mehr Rechenleistung möglicherweise nicht direkt die Probleme lösen kann, und die Kernfrage ist, dass es nicht mehr viele qualitativ hochwertige Daten gibt, ein paar Dutzend T Token ist die Obergrenze von über 20 Jahren menschlicher Internetakkumulation.

Daher müssen wir durch Algorithmusänderungen verhindern, dass dies zum Engpass wird. Alle guten Algorithmen sind Freunde des Scaling, um sein größeres Potenzial freizusetzen.

Wir haben sehr früh damit begonnen, verstärkte Lernmethoden zu erforschen, und ich denke, dies ist ein wichtiger Trend, der darauf abzielt, Zielveränderungen, Lernmethoden zu ändern und sie kontinuierlich zu skalieren.

Q: Wird der nicht-Transformer-Weg dieses Problem lösen?

Yang Zhiling: Nein, denn das eigentliche Problem liegt nicht in der Architektur, sondern in einem Lernalgorithmus oder dem Fehlen eines Lernziels. Die Architektur hat meiner Meinung nach kein wesentliches Problem.

Q: Was ist mit den Kosten für Überlegungen, wenn die Matheversion online zur Kimi Explorationsversion kommt? Können die Benutzer verschiedene Modelle auswählen oder wird die Zuordnung basierend auf den Fragen vorgenommen? Und Ihr Hauptgeschäftsmodell ist jetzt Trinkgeld statt Abonnement, wie balancieren Sie die Kostenproblematik?

Yang Zhiling: Wahrscheinlich wird es in der nächsten Version darauf hinauslaufen, dass die Benutzer selbst wählen können. Anfangs kann man die Erwartungen der Benutzer besser erfüllen, indem man diesen Ansatz wählt, wir möchten nicht, dass das Modell lange über 1+1 nachdenkt. Deshalb könnte dieser Ansatz am Anfang sinnvoller sein.

Aber letztlich ist das vielleicht ein technisches Problem. Einerseits können wir dem Modell optimalen Rechenressourcen dynamisch zuweisen, wenn es klug genug ist. Es kann wissen, welche Aufgaben mit welcher Denkzeit übereinstimmen, ähnlich wie bei uns, die auch nicht stundenlang über einfachere Aufgaben nachdenken würden.

Andererseits sind die Kosten ebenfalls auf einem kontinuierlichen Rückgang. Zum Beispiel benötigen Sie, wenn Sie in diesem Jahr das Niveau des letztjährigen GPT-4-Modells erreichen, möglicherweise nur zig Milliarden Parameter, während Sie im letzten Jahr über hundert Milliarden benötigten. Ich denke, das ist allgemeiner Trend in der Branche, entweder größer oder kleiner zu werden.

Q: Wird die Scaling-Law-Geschichte die AI-Community einschränken?

Yang Zhiling: Ich bin ein wenig optimistischer. Der Kern liegt darin, dass Sie von einem statischen Datensatz ausgehen, der relativ einfach und brutal zu verwenden ist. Und im verstärkten Lernansatz sind viele Menschen am Prozess beteiligt.

Wenn Sie zum Beispiel 100 Datenpunkte markieren, können Sie eine sehr große Wirkung erzielen. Der Rest erfolgt durch selbständiges Denken des Modells, und ich denke, dies wird in Zukunft häufiger auf diese Weise gelöst.

Ein deterministisches Ergebnis beim Ansatz des verstärkten Lernens ist unverkennbar, das Problem besteht oft darin, wie man das Modell tatsächlich implementiert. Ich denke, die Obergrenze ist hoch.

Q: Sie sagten letztes Jahr, dass Langtexte der erste Schritt zur Mondlandung seien. Was denken Sie, welche Stufe Matthäusmodelle und tiefes Denken erreichen?

Yang Zhiling: Es ist der zweite Schritt.

Q: Der Skalierungsansatz in der Vortraineierung wird jetzt als an eine Grenze gekommen angesehen. Welche Auswirkungen hat dies Ihrer Meinung nach auf die Landschaft der großen Modelle zwischen China und den USA? Wird der Unterschied größer oder kleiner?

Yang Zhiling: Ich denke immer, dass dieser Unterschied relativ konstant bleibt. Für uns kann es eine gute Sache sein.

Angenommen, Sie trainieren ständig vor, Ihr Budget beträgt dieses Jahr 1Billion, nächstes Jahr 10Billion oder 100Billion. Es ist möglicherweise nicht nachhaltig.

Natürlich müssen Sie auch nach dem Training skalieren, nur dass der Startpunkt niedriger ist. Eine lange Zeit kann die Rechenleistung kein Engpass sein, während die Innovationsfähigkeit wichtiger wird. In diesem Fall ist das für uns eher ein Vorteil.

Q: Ist die Funktion des tiefen Denkens, die Sie früher veröffentlicht haben, einschließlich der heute vorgestellten mathematischen Modelle, eine Fähigkeit, die weit von den alltäglichen Benutzern entfernt ist? Was halten Sie von der Beziehung zwischen dieser Funktion und den Benutzern?

Yang Zhiling: Tatsächlich nicht.

Ich denke, es gibt zwei Aspekte des Wertes. Der erste Aspekt ist, dass das mathematische Modell heute im Bildungsbereich einen sehr großen Wert hat und in unserem gesamten Traffic eine wichtige Rolle spielt.

Zweitens denke ich, dass es sich um eine technologische Iteration und ein Validierungsverkork handelt, und wir können diese Technologie auf weitere Szenarien anwenden. Zum Beispiel können wir die Explorationsversion verwenden, um viele Suchen zu machen, und ich denke, es gibt zwei Bedeutungen.

Einfache Produktform beibehalten, das höchste Karten-Menschen-Verhältnis beibehalten

Q: Alle diskutieren nun über AI-Anwendungen. Eine Super-App ist noch nicht erschienen, und eine große Anzahl von AI-Anwendungen ist sehr homogen. Was denken Sie dazu?

Yang Zhiling: Ich denke, die Super-App ist bereits erschienen. ChatGPT hat über 500 Millionen monatlich aktive Nutzer, könnte man es als Super-App bezeichnen? Zumindest ist es das halbe. Diese Frage wurde in gewissem Maße validiert.

Sogar Charaktererstellen hat zu Beginn eine große Benutzerzahl, ist aber später noch nicht bekannt. In diesem Prozess werden wir auch je nach den US-Marktbedingungen bewerten, welches Unternehmen letztendlich am größten wird und die höchste Wahrscheinlichkeit hat, erfolgreich zu sein.

Wir werden uns nach wie vor auf die Dinge konzentrieren, die unserer Meinung nach das höchste Limit haben, und die auch am meisten mit unserer AIG-Mission verbunden sind.

Q: Was denken Sie über die Phänomene der Übernahme von AI-Startup-Unternehmen, der Abwanderung von Talenten und des Rückstroms zu großen Unternehmen in der gesamten Branche?

Yang Zhiling: Wir sind nicht auf dieses Problem gestoßen, aber vielleicht sind andere Unternehmen betroffen. Ich halte es für normal, da die Branche ein neues Stadium erreicht hat, in dem es ursprünglich viele Unternehmen gab und nun weniger sind.

In der Zukunft werden die Dinge, die Unternehmen tun, allmählich unterschiedlich, und ich denke, das ist ein notwendiges Gesetz. Einige Unternehmen überleben nicht, was diese Probleme mit sich bringt, und dies unterstreicht meiner Meinung nach den Gesetz der Branchenentwicklung.

Q: Sie sprechen selten über den Status des Modelltrainings. Wie ist jetzt Ihr Vortrainingsstand?

Yang Zhiling: Lassen Sie mich das erste Problem ansprechen. Ich denke, es gibt noch Raum für Vortraining. Ungefähr eine halbe bis ganze Generation der Modelle wird nächstes Jahr freigesetzt. Nächstes Jahr denke ich, dass führende Modelle das Vortraining auf einem ultimativen Stand bringen werden.

Aber wir denken, dass der wichtigste Punkt in verstärktes Lernen liegt, also wird im Paradigma eine Änderung stattfinden. Im Wesentlichen handelt es sich nach wie vor um Skalierung, es bedeutet nicht, dass Sie nicht skalieren. Es ist nur, dass durch unterschiedliche Wege skaliert wird, was unsere Einschätzung ist.

Über die Zukunft, Wettbewerb, Expansion nach Übersee

Q: Sora wird bald ein Produkt veröffentlichen. Wann werden Sie multimodale Produkte veröffentlichen? Was denken Sie über Multimodalität?

Yang Zhiling: Wir arbeiten auch daran. Einige unserer multimodalen Funktionen sind in der internen Erprobung.

In Bezug auf Multimodalität denke ich, dass die wichtigsten Fähigkeiten der AI in Zukunft das Denken und die Interaktion sind. Die Bedeutung des Denkens übersteigt die der Interaktion.

Es ist nicht so, dass Interaktion unwichtig ist, sondern dass Denken die Obergrenze bestimmt. Interaktion ist eine notwendige Bedingung, zum Beispiel bei Vision, ohne die visuelle Fähigkeit wäre Interaktion nicht möglich.

Das Denken ist wie folgt – man betrachtet die Schwierigkeit der Aufgaben. Achten Sie auf die Schwierigkeit der Aufgaben im Hinblick auf die Kennzeichnung, benötigen Sie eine Person mit Promotion, um diese zu kennzeichnen? Oder kann sich jeder daran beteiligen? Welche Aufgabe ist schwieriger identifizierbar? Das bestimmt das AI-Potenzial.

Q: Wie stehen Sie zur Konkurrenz mit Doubao und anderen AI-Anwendungen?

Yang Zhiling: Wir konzentrieren uns weiterhin darauf, den wahren Wert für den Benutzer zu schaffen, anstatt uns zu sehr auf den Wettbewerb selbst zu konzentrieren, da der Wettbewerb selbst keinen Wert schafft.

Wie man die Denk- und Argumentationsfähigkeit des Modells verbessert, ist die Kernfrage, die uns derzeit beschäftigt. Durch diese Funktion den Benutzern einen größeren Wert zu bieten, bedeutet, das Richtige zu tun und sich nicht ausschließlich auf Unterschiede zu konzentrieren. Ich glaube, solange jemand AGI erreicht, ist das für alle ein großartiger Erfolg.

Q: Wann haben Sie entschieden, sich nur auf Kimi zu konzentrieren?

Yang Zhiling: Etwa im Zeitraum März oder April dieses Jahres. Diese Entscheidung basierte auf unserer Beobachtung des USMarktes. Wir mussten Reduzierungen vornehmen und nicht endlose Erweiterungen.

Q: Warum?

Yang Zhiling: In den letzten zwei Jahren haben wir uns bewusst entschieden, Geschäftsbereiche abzubauen. Ich halte das für sehr wichtig und eine der größten Lehren, die wir aus der Vergangenheit gelernt haben.

Wir haben zu Beginn auch versucht, mehrere Produkte gleichzeitig zu entwickeln, was in bestimmten Perioden effektiv sein kann. Aber letztendlich müssen wir Fokus setzen und eine extreme Ausarbeitung erreichen.

Das Streichen von Geschäftsbereichen dient letztlich auch dazu, die Personenzahl zu kontrollieren. Unter den großen Modell-Startup-Unternehmen halten wir stets die geringste Personenzahl und das höchste Verhältnis von Karten zu Menschen bei. Das ist aus meiner Sicht entscheidend.

Wir hoffen nicht, unser Team soweit zu erweitern, dass es das Innovationspotenzial gefährdet. Wenn wir drei Geschäftsbereiche gemeinsam betreiben, verwandeln wir uns selbst in ein Großunternehmen und verlieren unsere Vorteile.

Q: Was ist derzeit Ihre Kernaufgabe?

Yang Zhiling: Die Kernaufgabe besteht darin, die Bindung zu verbessern und sie als einen wichtigen Bewertungsmaßstab zu betrachten.

Ich denke, die Benutzerbindung und die Reife und Technologie des Modells sind ein positiver Zusammenhang.

Auch die Denkfähigkeit ist noch nicht stark genug, die Interaktion ist nicht ausreichend umfangreich, sodass die heutigen Interaktionsmöglichkeiten noch begrenzt sind. Sowohl die Interaktion mit den Benutzern als auch die mit der objektiven Welt hat noch erhebliches Potenzial zur Verbesserung.

Wenn wir die Entfernung zum Ziel der AGI messen, würde ich sagen, dass wir uns immer noch in einer frühen Phase befinden. Natürlich gibt es jedes Jahr bedeutende Fortschritte, aber im Vergleich zu den Vorjahresprodukten würde man feststellen, dass diese möglicherweise vollkommen unerträglich erscheinen.

Q: Wie denken Sie derzeit über das Problem der Expansion?

Yang Zhiling: Ich denke, wir sollten uns zunächst auf die Konzentration, dann auf die Globalisierung fokussieren, was uns mehr Geduld abverlangt.

Q: In letzter Zeit spricht jeder über das Problem der Anzeigenwerbung für Großmodelle. Wie gelingt Ihnen eine für uns sinnvolle Kommerzialisierung?

Yang Zhiling: Ich denke, dafür gibt es sicherlich Möglichkeiten, aber für uns steht jetzt die Benutzerbindung an vorderster Stelle, und diese muss langfristig betrachtet werden. Mindestens muss das ROI positiv sein, was eng mit dem technologischen Fortschritt verknüpft ist.

Für uns ist das entscheidendste, die Benutzerbindung und das organische Wachstum sicherzustellen. Angemessene Werbung ist notwendig, aber man muss die Balance zwischen diesen Aspekten finden.

Willkommen zum Austausch