Xiaomi Rolli: Fable 5 ist nur ein Zwischenergebnis
Zhidx berichtete am 12. Juni, dass gerade eine weitere wichtige Diskussion in der KI - Szene stattfand. Auf der 8. Zhiyuan - Konferenz saßen 4 KI - Experten aus Xiaomi, Shengshu Technology, Mianbi Intelligence und der Nanyang Technischen Universität zusammen und führten eine fast 50 - minütige tiefe Diskussion durch, in der sie von dem derzeit sehr beliebten Claude Fable 5 bis hin zu KI - Selbstentwicklung und KI - Coding alles besprachen.
Die Diskussion "Wiederaufbau der Welt - Spitzen - Diskussion über chinesische Large Language Models" wurde von Wang Zhongyuan, dem Direktor des Zhiyuan - Instituts, moderiert. Luo Fuli, die Leiterin des MiMo - Teams von Xiaomi, Zhu Jun, Professor der Fakultät für Informatik der Tsinghua - Universität und Gründer von Shengshu Technology, Liu Zhiyuan, Mitbegründer und Chefwissenschaftler von Mianbi Intelligence sowie Professor an der Tsinghua - Universität, und An Bo, Professor an der Nanyang Technischen Universität und Direktor des Interdisziplinären Instituts für Künstliche Intelligenz, diskutierten offen über die aktuellen KI - Trends und gaben am Ende den Jugendlichen Ratschläge.
▲ Der Abschnitt "Wiederaufbau der Welt - Spitzen - Diskussion über chinesische Large Language Models" auf der Zhiyuan - Konferenz
Was das derzeit in der Branche heiß diskutierte Claude Fable 5 angeht, hält Luo Fuli es im Wesentlichen für ein natürliches Ergebnis der kontinuierlichen Expansion. Es ist ein vorläufiges Ergebnis der kontinuierlichen Erweiterung in den drei Dimensionen Vorhersage - Trainingsumfang, Datenumfang und Verstärkendes Lernen. Ihre Empfindung gegenüber der gegenwärtigen KI ist, dass die Entwicklung von Large Language Models und AGI so schnell ist, dass selbst sie als Fachkräfte davon beeindruckt sind.
Das Thema der Token - Ökonomie bleibt heiß. Zhu Jun meint, dass in der Vergangenheit bei der Lösung von Problemen mit Agenten oder KI - Coding oft eine große Anzahl von Tokens verbraucht wurde. Die Token - Konsumrate des neuen Modells in Aufgaben ist gesunken, was ein richtiger Weg ist.
Liu Zhiyuan hat den Grund für den Erfolg von Anthropic und sogar die Tatsache, dass dessen Schätzung OpenAI übersteigt, aufgedeckt. Er meint, dass Anthropic den sehr wichtigen Bereich des Codes gefunden hat und in Zukunft in der Fachwelt einen Daten - Closed - Loop bilden kann, was die Anwendung von KI beschleunigen wird. Er sagte auch, dass die intelligente Revolution darin besteht, die mechanischen und repetitiven geistigen Arbeiten des Menschen durch KI zu ersetzen, und die Kernantriebskraft für die KI - Produktion von KI immer noch der Mensch ist.
Was die Selbstentwicklung von KI angeht, meint An Bo, dass wenn die Fähigkeiten der KI noch schwach sind, ein wichtiges Prädikat für die Durchführbarkeit der Selbstentwicklung von KI ein nicht vollständig geschlossenes Umfeld ist. Wenn man versucht, einen Daten - Flywheel in einem vollständig geschlossenen System aufzubauen, ist es schwer, dies zu verwirklichen.
Am Ende gaben die vier Experten den Jugendlichen Ratschläge:
Luo Fuli: Behalte die Lust nach Entdeckung und die Neugierde und nutze so intensiv wie möglich die neuesten Large Language Models; Liu Zhiyuan: Sei mutig genug, den Weg zu gehen, den andere noch nicht gegangen sind, halte langfristig durch und verbessere dich ständig; Zhu Jun: Umarm diesen Zeitraum aktiv und nutze die KI; An Bo: Wähle den richtigen Bereich und mache wichtige Dinge, das ist sehr wichtig.
Im Folgenden finden Sie die Transkription dieser Diskussion. Zhidx hat die Transkription zur besseren Lesbarkeit bearbeitet, ohne den ursprünglichen Sinn zu verändern:
01. Die neuesten Interessensgebiete der vier Experten: Selbstentwicklung, Weltmodelle, Intelligenzdichte und Harness
Wang Zhongyuan: Guten Morgen, liebe Freunde. Diejenigen, die sich schon seit langem für die Zhiyuan - Konferenz interessieren, werden bemerkt haben, dass wir in den vergangenen zwei Jahren bei der Eröffnungsveranstaltung immer einen sehr beachteten Round - Table - Abschnitt hatten. Vor zwei Jahren diskutierten wir über "Der Weg zur AGI", und letztes Jahr über "Der Embodied - Chat". In diesen Round - Tables laden wir immer repräsentative Experten und Wissenschaftler aus der Branche ein, um die neuesten Fragen im Bereich der KI gemeinsam zu besprechen.
Das Thema dieser Jahre Round - Table - Diskussion ist "Wiederaufbau der Welt". Warum "Wiederaufbau der Welt"? Weil wir uns an einem neuen historischen Wendepunkt befinden. Künstliche Intelligenz ist nicht mehr nur ein Werkzeug zur Transformation einer bestimmten Branche, sondern wird zur grundlegenden Kraft für den Wiederaufbau der Welt. KI - Coding, autonome Agenten und Modell - Selbstentwicklung eröffnen die Möglichkeit, dass KI KI schafft.
Weltmodelle, Embodied Intelligence und Roboter erweitern die Intelligenz vom digitalen in die physische Welt. Die zukünftige wichtige Konkurrenz wird daraus bestehen, wer zuerst in der Lage ist, die Fähigkeit zu erwerben, Intelligenz zu schaffen, zu beherrschen und die Realität durch Intelligenz neu zu gestalten. Deshalb definieren wir diese Round - Table - Diskussion als "Wiederaufbau der Welt".
Bevor wir offiziell starten, bitten wir die vier Gäste, sich kurz vorzustellen und über ein oder zwei aktuelle technische Fragen zu sprechen, die sie besonders interessieren.
Luo Fuli: Hallo, ich bin Luo Fuli, Leiterin des Xiaomi MiMo - Large - Language - Model - Teams. Die Entwicklung der KI ist derzeit sehr dynamisch, und es ist schwer, sie mit einem Wort zu beschreiben. Das Thema, das mich derzeit am meisten interessiert, ist die Selbstverbesserung, insbesondere der Bereich des Auto - Research.
Zhu Jun: Hallo, ich bin Zhu Jun von der Tsinghua - Universität. Derzeit arbeite ich auch an allgemeinen Weltmodellen. Derzeit interessiere ich mich besonders für die auf Videos basierende Modellarchitektur und wie man mit solchen Modellen in die physische Welt eintreten und das Verständnis, die Vorhersage und die Handlungsfähigkeit in der Welt verbinden kann.
Liu Zhiyuan: Hallo, ich bin Liu Zhiyuan, Professor an der Fakultät für Informatik der Tsinghua - Universität, Mitbegründer und Chefwissenschaftler von Mianbi Intelligence. Derzeit interessieren wir uns besonders für das "Gesetz der Intelligenzdichte von Large Language Models". Wir möchten die Intelligenzdichte der Modelle immer höher trainieren, um die Fähigkeiten der Modelle zu verbessern und schließlich verschiedene intelligente Endgeräte zu unterstützen.
An Bo: Hallo, ich bin An Bo von der Nanyang Technischen Universität und habe auch einige Nebenjobs in der Industrie. Derzeit interessieren wir uns für Agent Harness. Bei gegebener Fähigkeit des Basismodells möchten wir wissen, wie man durch einen besseren Harness - Mechanismus eine stärkere Inferenzfähigkeit erzielen kann.
02. Wie beurteilt man Claude Fable 5? Es ist im Wesentlichen ein Ergebnis der kontinuierlichen Expansion
Wang Zhongyuan: Wie die vorigen Lehrer bereits erwähnt haben, entwickelt sich die Technologie immer noch sehr schnell. Lassen Sie uns zunächst über das vor zwei Tagen veröffentlichte Fable 5 sprechen. Das neueste von Anthropic veröffentlichte Fable 5 hat in der Programmierfähigkeit und der Agentenfähigkeit deutliche Verbesserungen gezeigt. Die offiziell geteilten Beispiele zeigen, dass ein Code - Repository mit 50 Millionen Codezeilen, wenn es von einem menschlichen Team migriert werden soll, einen Monat dauern würde, während es mit Fable 5 nur einen Tag braucht.
Ich möchte bitten, dass jeder von Ihnen seine Meinung über dieses Modell und die neuesten Fortschritte im Bereich KI - Coding äußert. Handelt es sich bei der gegenwärtigen Entwicklung immer noch um eine quantitative Akkumulation oder sind wir nahe an einem qualitativen Wendepunkt? Und da alle von Ihnen Modelle trainieren, steigen die Fähigkeiten der Modelle immer noch beschleunigt an? Zuerst bitte ich Luo Fuli.
Luo Fuli: In meiner Ansicht ist die derzeit gezeigte Fähigkeit von Fable 5 im Wesentlichen immer noch ein natürliches Ergebnis der kontinuierlichen Expansion.
Zunächst die Expansion in der Vorhersage - Trainingsphase. Wir vermuten, dass die Parameteranzahl von Fable 5 möglicherweise ein Vielfaches der Anzahl der Parameter des derzeit stärksten Open - Source - Modells beträgt. Zweitens wurde auch in der Test - Time - Expansion und im Verstärkenden Lernen eine große Menge an Rechenleistung investiert. Darüber hinaus hat sich mit der Übergang der Branche von Chat zur Agenten - Ära auch die Trainingsdaten geändert. Das Modelltraining erstreckt sich von Internet - Textdaten auf synthetische Daten, die von Menschen und Agenten gemeinsam erzeugt werden, und der Datenumfang hat ein neues Niveau erreicht. In der Vergangenheit lag die Anzahl der einzigartigen Tokens in Internet - Textdaten zwischen 40T und 80T, und jetzt hat der Datenumfang ein neues Niveau erreicht.
Deshalb denke ich, dass Fable 5 ein vorläufiges Ergebnis der kontinuierlichen Erweiterung in den drei Dimensionen Vorhersage - Trainingsumfang, Datenumfang und Verstärkendes Lernen ist.
▲ Luo Fuli, Leiterin des Xiaomi MiMo - Teams
Wang Zhongyuan: Also denken Sie, dass es immer noch ein Zwischenmodell ist?
Luo Fuli: Ja. Mindestens aus den zuvor genannten Dimensionen betrachtet, haben diese Prozesse noch nicht gestoppt, und die entsprechende Expansion ist immer noch im Gange.
Wang Zhongyuan: Das Xiaomi MiMo hat sich kürzlich auch sehr gut bewährt und hat auf OpenRouter eine hohe Platzierung erreicht. Aus Ihrer Beobachtung heraus: Steigt die Fähigkeit von Large Language Models eher linear oder exponentiell?
Luo Fuli: Es ist schwer, es mit einer festen Kurve zu beschreiben. Denn die Verbesserung der Modellfähigkeiten ist oft ein Emergenz - Prozess. Sowohl auf verschiedenen Expansionswegen als auch in verschiedenen Phasen können wir ähnliche Emergenz - Phänomene beobachten. Deshalb ist es schwer, es einfach mit linearer oder exponentieller Steigerung zu beschreiben.
Wang Zhongyuan: Bitte, Herr Zhu.
Zhu Jun: Ich habe selbst keine Sprachmodelle trainiert, also ist Luo Fuli in dieser Frage möglicherweise besser informiert als ich. Aber aus den Rückmeldungen meiner Kollegen und Studenten geht hervor, dass die meisten der Meinung sind, dass Fable 5 im Vergleich zur vorherigen Generation deutliche Verbesserungen aufweist. Manche sagen sogar scherzend, dass sie sich früher als Lehrer fühlten, aber jetzt das Modell wie ein Lehrer wirkt. Aus unserer eigenen Erfahrung bei der Erstellung von Video - Modellen und Weltmodellen wissen wir, dass die Leistung noch deutlich verbessert werden kann, wenn der Modellumfang und der Datenumfang kontinuierlich erweitert werden.
In den letzten zwei Jahren haben wir in der Modellierung von physikalischen Gesetzen, der Simulation und der Weltmodellierung sehr deutliche Fortschritte gemacht. Anfangs waren die Halluzinationsprobleme sehr häufig, aber heute können wir hochwertige, professionelle Inhalte generieren, die in vielen Szenarien für praktische Zwecke geeignet sind. Diese Fortschritte basieren im Wesentlichen auf demselben Weg: größere Modelle, höherwertige Daten und größere Trainingsumfänge.
Wenn das Modell in die physische Welt voranschreitet, wird oft die Frage gestellt, ob das Modell tatsächlich physikalische Gesetze lernen kann. Meiner Meinung nach wird es mit der kontinuierlichen Verbesserung der Fähigkeiten des Basis - Modells effizienter sein, strenge Logik, physikalische Gesetze und das Verständnis der 3D - Welt zu lernen. In vielen zukünftigen Szenarien ist keine extrem genaue physikalische Simulation erforderlich, und viele Aufgaben können bereits mit einem intuitiven Verständnis erledigt werden. Dies ist der wichtige Wert, den Large Language Models bringen.
Was Fable 5 selbst angeht, muss ich es noch näher ausprobieren, um eine genauere Bewertung abgeben zu können. Aber ich stimme einem Punkt sehr zu: In der Vergangenheit verbrauchten Agenten oder KI - Coding bei der Lösung von Problemen oft eine große Anzahl von Tokens, während das neue Modell in Unternehmensaufgaben deutlich weniger Tokens verbraucht. Ich denke, dass dies eine sehr richtige Entwicklung ist. Bei vielen komplexen Aufgaben sollte das Modell höhere Intelligenz einsetzen, um Werkzeuge aufzurufen und die Inferenz zu organisieren, anstatt einfach auf eine größere Anzahl von Tokens zu setzen. Dies ist ein wichtiger Weg, um den Wert von Large Language Models in Zukunft weiter zu entfalten.
Wang Zhongyuan: Vielen Dank, Herr Zhu. Ich möchte eine Follow - up - Frage stellen. Wir sehen, dass das Scaling - Paradigma bei Large Language Models immer noch besteht und die Leistung noch steigt. Hat das Scaling von Video - Generierungsmodellen bereits seine Grenzen erreicht oder können wir auch weiterhin mehr Daten hinzufügen und größere Modelle bauen, um eine bessere Leistung zu erzielen?
Zhu Jun: Ich denke, dass bei Video - und Weltmodellen der Prozess noch im Gange ist und das Potenzial sehr groß ist.
Jüngst hat sich viel Aufmerksamkeit auf das neue Modell von Seedance gerichtet. Aus den geteilten Informationen geht hervor, dass es bei der Skalierung der Architektur aggressiver ist als die vorherigen Modelle und sehr deutliche Ergebnisse erzielt hat. Wenn wir auf allgemeinere Weltmodelle ausweiten, glaube ich, dass der Weg der Skalierung noch lang ist. Vielleicht wird derzeit die Menge an physischen Daten erhöht, die Daten effizienter genutzt oder die Architektur optimiert. Ich denke, dass dies erst den Anfang markiert und es noch viel zu erforschen gibt.