Zhipu AI CEO Zhang Peng: Es ist zu früh, sich Sorgen zu machen, dass das Scaling Law an seine Grenzen stößt | WISE2024 König der Unternehmen
Die Umwelt verändert sich ständig, die Zeiten ändern sich kontinuierlich, und die "Könige des Geschäfts" folgen den Wellen der Zeit, streben nach Innovation und suchen nach neuen Antriebskräften. Angesichts des umfassenden wirtschaftlichen Wandels in China, auf der WISE2024-Konferenz für die Könige des Geschäfts, entdecken wir gemeinsam die wirklich widerstandsfähigen "Könige des Geschäfts" und erkunden, was im chinesischen Wirtschaftsrhythmus das "Richtige" ist.
Am 28. und 29. November findet die zweitägige WISE2024-Konferenz der Könige des Geschäfts von 36Kr in Peking statt. Als Allstar-Event im chinesischen Geschäftsbereich findet die WISE-Konferenz in diesem Jahr bereits zum zwölften Mal statt und zeugt in einer sich ständig wandelnden Zeit von der Widerstandsfähigkeit und dem Potenzial der chinesischen Wirtschaft.
2024 ist ein Jahr, das etwas verschwommen und eher durch Veränderung als Stabilität geprägt ist. Im Vergleich zu den letzten zehn Jahren haben sich die Schritte verlangsamt und die Entwicklung ist rationaler geworden. 2024 ist auch ein Jahr, in dem neue wirtschaftliche Antriebskräfte gesucht werden, und die neuen industriellen Veränderungen stellen hohe Anforderungen an die Anpassungsfähigkeit jedes Einzelnen. Dieses Jahr steht die WISE-Konferenz unter dem Motto "Hard But Right Thing (Das Richtige tun)" und in 2024 stellt sich uns die Frage, was das Richtige ist, um darüber zu diskutieren.
Am Vormittag der WISE-Veranstaltung hielt Zhang Peng, CEO von Zhipu, einen Vortrag zu den jüngst diskutierten Themen im Bereich KI und den Entwicklungsstadien der KI mit dem Titel "GLM-Großmodell und General Artificial Intelligence".
Zhipu AI ist ein aufstrebendes Star-Startup im Bereich der großen Modelle in China. Bereits vor der Einführung von OpenAI's ChatGPT, als in China noch wenige Menschen tief in das Gebiet der großen Modelle vorgedrungen waren, begann Zhipu AI mit der Erforschung von großen Modellen.
Das GLM-Großmodell als wichtige Grundlage der General Artificial Intelligence vereint nicht nur die leistungsfähigen Rechenkapazitäten und Generalisierungsfähigkeiten des Deep Learnings, sondern zeigt auch in Bereichen wie semantisches Verstehen und Wissenserschließung herausragende Leistungen.
In seinem Vortrag blickte Zhang Peng nicht nur auf die klassische Entwicklungskurve im Bereich der künstlichen Intelligenz zurück, sondern erklärte auch die aktuellen beliebten Themenfelder im Bereich der großen Modelle, wie das Aufeinandertreffen auf die Scaling Laws und die Verzögerung im Entwicklungsfortschritt großer Modelle.
Zhang Peng sagte, dass diese Generation von großen Modellen im Wesentlichen, aus der Perspektive von Forschung und Technik, nicht wie die Vorgängertechnologie der künstlichen Intelligenz ist. Mit der erheblichen Verbesserung der Sprachfähigkeiten gibt es bei großen Modellen auch im Bereich anderer Modalitäten, wie Visuelles und Hören, noch viel Entwicklungspotential.
"Eine Vielzahl von Forschern arbeitet an neuen Durchbrüchen, wobei jeder Durchbruch neue Möglichkeiten mit sich bringt. Dass wir uns Sorgen machen, an die Decke zu stoßen oder gegen eine Wand zu laufen, ist tatsächlich etwas verfrüht", sagte Zhang Peng.
Außerdem stellte Zhang Peng die fünf Entwicklungsphasen der KI vor, einschließlich der Sprachfähigkeiten, des logischen Denkens, der Werkzeugnutzung und der Fähigkeit zum selbständigen Lernen.
Zhang Peng
Im Folgenden ist das Transkript von Zhang Pengs Vortrag wiedergegeben:
Zhang Peng: Guten Tag allerseits! Es ist bereits nach zwölf, und während es draußen kalt ist, herrscht drinnen noch eine heiße Stimmung. Wer jetzt hier ist, um mir zuzuhören, der muss wirklich ein wahrer Fan sein.
Heute auf dem Weg hierhin dachte ich daran, worüber ich mit Ihnen sprechen soll. Unsere Marketingabteilung hat frühzeitig Anforderungen gestellt, die wir dem Veranstalter übergeben haben. Möglicherweise handelt es sich dabei um einige Inhalte, die wir zuvor vorbereitet haben.
In den letzten zwei Tagen haben sich neue Themen herauskristallisiert, darunter die Frage, ob Scaling Laws bereits an ihre Grenzen gestoßen sind und ob große Modelle weitergehen werden. Es gibt viele Meinungen, und ich werde oft zu diesen Fragen gestellt. Daher werde ich möglicherweise nicht alle Inhalte hier vortragen, sondern Ihnen unsere neuesten Überlegungen mitteilen.
Dies ist die Mitte des Jahres veröffentlichte Kurve über die künstliche Intelligenz, auf der viele Begriffe in Bezug auf KI und große Sprachmodelle zu sehen sind. Diese Begriffe nehmen unterschiedliche Positionen ein und repräsentieren das öffentliches Interesse an dem Thema. Meiner Meinung nach ähnelt dies zunehmend einer Kurve der öffentlichen Meinung und Medienpräsenz, statt einer führenden technischen Entwicklungsrichtung.
Wie Sie sehen können, gibt es hier viele neue Dinge, darunter verkörperte Intelligenz, Agententechnologien und andere Techniken, die sich nach wie vor auf einer sehr schnell aufsteigenden Kurve befinden. Aus dieser Perspektive betrachtet, befindet sich die derzeitige Entwicklung im Bereich der künstlichen Intelligenz nach wie vor auf einem sehr schnellen Wachstumsweg.
Daher ist die Sorge, dass die gesamte Branche aufgrund eines Aufpralls auf die Scaling Laws plötzlich in ein Tal stürzt, vielleicht übertrieben. So wie wir uns sorgen, dass die künstliche Intelligenz die Menschheit beherrscht, ist dies noch etwas verfrüht. Wir können uns etwas Zeit lassen, um zu sehen, was noch kommt.
Im sehr engen Sinne haben die Scaling Laws in der Tat einige Herausforderungen getroffen. Man kann diese Kurve betrachten, und hinsichtlich der Sprachfähigkeiten ist es so, dass große Modelle in der Tat eine Decke erreicht haben, ähnlich der, auf die die vorige Generation der künstlichen Intelligenz gestoßen ist: Alle Fähigkeiten nähern sich den menschlichen Grenzen, soweit Menschen sie bewerten können.
Erinnern Sie sich eine Generation zurück, künstliche Intelligenz ist in eine Entwicklungssäcke geraten, weil uns Menschen die Fähigkeit fehlte, der KI beizubringen, wie diese Grenze zu überschreiten ist. Die menschlichen Decken stehen dort, alle Daten, die der KI gegeben werden, stammen von Menschen. Ob diese Decke durchbrochen werden kann, ist möglicherweise die Frage, die wir uns jetzt stellen müssen.
Das ist der Standpunkt aus Sicht der Sprachmodelle. Aber im Wesentlichen, aus der Perspektive von Forschung und Technik, gleicht es nicht der vorherigen Generation an KI-Technologie.
Das technologische Fundament der vorherigen Generation von künstlicher Intelligenz, seien es neuronale Netze oder Faltungsneuronale Netze, erscheint jetzt ziemlich einfach. Grundsätzlich sind sie schnell konvergiert und stabilisiert.
Doch die Grundlagenforschung bei Vortrainierten Modellen oder großen Trainingsmodellen durchläuft noch immer zahlreiche Iterationen und bietet viel unerschlossenes Potential, wobei zahlreiche Forscher neue Durchbrüche anstreben. Sich Sorgen um Decken oder Wände zu machen, kommt tatsächlich etwas verfrüht.
Wir haben gerade über Sprachmodelle gesprochen. Bei Sprachmodellen sind gewisse Fragen sehr elementar, da scheinbar alle Daten eingegangen sind und das Tempo der intelligenten Fortschritte merklich verlangsamt ist. Doch auch abseits der Sprache gibt es viele Bereiche, wie zum Beispiel visuelles und auditives Verständnis, wo es noch erheblichen Raum gibt.
Zum Beispiel gibt es im Bereich der visuellen Wahrnehmung noch viele Fragen zu lösen. Das aktuelle Modell kann komplexe Szenen, die das menschliche Auge sieht, noch nicht umfassend nachvollziehen. Der Unterschied zur menschlichen Wahrnehmung ist noch sehr groß, sodass es hier noch viel zu tun gibt.
In letzter Zeit haben wir auch in diesem Bereich viel gearbeitet, um die Verknüpfung unserer visuellen Verständnisfähigkeiten mit Hardware und Geräten an den Endpunkten zu verbessern, sodass sie besser verstehen können. Denn viele Aufgaben der realen Welt verlangen die Integration verschiedener modaler Informationen, einschließlich Sprache, Sehen, Hören.
Zusammenfassend betrachten wir dieses Abbild. Wir haben die Entwicklungsstufen und Fortschrittsskala der künstlichen Intelligenz in fünf Stufen unterteilt, wobei OpenAI eine ähnliche Einteilung hat.
In unserem Verständnis ähneln die ersten drei Stufen denen von OpenAI sehr. Erstens, die einfachste und wichtigste ist die Sprachfähigkeit sowie andere Modalitäten, die wir als multi-modale Fähigkeit bezeichnen—visuelle, auditive und viele unerschlossene Bereiche.
Die zweite Ebene ist die logische Denkfähigkeit, die kürzlich als OpenAI's o1 viel diskutiert wurde. In China gibt es viele Teams, die Modelle mit starker Argumentationskraft und komplexer Problemlösungskapazität entwickeln, die sich kontinuierlich weiterentwickeln. Im Bereich der logischen Argumentation können wir bis etwa 60 % des menschlichen Niveaus erreichen.
Darüber hinaus beschäftigen wir uns mit der Frage, wie große Modelle und KI Hände und Füße erhalten können, um verschiedene reichhaltige Werkzeuge zu nutzen und größere Produktivität zu erzielen, nämlich die Fähigkeit zur Werkzeugintegration, eine derzeit viel diskutierte Frage.
Wir haben kürzlich kleine Durchbrüche erzielt, indem wir Agenten helfen ließen, Aufgaben auf Mobiltelefonen und Computeranwendungen auszuführen, um einige repetitive oder prozessorientierte Arbeiten zu lösen.
Nach oben gibt es möglicherweise (im Vergleich zu OpenAI) einige leichte Unterschiede. Wir glauben, dass Stufe vier und fünf jeweils die Fähigkeit zum selbständigen Lernen der KI darstellen.
Für menschliche Fähigkeiten und Intelligenz ist die Fähigkeit des kontinuierlichen Lernens entscheidend. Menschen können in ständiger Praxis und Feedback ihre Fähigkeiten stetig verbessern, neue Daten, Erfahrungen, Intelligenz und Werkzeuge kreieren. Diese Fähigkeiten sind die Kernelemente, die es Menschen ermöglichen, voranzukommen und Neues zu schaffen.
Wir hoffen, dass KI über stärkere Fähigkeiten zum selbständigen Lernen verfügen kann, damit sie in der Lage ist, wie ein Mensch über die derzeitigen Grenzen hinauszuwachsen und neues zu schaffen. In Zukunft könnte diese Fähigkeit genutzt werden, um zu erforschen, zu forschen und neue wissenschaftliche Grenzen zu suchen.
In letzter Zeit haben wir auch daran gearbeitet, wie wir die multiminoden Fähigkeiten, einschließlich Sehen, Hören, Stimuli-Integration, zusammen mit äußerst fortschrittlicher Sprachverständigung nutzen können, um praktische Probleme zu lösen.
Die Stufenentwicklung der künstlichen Intelligenz von OpenAI, die als Weg zur allgemeinen künstlichen Intelligenz bezeichnet wird, zeigt einen klaren Entwicklungsweg. Von großen Sprachmodellen bis zur Multimodalität, über den Einsatz von Werkzeugen bis hin zum selbständigen Lernen—der gesamte Weg ist klar ersichtlich.
Warum das so ist? Sprache ist die Grundlage. Das menschliche Gehirn ist von Natur aus multimodal. Der Einsatz von Werkzeugen verbindet die physische Welt, und letztendlich wird das selbständige Lernen ermöglicht.
Wir haben mit Experten aus der Gehirnforschung, Neurowissenschaften und anderen Disziplinen gesprochen. Die derzeitige Entwicklung der KI-Technologie hat einige Aspekte der allgemeinen künstlichen Intelligenz berührt.
Das menschliche Gehirn ist in verschiedene Bereiche gegliedert und diversifiziert, was durch die moderne Gehirnforschung bestätigt wird, einschließlich Sprachfähigkeit, logisches Denkvermögen, visuelle Fähigkeit, Tastsinn und Bewegung. Die farbigen Bereiche repräsentieren Teile, die von KI oder großen Modellen bereits erreicht wurden, während die grauen Bereiche solche sind, die noch nicht oder nur geringfügig erreicht wurden, einschließlich der Fähigkeit, externe Werkzeuge zu nutzen, wie Hände und Füße. Genau wie in unserem zuvor gezeigten Treppendiagramm hat das Verstehen und Verwenden natürlicher Sprache bereits das beste menschliche Höchstmaß erreicht.
In der logischen Argumentation, dem emotionalen Denken, der Innovation und der Werkzeugnutzung haben wir gewisse Durchbrüche erzielt, aber es gibt noch viele unerschlossene Bereiche. Was also die nächsten Scaling Laws sind, könnte in diesen Weißräumen, oder den nicht völlig entwickelten Bereichen gefunden werden, um die Wirkungsweise der Scaling Laws zu verbessern.
Auf diesem Weg haben wir festgestellt, dass die Entwicklung von Zhipu parallel zu OpenAI läuft. Diese Ausrichtung auf OpenAI beruht darauf, dass unsere Philosophien sehr ähnlich sind. Wir glauben, dass menschliche Intelligenz oder allgemeine künstliche Intelligenz nicht auf der einseitigen Erhöhung einer Fähigkeit basiert.
Erinnern Sie sich an die vorherige Generation von künstlicher Intelligenz. Unabhängig davon, ob es sich um NLP (natürliche Sprachverarbeitung) oder Computervision handelt, was ist das Endergebnis der einseitigen Erhöhung von Fähigkeiten? Es bleibt ein Werkzeug, das keine allgemeinen Probleme im wirklichen Leben lösen kann, die wir zu lösen hoffen, sondern nur große Datenmengen nutzen kann, um kleine Aufgaben zu lösen.
Die Herausforderung, die diese Generation von generativer künstlicher Intelligenz oder großen Modellen adressiert, betrifft im Wesentlichen spezifische Themen, die mit großen Datenmengen und einzelnen Aufgaben trainiert werden können, um mehr Probleme zu lösen. Das ist das Kernthema, das diese Generation von generativer KI zu lösen versucht.
Aber das Lösen vielfältiger Probleme erfordert eine Kombination verschiedener Fähigkeiten. Es ist schwer vorstellbar, dass im Kontext alltäglicher Arbeitsaufgaben oder im sozialen Leben nur eine sensorische Fähigkeit genutzt wird. Nur eine sensorische Fähigkeit einzusetzen ist kaum vorstellbar.
Das Lösen von Problemen im realen Leben und im Arbeitsumfeld erfordert sicherlich eine Kombination mehrerer Fähigkeiten. Das ist der Grund, warum wir verschiedene Arten und modalübergreifende Fähigkeiten umfassend kombinieren.
Unser im August neu veröffentlichtes Modell der neuen Generation ist ein Produktportfolio, das verschiedene Fähigkeiten kombiniert, angefangen mit der Textfähigkeit als solide Basis, gefolgt von Visions-, Sprach- und Kodefähigkeiten, um umfassende und generalisierte Fähigkeiten für allgemeine Aufgaben zu bieten.
Im August haben wir uns auch den öffentlichen Prüfungen und Begutachtungen aus der Industrie, der Wissenschaft und der Öffentlichkeit unterzogen, und die Ergebnisse sind sehr erfreulich. Das Modell der vierten Generation kann im Vergleich zu den Modellen der ersten internationalen Liga sowohl Siege als auch Niederlagen verbuchen, was uns sehr freut.
Darüber hinaus gibt es noch weitere Fähigkeiten, wie die Fähigkeit, Videoinhalte zu generieren, die wir vollständig modernisiert haben, mit einer höheren Bildrate von 60 Bildern pro Sekunde und höherer 4K-Auflösung, realistischeren Bildern, kabelloser Integration unserer Audiofähigkeiten zur automatischen Vertonung von Videos.
Sie wissen, dass der Fortschritt vom Stummfilm zum Tonfilm ein sehr wichtiger Schritt in der Filmgeschichte ist. Die Generierung von Videos von völlig stummen Bildern hin zur gleichzeitigen Generierung von Vertonungen ist auch ein riesiger Fortschritt und eine weitere Annäherung an das Verständnis und die Generierung der physischen Welt.
Wir sind nicht nur in der Lage, Videos mit höherer Auflösung zu generieren, sondern auch mit zunehmender Videoverhältnissen, höherer Generierungsgeschwindigkeit und simultaner Generation mehrerer Videos, um die Effizienz zu steigern.
Das ist AutoGLM, das allen die Fähigkeit gibt, das Mobiltelefon mit Sprache und Ton zu steuern. Ich glaube, dass die meisten unserer Fans diese Videovorstellung kürzlich gesehen und an unserer Produktbeta teilgenommen haben.
Nach der Veröffentlichung unseres Produkts haben wir große Aufmerksamkeit erhalten und viele Rückmeldungen erhalten, obwohl es dennoch ein sehr früher Versuch bleibt. Im Laufe dieses Monats haben wir Tests und Feedback verwendet, um das Produkt weiter zu verbessern. Wenn Sie daran interessiert sind, bleiben Sie dran—wir werden neue Aktualisierungen für Sie bereitstellen.
Aus Zeitgründen habe ich nicht viel Zeit. Wir werden dieses Video nicht vollständig abspielen. Interessierte sind eingeladen, es selbst zu erleben.
Durch den Weg des verstärkten Lernens haben wir die Erfolgsquote beim Einsatz von großen Modellen deutlich verbessert. Wir glauben, dass die Erfolgsquote bei allgemeinen Aufgaben ursprünglich bei etwa 20 % lag und sich nun verdoppelt hat, was zu einer Genauigkeit von 40 % geführt hat.
In Zukunft hoffen wir, dass das umfassende Modell mit multimodalen, übergreifenden und allgemeinen AI-Agent-Fähigkeiten das große Modell auf das Gehirn reibungsloser auf reale physischen Displays anwendet und eine neue Mensch-Maschine-Interaktionserfahrung schafft.
Ich habe das Gefühl, dass diese Ära bereits begonnen hat. Zhipu verfolgt in diesem Prozess das Konzept des dualen Antriebes, indem es kontinuierlich technologische Durchbrüche erreicht und gleichzeitig nicht vergisst, dass diese Technologien in innovative Produkte umgewandelt werden, die unseren Kunden mehr Wert bieten können.
Das war alles von mir, vielen Dank!