Yang Zhenyuan: Das Byte-Team hat 2021 ein großes Sprachmodell trainiert, aber damals hatten wir "keinen Blick".
Am 24. November hielt Yang Zhenyuan, Technischer Vizepräsident von ByteDance, auf der Verleihung des 5. ByteDance-Stipendiums eine Rede und teilte die technologische Erkundungsreise des Unternehmens mit.
Er berichtete, dass Zhang Yiming, Gründer von ByteDance, ihn 2014 bat, ein Empfehlungssystem mit einem Massiv-Machine-Learning-System aufzubauen, um die Empfehlung von verschiedenen Medienformen wie Bildern, Texten und Videos zu verbessern. Fasziniert von dieser Idee schloss sich Yang Zhenyuan damals der noch kleinen Firma ByteDance an.
Yang Zhenyuan sagte, dass das ByteDance-Team 2021 die Gelegenheit hatte, sich frühzeitig mit Große-Sprache-Modellen zu befassen, noch bevor ChatGPT am 30. November 2022 auf den Markt kam. Ein Kollege von ByteDance hatte damals bereits ein Große-Sprache-Modell trainiert, aber das Team kam zu dem Schluss, dass das Modell noch keine praktische Bedeutung hatte.
„Das war also ziemlich kurzsichtig von uns.“ sagte Yang Zhenyuan.
Glücklicherweise passte das Unternehmen schnell an und hat seit 2022 in diese Richtung investiert und einige Ergebnisse erzielt. „In Bezug auf die Anwendungen sind Sie vielleicht vertrauter mit Doubao, dem beliebtesten AI-Dialogassistenten in China. Die Große-Modell-Services von Volcengine werden auch von den Kunden geschätzt. Laut einem Bericht von IDC ist Volcengine der Marktführer im chinesischen MaaS-Markt.“
Yang Zhenyuan, Technischer Vizepräsident von ByteDance
Im Folgenden finden Sie die vollständige Rede von Yang Zhenyuan:
Hallo zusammen! Ich freue mich sehr, Sie hier auf der Verleihung des ByteDance-Technik-Stipendiums treffen zu können. Ich bin ein Technologie-Enthusiast und bin 2014 der Firma ByteDance beigetreten. Ich habe angefangen, ein neues Empfehlungssystem aufzubauen, und seitdem ist es fast 12 Jahre her. In diesen Jahren habe ich an vielen technologischen Erkundungen von ByteDance teilgenommen.
Wenn man an ByteDance denkt, denkt man meist an unsere Produkte wie TikTok, Toutiao und Douyin.
Meine Perspektive ist eher technisch. Heute möchte ich Ihnen einige technologische Geschichten erzählen, die Sie vielleicht noch nicht kennen.
2014: Massiv-Machine-Learning und Empfehlungssystem
Das erste Release sollte eine Billionen (T)-Skalierung der Merkmale erreichen
Anfangs bat mich Zhang Yiming, ein Empfehlungssystem mit einem Massiv-Machine-Learning-System aufzubauen, um die Empfehlung von verschiedenen Medienformen wie Bildern, Texten und Videos zu verbessern. Diese Idee hat mich sehr fasziniert.
Im Jahr 2014 war das größte Machine-Learning-System in der Industrie das Massiv-Diskrete-LR (Logistische Regression), das in der Suchwerbung bereits etabliert war. Die Anwendung dieses Prinzips auf ein Empfehlungssystem war eine große Herausforderung. Damals gab es nur wenige Personen, die sowohl in der Massiv-Software- und -Hardware-Engineering als auch im Machine-Learning versiert waren. Außerdem war es nur in der Suchwerbung, wo viel Geld zu verdienen war, dass man bereit war, so hohe Hardware-Kosten für die Berechnung aufzuwenden.
Wir haben uns für das erste Release ein sehr ambitioniertes Ziel gesetzt: Wir wollten 2014 eine Billionen (T)-Skalierung der Merkmale erreichen.
Es gab viele Herausforderungen, wie z. B. die Systemmodellierung und die Optimierung der Empfehlungsziele. Im Bereich der Engineering waren die Speicherung und die Berechnung die größten Hürden. Außerdem mussten wir die Algorithmen optimieren. Die Herausforderungen bei der Zielsetzung und der Speicherung habe ich bereits früher erwähnt. Heute möchte ich über die Optimierungsalgorithmen sprechen.
Bildquelle: Unternehmen
Die Optimierung von LR ist eine etablierte Technologie, aber die Effizienz und die Ergebnisse variieren stark je nach Methode, insbesondere bei sehr großen Skalen. Vielleicht wissen viele von Ihnen heute nicht, wie die Optimierer damals ausgesehen haben. Heute sind die SGD-basierten Methoden der Standard, aber 2014 war das nicht der Fall, als wir mit der sehr großen, spärlichen logistischen Regression arbeiteten. Damals wurden eher die CD-basierten Methoden verwendet. Außerdem verwendete die Suchwerbung von Baidu den Optimierer OWL-QN.
Wir waren damals nur fünf Personen, und da jemand für die Engineering zuständig war, haben wir zwei Optionen für den Optimierer vorbereitet: 1. SGD-FTRL; 2. CDN (Coordinate Descent Newton). Wir haben zwei Personen ausgewählt, die jeweils für eine Option zuständig waren und parallel die Recherche durchführten.
Wir haben damals geschätzt, dass das CDN-Optimierer-Projekt viel Potenzial hat, und die Anfangsfortschritte waren auch gut. Aber die erste Veröffentlichung war nicht so erfolgreich, und wir mussten es ständig verbessern. Zwei Jahre lang arbeitete immer ein Team an diesem Projekt. Erst als die SGD-Methoden mehr Anwendungen fanden, haben wir das Projekt eingestellt. Die Mitarbeiter des CDN-Optimierer-Projekts haben sich später in andere Richtungen des Machine-Learning gewandt und sind für wichtige Geschäfte der Firma verantwortlich. Obwohl das Projekt nicht erfolgreich war, hat die Firma ihre Erkundungen sehr geschätzt.
Heute wird FTRL nicht mehr so oft erwähnt. Man kann es als einen auf kumulierten Gradienten basierenden, AdaGrad-ähnlichen, L1-regularisierten SGD betrachten. Bei diesem Projekt sind wir sehr schnell vorangekommen und haben es innerhalb von wenigen Monaten veröffentlicht. Wir haben erfolgreich das Ziel erreicht, eine Billionen-Merkmale spärlich zu repräsentieren, und das Framework war sehr flexibel.
Ende 2014 haben wir allmählich FM-ähnliche Algorithmen eingeführt, die sich später zu einem allgemeineren Deep-Learning-System entwickelt haben. Und von dem ersten Tag unserer Veröffentlichung an war es ein Streaming-Training-System.