Meta Kündigt Arbeitsplätze, OpenAI Überholt: Ein 10.000-Wort-Rückblick auf die von Google initierte AI-Epopei - Wie wurde das Drehbuch von den "Heldengemeinschaft" umgeschrieben?
In letzter Zeit haben viele große KI - Unternehmen zahlreiche bedeutende Schritte unternommen. Das FAIR - Team von Meta wurde entlassen, OpenAI hat eine Kapitalstrukturumwandlung vorgenommen und AWS hat massive Entlassungen durchgeführt. Diese Reihe von Turbulenzen zeigt, dass die KI - Branche sich von einem "unbegrenzten Goldrausch" hin zu einem brutalen "Positionskampf" wandelt. Das Kapital beginnt, die Werte neu zu bewerten, und die Konzernriesen müssen in dem heftigen Wettrüsten auch Kosten und Effizienz prüfen.
Wie hat sich dieser "Positionskampf" nun entwickelt? Woher stammen die Karten und die Lasten der Konzernriesen?
In einer jüngsten Folge des renommierten Tech - Podcasts "Acquired" wird die KI - Entwicklungsgeschichte und die Strategie von Google als Hauptlinie genommen, und die Aufstiegshistorie anderer großer KI - Unternehmen wird geschickt eingefügt. Die Folge deckt fast alle wichtigen Personen in der heutigen KI - Branche ab und bietet den Zuhörern eine systematische und kompakte KI - Entwicklungsgeschichte.
Podcast - Link: https://www.acquired.fm/episodes/google-the-ai-company
Dieser Artikel folgt der Diskussionslinie dieser Folge von "Acquired", gräbt tief in die relevanten Details der beiden in der Folge erwähnten Schlüsselwerke "In the Plex" und "Genius Makers" (Chinesische Version: Die Revolution des Deep Learning) und zieht diese heran. In Verbindung mit der gegenwärtigen Situation in der KI - Szene wird eine tiefe Analyse der KI - Entwicklungsgeschichte und der strategischen Spiele der großen Unternehmen vorgenommen.
Das in Googles Genetik verankerte KI - Ziel
Im Gegensatz zu vielen Nachzüglern war Künstliche Intelligenz nicht ein "Trend", zu dem Google erst in einer bestimmten Phase wechselte, sondern es war von Anfang an ein Kerngedanke.
Im Jahr 1998 wurde Google gegründet. Einer der Gründer, Larry Page, sah Google als ein KI - Unternehmen an, was weitgehend auf den Einfluss seines Vaters zurückzuführen ist, einem Computerwissenschaftsprofessor, der frühzeitig sich auf Maschinelles Lernen und Künstliche Intelligenz konzentrierte.
Gehen wir 42 Jahre zurück in die Zeit: 1956. An der Dartmouth College in den Vereinigten Staaten haben eine Gruppe leidenschaftlicher Wissenschaftler offiziell den Namen "Künstliche Intelligenz (Artificial Intelligence)" vorgeschlagen. Sie glaubten optimistisch, dass es nicht lange dauern würde, bis Maschinen mit menschlicher Intelligenz auftauchen würden.
Die Realität hat jedoch diese zu optimistischen Vorhersagen schnell entkräftet. Aufgrund von Beschränkungen der Rechenleistung, des Mangels an Daten und theoretischen Engpässen konnten viele Versprechen nicht eingehalten werden. Die Finanzierung und die Begeisterung für KI - Forschung nahmen rapide ab, und es folgte eine zweimalige "KI - Winterzeit" von mehreren Jahrzehnten.
In einer Zeit, in der KI allgemein als "Zeitverschwendung" angesehen wurde, war die Entschlossenheit von Larry Pages Vater ziemlich rebellisch.
Larry Page sagte bereits 2000: "Künstliche Intelligenz wird die ultimative Version von Google sein... Wenn wir einen ultimativen Suchmaschinenmotor hätten, würde er alles im Netz verstehen... Das ist offensichtlich Künstliche Intelligenz... Wir arbeiten in diese Richtung."
Man könnte sogar sagen, dass der PageRank - Algorithmus, mit dem Google anfing, bereits die Spuren früher KI - Gedanken trägt, da er statistische Methoden zur Sortierung von Webseiten anwendet.
"Komprimieren heißt verstehen"
Ein Schlüsselpunkt in Googles KI - Geschichte begann mit einem Mittagessensgespräch Ende 2000 oder Anfang 2001. Der frühe Ingenieur George Herrick stellte seinen Kollegen Ben Gomes und Noam Shazeer eine Theorie vor: Das Komprimieren von Daten ist technisch gesehen gleichbedeutend mit dem Verstehen von Daten. Der Kern besteht darin, dass der Prozess des effizienten Komprimierens und des verlustfreien Wiederherstellens von Informationen bereits ein tiefes Verständnis der Informationen beinhaltet.
Diese Idee hat den genialen Ingenieur Noam Shazeer angesprochen. In Googles damals freien Ingenieurkultur beschlossen Herrick und Shazeer, sich ganz der Erforschung von Sprachmodellen und maschinellem Verständnis zu widmen. Obwohl nicht alle davon überzeugt waren, gab die Unterstützung von Jeff Dean und anderen ihnen Mut.
Ihre Forschung ging in die Richtung der probabilistischen Modelle für natürliche Sprachen, d. h. die Vorhersage der nächsten wahrscheinlichsten Wortfolge nach einer gegebenen Wortfolge. Dies ist die frühe Form des Gedankens von "Next Token Prediction" in modernen LLM.
Das erste direkte Ergebnis dieser Forschung war die sehr nützliche Rechtschreibkorrekturfunktion "Meinten Sie vielleicht" in der Google - Suche, die von Shazeer geleitet entwickelt wurde. Sie hat nicht nur die Benutzererfahrung verbessert, sondern auch durch die Reduzierung von fehlerhaften Abfragen eine Menge an ineffizienten Rechenressourcen für Google eingespart.
Anschließend haben sie ein damals ziemlich "großes" Sprachmodell erstellt und es PHIL (Probabilistic Hierarchical Inferential Learner, probabilistischer hierarchischer Inferenzlerner) genannt. Dieses Modell hat schnell eine Schlüsselrolle in Googles Kerngeschäft übernommen.
2003 wurde PHIL von Jeff Dean für die schnelle Umsetzung des AdSense - Systems verwendet, um die Webseiteninhalte zu verstehen und die Anzeigen zuzuordnen. AdSense hat Google binnen kurzer Zeit Milliarden von Dollar an neuem Umsatz gebracht.
Mitte der 2000er Jahre verbrauchte PHIL geschätzt 15 % der gesamten Ressourcen von Googles Rechenzentren, was seine Wichtigkeit und Rechenintensität zeigt.
Maschinelles Übersetzen und Neuronale Netze
Googles Streben nach Sprachverstehen hat sich natürlich auch auf das Gebiet des maschinellen Übersetzens erstreckt.
Um 2007 herum hat das von Franz Och geleitete Team von Google Translate ein Sprachmodell auf der Grundlage von massiven N - Grams (Wortkombinationen) erstellt. Das Modell wurde auf einer Teilmenge des Google - Suchindexes mit zwei Billionen Wörtern trainiert. Das Team gewann mit dem riesigen N - Gram - Modell den DARPA - Wettbewerb, aber das Modell war äußerst ineffizient, und das Übersetzen eines Satzes dauerte 12 Stunden.
Jeff Dean trat erneut ein. Er erkannte, dass der Übersetzungsprozess parallelisiert werden konnte. Mit Googles leistungsstarker verteilten Rechenplattform reduzierte er zusammen mit dem Team die Übersetzungszeit innerhalb von wenigen Monaten auf 100 Millisekunden und brachte es erfolgreich in die Produktion. Dies wurde Googles erstes "großes" Sprachmodell in der Produktionsumgebung und hat die Vorstellungskraft, diese Technologie in mehr Szenarien anzuwenden, weiter angeregt.
Zur gleichen Zeit hat auch eine andere revolutionärere Denkrichtung stillschweigend an Googles Tür geklopft: Neuronale Netze und Deep Learning. Dies ist dank der Vermittlung von Sebastian Thrun möglich geworden.
Der ehemalige Direktor des Stanford AI - Labors (SAIL) trat 2007 bei Google ein. Nach der erfolgreichen Leitung des "Ground Truth" - Kartierungsprojekts hat er Larry Page und Sergey Brin überzeugt, dass sie führende Wissenschaftler als Teilzeitmitarbeiter für Googles Forschung einladen sollten.
Im Dezember 2007 lud Sebastian Thrun den damaligen Professor für Maschinelles Lernen an der Universität Toronto, Geoff Hinton, zu einem technischen Vortrag nach Google ein.
Hinton ist ein langjähriger Befürworter der Forschung von neuronalen Netzen. Er und seine Studenten (darunter Yann LeCun) sind überzeugt, dass mit der Verbesserung der Rechenleistung die Erstellung von tieferen neuronalen Netzen (d. h. "Deep Learning") ihr enormes Potenzial entfalten wird.
Hintons Vortrag hat in Google starke Resonanz gefunden, insbesondere hat Jeff Dean und andere die neuen Möglichkeiten in ihrer bestehenden Arbeit an Sprachmodellen gesehen. Anschließend hat Hinton als Berater und sogar "Azubi" mit Google zusammengearbeitet und das Feuer des Deep Learning offiziell in dieses zukünftige KI - Riesenunternehmen gebracht.
Es ist erwähnenswert, dass die von Hinton und anderen befürworteten neuronalen Netze damals auf dem Tiefpunkt der Randständigkeit in der akademischen Welt waren. Wie in "Genius Makers" beschrieben, hat sich die Hauptströmung in der KI - Branche seit der berühmten Kritik von Marvin Minsky an den "Perceptrons" in den 70er Jahren hin zu "Expertsystemen" gewandt. Die Expertsysteme haben jedoch in der Komplexität der realen Welt immer wieder gescheitert, was zur zweiten KI - Winterzeit führte.
Googles PageRank - Algorithmus und das maschinelle Übersetzen, die auf statistischen Methoden beruhen, sind bereits eine Rebellion gegen die starren Expertsysteme. Hintons Kommen bedeutet, dass eine tiefere Paradigma, die auf Daten, Statistik und bionischer Berechnung basiert, mit Googles Ingenieurfähigkeiten kombiniert wird.
Bis 2011 hatte Google nicht nur in traditionellem maschinellem Lernen und massiver Systementwicklung eine solide Stärke aufgebaut, sondern begann auch, das neue Denken des Deep Learning, das bald eine gewaltige Welle auslösen sollte, zu verstehen und zu umarmen. Die Einstellung von Talenten, der Erfolg interner Projekte und die offene Haltung gegenüber führenden Theorien haben gemeinsam die solide Grundlage für Googles nächsten KI - Ausbruch gelegt.
Von "Gehirn" zu "Katze"
Das Feuer des Deep Learning, das Hinton gebracht hat, hat schnell in Google einen geeigneten Nährboden gefunden. Massive Daten und leistungsstarke Recheninfrastruktur sind genau die Schlüsselbestandteile für die Forschung von neuronalen Netzen.
Genau in diesem Kontext ist ein Kernteam in Google entstanden, das sich der Weiterentwicklung des Deep Learning verschrieben hat und schnell bahnbrechende Ergebnisse erzielt hat, die die Welt beeindruckt haben.
Die Entstehung von Google Brain
Als Sebastian Thrun ganzzeitlich bei Google eintrat und die Google X - Abteilung gründete, hat er auch seinen Nachfolger am Stanford AI - Labor (SAIL), den ausgezeichneten Wissenschaftler Andrew Ng, als Teilzeitmitarbeiter nach Google geholt.
Es ist erwähnenswert, dass der Marktwert von NVIDIA kürzlich die 5 Billionen US - Dollar Marke überschritten hat, und Andrew Ng und sein Team haben bereits 2009 in einem Papier auf die Wichtigkeit von GPU für KI hingewiesen.
Papier - Titel: Large - scale Deep Unsupervised Learning using Graphics Processors
Papier - Link: https://dl.acm.org/doi/10.1145/1553374.1553486
Zurück zum Thema. Eines Tages zwischen 2010 und 2011 traf Andrew Ng Jeff Dean auf dem Google - Campus. Sie sprachen über ihre Ideen zu Sprachmodellen und Deep Learning. Sie erkannten schnell, dass die Kombination von Hintons Theorie und Googles beispielloser paralleler Rechenleistung möglicherweise ein bisher nie dagewesenes großes Deep - Learning - Modell schaffen könnte.
Diese Idee wurde schnell vorangetrieben. 2011 starteten Andrew Ng, Jeff Dean und der Neurowissenschaftler Greg Corrado gemeinsam das zweite offizielle Projekt in Google X: Google Brain. Ihr Ziel war klar: Auf Googles Infrastruktur ein wirklich "tiefes" und "großes" neuronales Netz zu bauen.
Um diese riesige Rechenaufgabe zu bewältigen, leitete Jeff Dean die Entwicklung eines neuen verteilten Rechensystems namens DistBelief an.
Das Design von DistBelief war umstritten. Es erlaubte es, dass verschiedene Rechenknoten die Modellparameter asynchron aktualisieren konnten, was bedeutet, dass die Aktualisierung auf "veralteten" Informationen basieren könnte. Dies widersprach der damaligen gängigen Meinung in der Forschung, dass synchrone Aktualisierungen für die Konvergenz des Modells von entscheidender Bedeutung seien.
Viele, einschließlich Experten innerhalb und außerhalb von Google, waren skeptisch (Disbelief), was auch die Doppeldeutigkeit des Systemnamens erklärt. Doch Jeff Deans Ingenieurintuition erwies sich erneut als richtig. DistBelief war nicht nur machbar, sondern auch sehr effizient.
Das bahnbrechende "Katze - Papier"
Mit der leistungsstarken Rechenplattform begann das Google Brain - Team schnell ein bahnbrechendes Experiment. Sie bauten ein tiefes neuronales Netz mit neun Ebenen und trainierten es mit dem DistBelief - System auf 16.000 CPU - Kernen auf 1.000 Maschinen. Die Trainingsdaten waren 10 Millionen unmarkierte Videoclips, die zufällig aus YouTube - Videos extrahiert wurden.
Das Experimentsergebnis hat die Welt schockiert. Ohne zu wissen, was eine "Katze" ist, hat dieses neuronale Netz durch unüberwachtes Lernen selbständig einen "Katze - Neuron" in der höchsten Ebene des Netzes gebildet. Dieser Neuron reagiert stark auf Bilder mit Katzengesichtern (insbesondere aus frontalem Blickwinkel), während er auf andere Bilder eher indifferente Reaktionen zeigt.