Top chinesische Wissenschaftler von Google Gemini und Apple verlassen ihre Jobs, um eigene Unternehmen zu gründen und richten ihre Ziele auf AGI.
In der AI-Gründerszene im Silicon Valley werden die teuersten Wetten immer auf die erfahrensten "Geister" gesetzt.
Der langjährige Forscher Andrew Dai, der 14 Jahre lang bei Google DeepMind gearbeitet hat, gründet derzeit ein AI-Start-up namens Elorian.
Dieses noch unbekannte Unternehmen hat ein Ziel von 50 Millionen US-Dollar für die Seed-Runde der Finanzierung.
Andrew Dai arbeitet zusammen mit Yinfei Yang, einem Apple-Forschungswissenschaftler, der im vergangenen Dezember kündigte.
Diese beiden Technik-Veteranen aus Google und Apple versuchen, das nächste Kernproblem im Bereich der großen Modelle zu lösen: Visuelles Schließen (Visual Reasoning).
Es ist sehr wahrscheinlich, dass die Runde von Striker Venture Partners, einer von Max Gazor, einem ehemaligen Generalpartner von CRV, gegründeten Firma, geleitet wird.
Wenn das Deal zustande kommt, wird dies einer der bemerkenswertesten Frühphasen-Finanzierungen im Silicon Valley sein und bestätigt erneut die wahnsinnige Aufmerksamkeit des Kapitalmarktes für die "Google-Absolventen".
14 Jahre, von den Anfängen von BERT bis hinter die Kulissen von Gemini
Im Bereich der AI-Forschung steht der Name Andrew Dai für "Langzeitdenken".
Im Gegensatz zu denen, die erst nach dem Ausbruch der Transformer-Welle in die Branche eingestiegen sind, kann Andrew Dais Mitarbeiter-Nummer bei Google bis 2012 zurückverfolgt werden.
Dies bedeutet, dass er den gesamten Zyklus miterlebt hat, in dem das Deep Learning von einer Randwissenschaft zur Weltspitze aufgestiegen ist.
Auffällig in seiner LinkedIn-Profil ist seine Rolle als Mitverantwortlicher für die Vorab-Training-Datenarbeit des Gemini-Modells.
Im aktuellen Krieg um die großen Modelle werden die Datenqualität und die Vorab-Training-Strategie als die Schlüsselfaktoren für die maximale Intelligenz eines Modells angesehen.
Die Tatsache, dass er in dieser Kernaufgabe eine leitende Rolle spielt, beweist seine Wichtigkeit innerhalb von Google.
Andrew Dais akademische Beiträge gehen darüber hinaus.
Er hat gemeinsam mit Jeff Dean, dem Chefwissenschaftler von Google, und Quoc V. Le (einem Legenden aus Google Brain) mehrere wissenschaftliche Artikel verfasst.
Schon 2015 veröffentlichte er einen Artikel über Semi-supervised Sequence Learning, der als eine bedeutende Inspiration für die späteren GPT-Modelle von OpenAI angesehen wird.
https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf
Eine Person, die Andrew Dai gut kennt, sagte: "Er ist einer der Pioniere in der Sprachmodellierung und hat sich in den letzten zwanzig Jahren auf Vorab-Training-Forschung konzentriert. Sein Spezialgebiet ist es, hochwertiges 'Wissen' aus riesigen, ungeordneten Datenquellen zu extrahieren."
Wenn Andrew Dai die "gewaltige Ästhetik" von Google in der Big-Data-Verarbeitung repräsentiert, bringt der Mitbegründer Yinfei Yang die Raffinesse und die multimodale Perspektive von Apple mit.
Yinfei Yang war zuvor als Chief Research Scientist im Apple Machine Learning Team tätig und hat hauptsächlich an der Entwicklung von Apples eigenem AI-Modell mitgewirkt.
Vor seinem Eintritt in Apple hat er auch vier Jahre bei Google Research gearbeitet und sich auf die multimodale Repräsentationslernen konzentriert.
Seine Fachkenntnisse in der Bild-Text-Ko-Embedding-Branche füllen genau die Lücke in der Wahrnehmung von reinen Sprachmodellen.
Visuelles Schließen
Nicht nur "sehen", sondern auch "verstehen"
Was will Elorian eigentlich erreichen?
Laut Andrew Dai will Elorian kein neues ChatGPT erschaffen, sondern ein natives multimodales Modell, das "Text, Bilder, Videos und Audio gleichzeitig verstehen und verarbeiten" kann.
Die meisten derzeitigen AI-Modelle werden auf der Grundlage von Text trainiert und erhalten dann ihre visuelle Fähigkeit über "Patches".
Elorians Vision ist es, ein "Synästhetiker" von Geburt an zu schaffen.
Dieses Modell übersetzt nicht mehr Bilder in Textlabels, sondern nimmt wie ein Mensch direkt die Logik der physischen Welt durch das Sehen wahr.
"Visuelles Schließen" wird als der unvermeidliche Weg zur AGI angesehen.
Andrew Dai sagte, dass Roboter ein potenzielles Anwendungsgebiet für Elorians Technologie sein könnten, betonte aber, dass die Vision des Unternehmens weit über das hinausgeht.
In den Augen der Investoren im Silicon Valley bedeutet dies, dass Elorian auf den breiten Markt der AI-Agenten abzielt - einen Super-Assistenten, der wie ein Mensch auf dem Computerbildschirm schaut, die grafische Benutzeroberfläche (GUI) versteht, Rücknahmeprozesse bearbeitet, rechtliche Dokumente überprüft und andere Software bedient.
Es braucht nicht, dass Sie ihm Daten über eine API geben, sondern es "sieht" direkt wie Sie auf die Excel-Tabelle, "hört" auf die Telefonaufzeichnung und "liest" gleichzeitig die E-Mails auf dem Bildschirm und trifft in Echtzeit Entscheidungen.
Dies ist die Zukunft, die Elorian zu erschaffen versucht.
Die Logik des Kapitals
Für die "Blutslinie" bezahlen
Eine Seed-Finanzierung von 50 Millionen US-Dollar hätte vor ein paar Jahren wie ein Märchen geklungen, aber im heutigen AI-Blase scheint dies die "Eingangskarte" für Spitzenteams zu sein.
Striker Venture Partners, das derzeit mit Elorian über die Leitung der Finanzierungsrunde verhandelt, ist selbst ein aufsehenerregendes neuester Fonds.
Sein Gründer, Max Gazor, war früher ein Partner bei dem etablierten Venture Capital CRV und ist für seinen scharfen Blick bekannt.
Er gründete im vergangenen Oktober sein eigenes Unternehmen, und Elorian wird wahrscheinlich eine der ersten markanten Wetten des Fonds sein.
Für Investoren wie Max Gazor ist es nicht nur um den technischen Ansatz zu wetten, sondern auch um die seltene genetische Kombination von "Google DeepMind + Apple".
Google bringt die Erfahrung in der Infrastruktur für die Massen-Training, während Apple eine praktische Kultur hat, die AI in konkrete Produkte umzusetzen.
Das Auftauchen von Elorian spiegel auch die Verschiebung des Schlachtfelds der großen Modelle wider.
Der erste Krieg war um die "Texterzeugung", und OpenAI hat mit ChatGPT den ersten Platz errungen;
Der zweite Krieg ist um das "multimodale Verständnis" und die "Interaktion mit der physischen Welt".
Auf diesem neuen Schlachtfeld versuchen sowohl Gemini als auch GPT, ihre visuellen Fähigkeiten zu verbessern.
Als Start-up muss Elorian, um zwischen den Riesen zu überleben, entweder einen technologischen Vorsprung haben oder sich in einer vertikalen Branche (z.B. komplexen visuellen Agenten) perfektionieren.
Im Silicon Valley hat jeder Spitzenforscher, der von einem Konzern wegeht, einen "revolutionären" Traum: Mit einem kleineren Team und fokussierten Ressourcen das riesige und träge Bürokratiesystem des ehemaligen Arbeitgebers zu überwinden.
Andrew Dai hat Google, wo er 14 Jahre gearbeitet hat, verlassen, und Yinfei Yang hat Apple, das das Apple Intelligence entwickelt hat, verlassen.
Sie haben sich für den schwierigsten Weg entschieden - zu versuchen, Maschinen beizubringen, nicht nur die Welt zu "sehen", sondern auch zu "verstehen".
Dies lässt an ein altes Sprichwort aus dem Bereich der Computer Vision denken: "Die Kamera ist nur das Auge, der Algorithmus ist die Seele."
Und in der Strömung der AI ist es nie die Rechenleistung, die wirklich selten ist, sondern die Augen, die durch den Nebel der Daten hindurchblicken und die Richtung der Zukunft erkennen können.
Quellen:
https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup
Dieser Artikel stammt aus dem WeChat-Account "New Intelligence Yuan", Autor: New Intelligence Yuan, Redakteur: Allen. Veröffentlicht von 36Kr mit Genehmigung.