"90 % aller bahnbrechenden KI - Entwicklungen stammen von uns!" - Google DeepMind - Leiter gibt klare Antwort angesichts Kernteam

Warum verstehen die heutigen Großmodelle mit Billionen von Parametern immer noch nicht die Relativitätstheorie, die Einstein während einer Auszeit erdacht hat?

Am Montag dieser Woche fiel der Aktienkurs von Google um fast 7%. Die Wall Street begann sich Sorgen zu machen, denn die beiden wichtigsten technologischen Köpfe von Google – John Jumper, der Preisträger des Nobelpreises und Macher von AlphaFold, sowie Noam Shazeer, einer der Autoren des Transformers und ein Legende in der Welt der großen Modelle – wurden gerade von einem Wettbewerber abgeworben.

Jeder möchte wissen, ob Google Blut verliert und ob es bald keine Chance mehr hat, die Partie der großen Modelle zu gewinnen. Doch auf der Bühne der Cannes Lions Festival in diesen Tagen wirkte Demis Hassabis, der Gründer von DeepMind, ziemlich gleichgültig. Als der Moderator ihn vor Ort herausforderte, antwortete er gelassen: "Wir haben in der Arbeitsmarktkonkurrenz das, was wir gewinnen mussten, gewonnen, und DeepMind hat immer noch die breiteste Forschungsbasis in der Branche."

Hassabis hat tatsächlich Grund für seine Zuversicht. Heute jagen die Labore in Silicon Valley in einem Wertbereich von Billionen nach Talenten, aber er erinnert sich an das Jahr 2010, als er DeepMind gründete. Damals interessierte sich die Industrie überhaupt nicht für Künstliche Intelligenz (KI), und selbst in der akademischen Welt galt die Forschung an neuronalen Netzen fast als "Karriere-Selbstmord". Die Leute dachten, dass diese Technologie in den 90er Jahren von MIT als Sackgasse bewiesen wurde. Hassabis und eine kleine Gruppe von Neurowissenschaftlern glaubten nicht an diese Meinung und hielten es dank Reinforcement Learning und neuronalen Netzen bis hin zur Entstehung von AlphaGo und dem Aufstieg des Transformers durch.

Im Gespräch mit Reed Albergotti, dem Redakteur von Semafor, lenkte Hassabis das Thema von der Talentschlacht zurück auf die Technologie selbst, die ihn wirklich interessiert. Er glaubt nicht, dass reine Textmodelle, die Code schreiben können (wie Mythos), den Weg zur Künstlichen Allgemeinen Intelligenz (AGI) ebnen können. In seiner Meinung muss Intelligenz die physische Welt verstehen, und das ist der Grund, warum DeepMind so viel Energie in die Entwicklung von Videomodellen wie Veo und Omni steckt.

Hassabis verknüpfte diese Überlegungen sogar mit seiner Forschung über das Hippocampus im Jahr 2007 und stellte fest, dass die menschliche Vorstellungskraft eigentlich ein "physikalischer Simulator" ist. So wie sein fehlgeschlagener Simulationsspiel "Republic" aus dem Jahr 2003 auf einem Pentium-Prozessor zu früh war, kann er heute mit Hunderttausenden von GPUs Zellen, Wetter und sogar ganze Volkswirtschaften simulieren. Hier sind einige sehr interessante Branchenintuitionen, die er in diesem Gespräch ausführte:

Lassen Sie sich nicht von den Nachrichten über abgeworbene Führungskräfte abschrecken. Die Technologiebranche ist so konzipiert, dass es immer Wettbewerb gibt. 2010 war die Arbeit an neuronalen Netzen in der akademischen Welt ein "Karriere-Selbstmord", heute ist es ein begehrtes Fachgebiet. Der Austausch von Spitzentalenten zwischen Labors ist normal, und Google, als Ursprung von Transformer und AlphaGo, hat immer noch eine Forschungsgrundlage, die seine Wettbewerber nicht erreichen können.
AGI kann nicht allein durch Code-Schreiben und Textselbstoptimierung erreicht werden. Intelligenz muss die physische Welt wahrnehmen und verstehen, und das ist der Grund, warum große Modelle Videos und YouTube verstehen müssen. Erst wenn die Wahrnehmung der realen physischen Welt möglich ist, können Hardware-Szenarien wie intelligente Brillen und körperliche Roboter tatsächlich umgesetzt werden.
KI-generierte Audio- und Videodateien müssen zwingend mit einem irreversiblen Wasserzeichen versehen werden. Da Videomodelle wie Veo immer realistischer werden, sind Deepfakes und Fälschungen kaum noch zu verhindern. Google hat bereits in allen generierten Inhalten ein unsichtbares Wasserzeichen namens SynthID eingebettet und es OpenAI und Nvidia zur Verfügung gestellt. Hassabis ist der Meinung, dass dies in Zukunft eine verbindliche Vorschrift wie der Autosicherheitsgurt werden sollte.
Echte KI-Kreativität sollte den "Einstein-Test" bestehen. Echte Kreativität besteht nicht darin, Daten zusammenzusetzen, sondern darin, neue Wahrheiten aus begrenzten Informationen abzuleiten. So wie Einstein damals im Schweizer Patentamt "Tagträume" über Lichtgeschwindigkeitsexperimente hatte und daraus die Relativitätstheorie ableitete, muss KI auch über einen "Hippocampus-Mechanismus" Millionen von Simulationen in einer virtuellen Welt durchführen, um die optimale Lösung zu finden. Dies ist auch die zugrunde liegende Logik für die Lösung von Problemen in der Lebenswissenschaften, der Wettervorhersage und der Wirtschaft.

"Die Risiken von Biologie und Kernenergie sind uns tatsächlich sehr nahe, und Cybersicherheit ist nur ein Warnsignal"

Interviewer: Demis, jetzt ist jeder wegen KI aufgeregt. In Washington beginnt sogar, einige KI-Modelle zu verbieten. Viele Bedenken beziehen sich hauptsächlich auf textbasierte Modelle: Sie können Software schreiben und Computerlücken entdecken. Ich möchte wissen, denken Sie wie viele andere auch, dass der Weg zur AGI über Modelle wie Mythos führen wird, die möglicherweise bald eine Art Selbstverbesserungsfähigkeit haben? Oder denken Sie, dass die echte Realisierung von AGI immer noch eine multimodale Methode erfordert, wie Sie es bei Gemini getan haben?

Demis: In dieser ersten Frage stecken bereits viele Ebenen, die es zu klären gilt. Zunächst einmal habe ich schon lange öffentlich gesagt, was wir jetzt in Bezug auf Cybersicherheit und Mythos erleben. Je näher wir der AGI kommen – und ich denke, wir stehen jetzt an der Schwelle – wie ich auch schon sagte, "wir befinden uns am Fuß des Berges vor dem Singularitätspunkt" – müssen wir ein systematischeres Vorgehen anwenden, um mit all dem umzugehen.

Natürlich gibt es unglaubliche Chancen, wie Sie am Anfang erwähnt haben: Alle Krankheiten heilen, neue Energiequellen finden. Das ist der Grund, warum ich mein ganzes Berufsleben damit verbringe, mich mit KI zu beschäftigen. Aber gleichzeitig gibt es auch Risiken, und Cybersicherheit ist eines von ihnen. Tatsächlich werden in Zukunft noch schwerwiegendere Probleme auftauchen. Dies ist eigentlich eine Warnung an die ganze Menschheit, und ich hoffe, dass wir sie ernst nehmen.

Es werden in den nächsten Jahren auch biologische, nukleare und andere Risiken auftauchen, und wir müssen uns darauf vorbereiten. Ich denke, wir brauchen ein systematischeres Vorgehen, um diese Probleme zu behandeln, vielleicht auch eine Art Standardisierungsorganisation, am besten international, um die neuesten Systeme zu testen und sicherzustellen, dass sie robust genug sind und die Schutzvorrichtungen ausreichend sind.

Dies ist eine Seite der Frage, die Sie gestellt haben. Was die technologische Route zur AGI betrifft, denke ich, dass wir immer noch die breiteste und tiefste Forschungsbasis haben. In den letzten zehn Jahren stammen die meisten wichtigen Durchbrüche, die die moderne KI-Industrie stützen – ich schätze, vielleicht 90 % oder sogar mehr – entweder aus Google Brain oder DeepMind: Von der Zeit, als wir noch zwei unabhängige Forschungsinstitute waren, bis heute, wo wir zu Google DeepMind zusammengelegt sind. Ob es der Transformer, der alle großen Sprachmodelle stützt, oder AlphaGo ist, oder die bahnbrechenden Arbeiten, die wir in der Reinforcement Learning-Branche geleistet haben, alles stammt von hier.

Deshalb denke ich, dass unser Ansatz immer war, auf mehreren Fronten gleichzeitig zu wetten und jede Route so weit wie möglich voranzutreiben. Offensichtlich arbeiten wir an der Skalierbarkeit und haben unser eigenes multimodales Basis-Modell Gemini. Wir investieren viel in die Code-Fähigkeit und fördern auch multimodale Generative Medienmodelle wie Omni und Veo. Wir glauben, dass diese Modelle für das Verständnis der Welt um uns herum und des Kontexts, in dem wir uns befinden, sehr wichtig sind.

Ich denke, letztendlich muss ein vollständiges AGI-System auch die physische Welt um uns herum verstehen. Und Anwendungen wie Roboter, die in die Realität treten, und Assistenten auf intelligenten Brillen, denke ich, erfordern eindeutig diese Fähigkeit. Beide sind sehr interessante Anwendungsbereiche.

Interviewer: Dann nehme ich Ihre Antwort als "nein". Danke.

"2010 war die Arbeit in der KI-Branche fast gleichbedeutend mit Karriere-Selbstmord"

Interviewer: Als Sie DeepMind gründete, waren Sie an der absoluten Spitze. Später, als Sie Google betraten, schien es, als ob fast alle Kernkräfte der KI-Branche in DeepMind und Google vereint waren. Jetzt gibt es mindestens drei Hauptkonkurrenten, die ebenfalls an der Spitze stehen und um die besten Talente kämpfen. Ich möchte wissen, denken Sie, dass DeepMind heute immer noch die Talente hat, die es braucht, um den Wettlauf um die AGI zu gewinnen?

Demis: Ja, ich denke, dass es viel Talentfluss zwischen den Spitzelabors gibt, und wir haben auch einen guten Teil der Spitzentalente gewonnen. Aber ich muss sagen, unter allen führenden Labors haben wir immer noch die größte und breiteste Forschungsbasis.

Wir produzieren weiterhin absolut führende Ergebnisse, sowohl in Bezug auf Basis-Modelle als auch auf andere Modelle, die schließlich die Basis-Modelle unterstützen werden, wie unsere Omni- und Veo-Modelle. Aber der Wettbewerb auf dem Markt ist wirklich heftig – wahrscheinlich der heftigste, den die Technologiebranche je erlebt hat.

Ich denke, das ist unvermeidlich. Wenn wir zurückblicken, haben wir im Jahr 2010 angefangen, an diesem Projekt zu arbeiten. Damals gründete ich DeepMind, und fast niemand arbeitete an KI, insbesondere in der Industrie. Sogar in der akademischen Welt galt die Arbeit an KI fast als Karriere-Selbstmord. Die allgemeine Meinung war: "KI funktioniert natürlich nicht. Wir haben es in den 90er Jahren an Orten wie MIT versucht, und es war ein Sackgasse." Das war die vorherrschende Meinung.

Aber wir wenige glaubten, dass man mit der richtigen Idee, der Verwendung von Lernsystemen, Reinforcement Learning und der Investition in neuronale Netze viele schnelle Fortschritte machen konnte. Schließlich haben wir uns als richtig erwiesen. Aber das bedeutet auch, dass in den letzten Jahren die ganze Welt die Potenziale der KI erkannt hat, und jede bedeutende Firma der Welt wird daran teilnehmen.

Interviewer: Ja. Wir sind jetzt in Cannes und nehmen an einer Werbebranchenkonferenz teil. Obwohl es hier viele sehr kreative Leute gibt, bin ich sicher, dass viele von ihnen, sogar das Publikum, Ihre Videogenerierungstools verwenden, um Werbung zu erstellen oder andere kreative Dinge zu tun.

Was können diese Tools heute, was sie vor einem Jahr noch nicht konnten?

Demis: Diese Tools und die dahinter liegenden Modelle verbessern sich fast jeden Monat erheblich. Vor einem Jahr war, denke ich, die größte Veränderung bei unseren Tools – wie dem neuen Omni-Modell und Bildtools wie Nano Banana –, dass sie eine "Echtzeitbearbeitung" der generierten Ergebnisse ermöglichen.

Ich denke, das ist für die kreativen Menschen extrem nützlich geworden. Ein Teil des kreativen Prozesses besteht natürlich darin, die erste Idee, die erste Version des Konzepts zu generieren, aber Sie mögen einen Teil davon und anderen nicht. Sie möchten nicht jedes Mal den gesamten Inhalt neu generieren, und vor einem Jahr konnten wir das im Grunde genommen nur so machen. Sie möchten in der Lage sein, in natürlicher Sprache zu beschreiben – am besten so, wie Sie mit einem Designer sprechen würden – z. B.: "Okay, diesen Teil unverändert lassen, den anderen Teil ändern." Dann können Sie so iterieren, vielleicht hunderte Male, bis Sie die endgültige, perfektionierte Version haben, die Sie wollen.

Also denke ich, dass eine der größten Veränderungen im vergangenen Jahr diese feingranulare Kontrollfähigkeit war; außerdem steigt die Gesamtqualität stetig und unermüdlich an.

"Wenn die generierten Videos immer realistischer werden,

sollte das digitale Wasserzeichen wie ein Sicherheitsgurt eine verbindliche Vorschrift werden"

Interviewer: Ja. Innerhalb der Werbebranche gibt es tatsächlich viele Kontroversen. Die Leute versuchen herauszufinden: Wird hier KI verwendet? Ist dies 100 % von Menschen geschaffen? Sollte dies offen gelegt werden? Und so weiter. Denken Sie, dass diese Diskussion nur vorübergehend ist – weil wir uns noch nicht mit der Veränderung der Kreativität durch KI angepasst haben – oder wird diese Diskussion langfristig andauern und auch in Zukunft immer vorhanden sein?

Demis: Ich denke, dass es eigentlich zwei verschiedene Ebenen gibt. Zunächst einmal müssen wir unbedingt das Problem von Fehlinformationen und Deepfakes angehen. Schon vor drei oder vier Jahren, als wir diese Generative Modelle begannen zu entwickeln, waren wir uns dessen bewusst. Wir hatten damals vorausgesehen, dass diese Systeme in Zukunft sehr leistungsfähig werden würden – offenbar war das ja unser Ziel – und schließlich annähernd fotografisch real sein würden.

Deshalb brauchen wir ein digitales Wasserzeichensystem. Wir haben ein solches System entwickelt, das SynthID heißt. Es ist robust genug, um im Grunde genommen nicht zu knacken, und wird auf unsichtbare Weise in das Bild eingebettet, so dass jeder – normale Bürger, Journalisten oder Regierungsbehörden – feststellen kann, ob dieses Bild von KI generiert wurde.

Alle unsere Modelle, die Inhalte generieren können – von Musik, Bildern bis hin zu Videos – haben das SynthID eingebaut. Gleichzeitig haben wir es auch für die gesamte Branche als Open Source zur Verfügung gestellt. So haben jetzt viele Kollegen diesen Standard übernommen – einschließlich OpenAI, Nvidia und vielen anderen großen Unternehmen.

Also hoffe ich, dass dies schließlich fast eine regulatorische Anforderung werden sollte: Wenn Sie generatives Mediencontent erstellen, sollte er über einen Herkunftsnachweis verfügen. Offensichtlich wird dies auch bei der Behandlung von Urheberrechten und geistigem Eigentum helfen. So können all diese Dinge miteinander verbunden werden.

Was die Frage angeht, ob man offenlegen muss, wenn man KI im kreativen Prozess verwendet, bin ich mir nicht sicher. Ich denke, dass dies vielleicht nur eine Phase ist, in der wir uns befinden. Früher haben wir Photoshop oder andere Tools verwendet, jetzt haben wir einfach ein fortschrittlicheres Tool, aber letztendlich ist es immer noch nur ein Werkzeug für Ihre persönliche Kreativität. Ich bin mir nicht sicher, ob dies auf die von Ihnen beschriebene Weise offen gelegt werden muss; das Einzige, was wirklich klar sein muss, ist, ob die endgültige Ausgabe synthetisch generiert wurde.

"Die Tools senken die Eintrittsbarriere, aber sie erzeugen auch eine Menge kreativloser Müll"

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

"90 % aller bahnbrechenden KI-Entwicklungen stammen von uns!" Angesichts der Abwerbung seines Kernteams hat der Leiter von Google DeepMind eine deutliche Antwort gegeben.

"Die Risiken von Biologie und Kernenergie sind uns tatsächlich sehr nahe, und Cybersicherheit ist nur ein Warnsignal"

"2010 war die Arbeit in der KI-Branche fast gleichbedeutend mit Karriere-Selbstmord"

"Wenn die generierten Videos immer realistischer werden,

sollte das digitale Wasserzeichen wie ein Sicherheitsgurt eine verbindliche Vorschrift werden"

"Die Tools senken die Eintrittsbarriere, aber sie erzeugen auch eine Menge kreativloser Müll"