StartseiteArtikel

Erfolg des NotebookLM möchte Google selbst replizieren | Fokusanalyse

袁滢靓2024-11-15 16:41
Generative KI-Anwendungen erleben derzeit Innovationen in der Interaktionsweise.

Text | Yuan Yingliang

Bearbeitung | Deng Yongyi

In den USA hat der Einfluss von Podcasts in gewissem Maße bereits TikTok übertroffen.

Bei den kürzlich abgeschlossenen US-Wahlen betrachteten sowohl Trump als auch Harris Podcasts als ein wichtiges Kampffeld für Propaganda. Trumps Interview-Podcast mit dem amerikanischen Podcast-Star Joe Rogan erreichte auf YouTube phänomenale 48 Millionen Aufrufe und wurde als "letzter Stoß" für Trumps Wahlsieg angesehen.

Die Zeiten haben sich geändert. Laut Statistiken des Unternehmens Nielsen verfolgten am Dienstag, dem 5. November, in der Spitzenzeit der Wahlberichterstattung etwa 42,3 Millionen Zuschauer die Berichterstattung über die US-Präsidentschaftswahl 2024 auf 18 Fernsehsendern.

Tatsächlich erlebt der Podcast als neues Medium, ob im Weißen Haus oder im Silicon Valley, einen rasanten Aufstieg.

In den letzten zwei Monaten hat das von Google entwickelte AI-Notizbuch-Produkt NotebookLM ein schnelles Wachstum verzeichnet. SimilarWeb-Daten zeigen, dass das Traffic im Oktober um über 200% gestiegen ist und 9,2 Millionen nach oben schnellen ließ, etwa doppelt so viel wie einen Monat zuvor, und in den sozialen Medien häufig geteilt und geschwärmt wurde.

Der Grund für den Hype ist ein kleines Feature von NotebookLM — "Audio-Übersicht": Man gibt einen langen Text ein und die AI kann daraus einen Podcast erstellen. Es kann aus beliebigem Textmaterial einen überzeugenden zweipersonen Podcast von bis zu mehreren Minuten Länge erstellen, mit einer Stimme und Intonation, die sogar Witz enthält und "lebendig" klingt.

△Das "Audio-Übersicht"-Feature von NoteBookLM

Nutzer schwärmen: "Google hat diesmal wirklich innoviert." Nach dem Hype hat sich auch Googles alter Partner Meta nicht zurückgehalten und brachte basierend auf dem Llama-Modell die Open-Source-Alternative NotebookLlama auf den Markt.

Der Hype um AI-Notizprodukte steigt ebenfalls an. Am 15. November kündigte Tencent ein neues AI-Notizprodukt ima.copilot an, das nach WeChat-Artikeln suchen kann und sein eigenes exklusives Wissensarchiv erstellen kann.

Laut TechCrunch hat das AI-Notizprodukt Read AI am 28. Oktober 50 Millionen Dollar in einer Series B-Runde gesammelt. Am 23. Oktober hat Granola 20 Millionen Dollar in einer Series A-Runde abgeschlossen.

Unbeabsichtigte Erfolge

Eigentlich ist NotebookLM nur ein Demo mit Potenzial zur Umsetzung. Ursprünglich wollte Google kein Podcast-Produkt entwickeln, sondern die Grundlage für Dokumenten mit Überarbeitungen und gestellten Fragen legen, um die Produktivität zu steigern, ähnlich wie die meisten AI-Notizen, die erreicht werden sollen.

Aber die AI-generierte Podcast-Funktion wurde zu einem "Goldfunker".

△Die Traffic-Kurve von NotebookLM in den letzten Monaten

Dies ähnelt der Veröffentlichung von ChatGPT — es war ebenfalls nur eine Vorschauversion eines großen Modells, die durch ein Dialogfenster der Öffentlichkeit eine klare Vorstellung von Produktverbesserungen geben wollte.

Es ist einfach, Podcasts mit NotebookLM zu erstellen. Man lädt einfach einzelnes oder mehrere Quellmaterialien hoch, klickt auf der rechten Seite auf das Audio, wartet einige Minuten, und es entsteht eine mehrminütige Männer- und Frauenaudiodialog. Es erlaubt auch benutzerdefinierte Audio, z.B. welche Zielgruppen oder Themen angesprochen werden sollen.

Wenn man das neueste Interview von Ultraman in NotebookLM lädt, wird der ernste Interviewinhalt lebendig und unterhaltsam.

In den Dialogen analysieren beide Gesprächspartner das Potenzial von AI und nutzen humorvolle Metaphern, um komplexe technische Themen verständlicher und greifbarer zu machen. Zum Beispiel wird die Geburt von AGI mit "Ankunft eines neuen Lebens" verglichen, oder AI-Firmen benötigen "einen klugen Menschen und 10.000 GPUs".

Scailing Law (Scaling-Gesetz) wird ebenfalls in ihrem Zusammenspiel verständlich:

A: Stellen Sie sich vor, Sie bringen einem Computer bei, Katzen zu erkennen, richtig? Ein kleines Modell könnte spitze Ohren, runde Gesichter und grundlegendes Wissen lernen, aber ein riesiges Modell wird mit Millionen von Katzenbildern trainiert.

B: Es wird zum ultimativen Katzen-Experten.

A: Es geht weit darüber hinaus, es lernt auch Rassen, Emotionen anhand von Ausdrücken und entdeckt sogar winzige Krankheitsanzeichen, auf einem detaillierten Level.

Die beeindruckend realistische Wirkung und die einfache One-Click-Erfahrung lassen viele Nutzer neugierig werden. Eine Suche auf X zeigt viele Tipps zum schnellen Erstellen von Podcasts innerhalb weniger Minuten, und ohne Ausnahme nutzen sie NotebookLM.

Hinzugefügt mit anderen AI-Tools wie Heygen, das digitale Menschen generiert, oder Wondercraft, das Skripte und Stimmen bearbeitbar macht, kann man noch reichhaltigere Audio- und Videoinhalte erzeugen.

△Quelle: X

Um ein Internetstar zu werden, müssen Sie sich vermarkten

Heute ist es schwierig, dass generative AI-Produkte ohne interessante 'Features' sich durchsetzen.

Zufällig war das letzte AI-Produkt mit hoher Social-Media-Resonanz ein kleines Feature der Low-Code-Entwicklungsplattform Wordware, das in 8 Tagen 4,26 Millionen Nutzer anzog und selbst den Gründer überraschte.

Diese bissige AI wirkt wie ein natürlicher Internetnutzer, der basierend auf Inhalten von X die Persönlichkeit eines einzelnen Kontos analysiert und deren Kompatibilität mit einem anderen Konto bewertet — scharfsinnig und sehr humorvoll, was die Nutzer begeistert.

Zum Beispiel, die Beziehung zwischen Musk und Trump wird so bewertet: „Das ist ein hohes Risiko beim Power-Duo, mit explosivem Potenzial für Innovation und Kontroversen... Sie sind wie zwei Alpha-Wölfe, die darum konkurrieren, wer zuerst zum Mond ruft... Musk schlägt vor, den Mars zu bombardieren, während Trump den Mond wieder großartig machen will.“

△Wordware analysiert bissig die Beziehung zwischen Musk und Trump

Vergleichen wir die Verbreitungsmethoden von NotebookLM und Wordware, so erkennen wir, dass sie beide über ihre Basisprodukte hinaus kleine Funktionen bieten, die verbreitete soziale Medien auslösen können.

Diese kleinen Tools senken die Anwendungsbarriere erheblich — selbst Neulinge können schnell loslegen, und das Endprodukt folgt einem humorvollen und unterhaltsamen Ansatz. Dies stimmt mit der globalen Beliebtheit von TikTok- und Douyin-Kurzvideos überein.

Raiza Martin, die Verantwortliche des NotebookLM-Teams, verriet in einem Interview eine unkonventionelle, "offene Startup"-ähnliche Betriebslogik.

Das Team teilt täglich Fortschritte auf Social Media und gründet Kanäle auf entwicklerorientierten Discord, um Nutzerfeedback und -gewohnheiten aus erster Hand zu verfolgen, und so rechtzeitig anzupassen und zu aktualisieren. Derzeit sind über 60.000 Nutzer beigetreten.

Das Vorgehen des Video-Startup Pika war ähnlich. Bei der Markteinführung entschied sich das Team für Discord, was schnell 500.000 Nutzer einbrachte.

Im Oktober führte das neueste Pika 1.5 Modell ein neues AI-Template ein — eine statische Bildversion kann Explosionen, Schmelzen, Aufblähen, in einen Kuchen verwandelt und mehr erreichen, und das richtet sich gezielt an den Geschmack der Social Media-Nutzer.

Generative AI-Anwendungen erleben gerade Interaktionsinnovationen

OpenAI-Mitbegründer Andrej Karpathy analysiert, dass der Reiz des zweipersonen Podcast-Formats darin liegt: Gespräche sind schwer, anderen beim Reden zuzuhören ist deutlich entspannter; Lesen ist anstrengend, sich zurückzulehnen und zuzuhören, ist viel einfacher.

Sogar, man sollte Benutzer nicht zur Eingabe zwingen, da die Menschen oft nicht wissen, was sie wollen, bis es ihnen direkt präsentiert wird.

Rückblickend auf die Entstehung von Internet-Super-Anwendungen haben sie im Wesentlichen alle innovative Interaktionsformen eingeführt.

Vor TikTok waren Videos meist horizontal, und um Inhalte zu konsumieren, mussten Benutzer immer wieder klicken, beenden, auswählen und erneut klicken. Das Design des vertikalen Video-Streams von TikTok hat die Bedienung auf Auf- und Abschieben reduziert und die Anwendung stark vereinfacht.

Heutige AI-Produkte durchlaufen einen ähnlichen Prozess. Da Modelle vom Text zu multimodalen Arbeiten übergegangen sind, müssen Benutzer nun nicht mehr manuell tippen, um mit dem Modell zu interagieren, direkte Sprachinteraktion funktioniert bereits reibungslos.

Die Lehre von NotebookLM besteht darin, die Fähigkeiten großer Sprachmodelle (IQ, Kontextlänge, Multimodalität usw.) in benutzerfreundlichere Konsuminhalte zu verwandeln, wobei der Schwerpunkt nicht auf AI selbst liegt, sondern auf Szenariopositionierung und Benutzererfahrung.

Die im Oktober veröffentlichte ChatGPT-Canvas war ein Versuch im Interaktionsdesign von OpenAI. Der einzigartigste Aspekt besteht darin, dass das Fragen an ChatGPT zusammen mit Bearbeiten/Codieren von Inhalten integriert ist und so eine stärker Mensch-Maschine-integrierte Benutzeroberfläche schafft.

Das bedeutet, Benutzer können direkt im Canvas Text oder Code bearbeiten. Das bearbeitete Dokument wird automatisch rechts im Chatfenster angezeigt. Benutzer können mit der Maus die zu ändernden Teile auswählen und in einem Popup GPT weiter befragen oder über ein Shortcut-Menü Länge anpassen, Lesestufe ändern, Fehler korrigieren usw.

△Canvas-Seite

Arc-Browser-Gründer Josh Miller glaubt, dass kleine Unternehmen immer noch eine Chance haben, vor allem bei UI-Innovationen. Mit anderen Worten, AI-Produkte, die die Benutzeroberfläche erfolgreich definieren, werden eher Killer-Apps und haben letztendlich bessere Chancen.

Sogar Google möchte sich selbst replizieren

Nach dem Hype um NotebookLM hat Google kürzlich ein weiteres AI-Lernwerkzeug eingeführt, Learn About.

Ähnlich einem interaktiven digitalen Nachschlagewerk bietet Learn About interaktive Artikel und Leitfäden zu Disziplinen wie Geschichte, Biologie, Astronomie und Sport und kann gleichzeitig automatisch erweitern und vertiefen, um das Wissenserwerb mit AI zu beschleunigen.

Alleine die Interaktionsmodi von Learn About: Schlüsselpunktzusammenfassungen, Zeitachsen, häufig gestellte Fragen usw., verströmen den typischen "NotebookLM-Geschmack".

△Learn About-Seite

Anders als die meisten AI-Chatbots behalten NotebookLM und Learn About zwar ein leeres Dialogfeld bei, lassen jedoch mehr Raum für Rahmen, die mit Inhalt gefüllt sind.

△NotebookLMs Seite

Diese Rahmen zeigen empfohlene Themen, Leitfäden, Schlüsselpunkte und Anmerkungen direkt an, ohne dass der Benutzer selbst überlegen muss "Was sollte ich fragen".

Mit wenigen Klicks strömt Wissen in Text-, Bild-, Video- und anderen Modalitätenformen über den Bildschirm. Viele Nutzer beschreiben dies als eine "Alice in Wunderland"-Erfahrung.

△Learn About mit einer Scroll-Seite, die multimodalen Lernfortschritt präsentiert

Zudem ist Raiza Martin überzeugt, dass bei der Produktgestaltung wirklich überlegt werden sollte, wie man Neues intuitiv und zugänglich gestaltet.

Sie führt ein Gegenbeispiel an: Beim Verwenden von NotebookLM ist der erste Schritt der Benutzer das Hochladen von Quelldokumenten. Für Benutzer, die an ChatGPT gewöhnt sind, kann dieser subtile Schritt bereits Verwirrung und Zögern hervorrufen.

Natürlich hat das Design auf Basis von Quelldokumenten seine eigene Bedeutung. Es soll uns erkennen lassen, dass die alltägliche Erstellung oft auf bereits vorhandenen Materialien oder Dokumenten basiert.

Das ist auch der Grund, warum AI-Notizprodukte Superproduktivität bieten können - durch die Integration, Analyse und Erweiterung verschiedener Informationen, reduzieren sie das Zurückgehen bei der Informationssuche und schaffen ein zweites Gehirn.

Aus diesem Blickwinkel gesehen, sehen wir auch Anklänge an die Entwicklung des Internets. Früher war das zweite Gehirn eine App oder ein Applet, die sich nun zu AI entwickelt haben.

Unsere Bedürfnisse bleiben dieselben, nur die Anforderungen sind klüger, intelligenter geworden.