Amazon launches the new-generation basic model Nova, emphasizing cost performance, and previewing image and video models.
Autor | Wancheng Redaktion | Zheng Xuan
Amazons neues Modell ist da.
Am Dienstag, während der re:Invent-Konferenz, kehrte der frühere CEO von Amazon Web Services (AWS) und aktuelle CEO von Amazon, Andy Jassy, vorübergehend auf die Bühne zurück. In einer etwa zehnminütigen Rede stellte er die Fortschritte von Amazon im Bereich der generativen KI vor und präsentierte das neue Basismodell der nächsten Generation von Amazon – Amazon Nova.
Im April letzten Jahres brachte Amazon das erste große Modell, Titan, heraus, das nur auf einsprachigen Modus ausgelegt war. Wenn Titan ein Testlauf war, dann ist die heutige Amazon Nova-Serie das echte Können und die große Bewegung von Amazon. Ob Text-zu-Text, Text-zu-Bild oder Bild-zu-Video – für Amazon gibt es diese Wahl nicht. Denn die Nova-Serie verfolgt den Ansatz "Any to Any", beliebige Modalitäten als Eingabe und Ausgabe. Außerdem zeigt sich in den Benchmark-Tests, dass es State-of-the-Art (SOTA) Basis-Modelle sind, die fast alle Modelle der gleichen Größe und Marktstellung schlagen können.
Sie könnten fragen, warum hat Amazon, trotz einer Investition von 4 Milliarden Dollar in Anthropic und deren Claude, das selbstentwickelte Flaggschiff Nova vorgestellt? Was denkt Amazon dabei? Insbesondere in Bezug auf die Beziehungen zu den Modell-Ökosystempartnern?
Der frühere CEO von AWS und aktuelle CEO von Amazon, Andy Jassy, stellt die Nova-Serie der Basis-Modelle vor.|Bildquelle: Amazon Web Services
Andy Jassy antwortete sich selbst auf diese Frage, indem er erklärte, dass die Vielfalt der Modelle, die in den internen KI-Anwendungen von Amazon verwendet werden, erstaunlich sei. Auch Entwickler möchten niedrigere Latenzzeiten, geringere Kosten, Anpassungsfähigkeiten, bessere Koordination unterschiedlicher Wissensdatenbanken mit festen Daten und viele automatisierte kooperative Operationen (auch bekannt als intelligente Aktionen) sowie eine höhere Bild- und Videoqualität erreichen. Um diese vielfältigen Anforderungen der Entwickler zu erfüllen, besteht die Modellstrategie von AWS darin, ihnen die höchstmögliche Autonomie und Wahlfreiheit zu bieten.
"Wir haben immer wieder dieselbe Lektion gelernt – es wird nie ein Werkzeug geben, das in einem bestimmten Bereich alles beherrscht. Genau wie im Datenbankbereich, wo die Leute seit einem Jahrzehnt verschiedene relationale oder nicht relationale Datenbanken verwenden. Das Gleiche gilt für den Analysebereich, wo einmal angenommen wurde, dass TensorFlow der einzige AI-Rahmenwerk sein würde, während stets betont wurde, dass verschiedene Rahmenwerke auftauchen würden, und am Ende wurde PyTorch das beliebteste. Die Situation bei Modellen sieht ähnlich aus."
Den Entwicklern die Möglichkeit zu geben, Modelle nach Belieben auszuprobieren und zu kombinieren, ist Amazons Antwort auf das Zeitalter der großen Modelle.
01
Amazon Nova:
Niedrigere Kosten, stärkere Fähigkeiten
Auf der Konferenz präsentierte Andy Jassy sechs große Modelle der Nova-Serie, darunter vier Grundmodelle zur Texterzeugung und zwei zur Erzeugung von visuellen Inhalten wie Bilder und Videos.
Beginnen wir mit dem leichtesten Modell, dem Micro-Modell, das zu den "Nur-Text-Modellen" gehört und nur Text als Eingabe unterstützt, um dann Text auszugeben. Dies ist das schnellste und wirtschaftlichste Modell der Nova-Serie. Jassy sagte, das Modell werde von den Entwicklern bei Amazon für viele einfache Aufgaben bevorzugt.
Laut Jassy zeigte Nova Micro in 11 Benchmark-Tests eine Leistung, die der von Meta LLaMa 3.1 8B entspricht oder sie sogar übertrifft, und in 12 Benchmark-Tests war es gegenüber Google Gemini 1.5 Flash-8B überlegen. Das Modell hat eine Reaktionsgeschwindigkeit von 210 Tokens pro Sekunde und eignet sich besonders für Anwendungen, die schnelle Reaktionen erfordern.
Die nächsten drei Modelle unterstützen Multi-Modal-Eingaben und geben Textinhalte aus.
Das Lite-Modell ist ebenfalls ein kostengünstiges Multi-Modal-Modell, das schnelle Verarbeitung von Bild-, Video- und Texteingaben ermöglicht und Textinhalte ausgibt.
Laut Jassy übertraf Nova Lite in 17 von 19 Benchmark-Tests OpenAI's GPT-4o Mini; in 21 Benchmarks war es in 17 Tests Google Gemini 1.5 Flash-8B gleich oder überlegen; in 12 Benchmarks über traf es in 10 Fällen Anthropic's Claude Haiku 3.5. Das Modell zeigt auch bei Aufgaben zur Verständnis von Videos, Diagrammen und Dokumenten gute Leistungen.
Das Pro-Modell ist ein leistungsstarkes Multi-Modal-Modell, das eine optimale Kombination aus Genauigkeit, Geschwindigkeit und Kosten für verschiedene Aufgaben bietet.
In 20 Benchmark-Tests übertraf Nova Pro OpenAI GPT-4o in 17 Fällen; in 21 Benchmark-Tests war es Google Gemini 1.5 Pro in 16 Fällen gleich oder überlegen.
Das leistungsstärkste Modell ist das Nova Premier, das für komplexe Schlussfolgerungsaufgaben verwendet werden kann und auch als bester "Lehrer" für die Destillation von kundenspezifischen Modellen dient.
Jassy machte keine Angaben zu den Benchmark-Ergebnissen von Premier, aber aus der Präsentation lässt sich leicht schließen, dass es auf die im September von OpenAI veröffentlichten Orion-Modelle abgestimmt ist.
Laut Jassy sind Amazon Nova Micro, Lite und Pro bereits vollständig auf dem Markt erhältlich, während Amazon Nova Premier für das erste Quartal 2025 geplant ist.
Neben der Leistung stellte Jassy fest, dass diese Modelle auch andere Highlights bieten, zunächst ihre hohe Kosteneffizienz, sie sind etwa 75 % günstiger als andere ausgezeichnete Modellprodukte bei Amazon Bedrock. Darüber hinaus sind sie sehr schnell, mit hervorragender Leistung in Bezug auf Latenzzeit, was sie zu den schnellsten Modellen macht, die es gibt.
Die bereits erhältlichen Modelle sind nicht nur in Amazon Bedrock integriert, sondern auch tief mit allen Funktionen von Amazon Bedrock verknüpft. Das bedeutet, dass Entwickler die Modelle anpassen oder das Wissensarchiv von Bedrock, RAG, zur Verbesserung der Modelle nutzen können oder die Destillationsfunktionen von Bedrock verwenden, um die Intelligenz der großen Modelle auf kleinere Modelle zu übertragen und so die Effizienz zu steigern und die Latenzzeit zu verringern.
Zusätzlich zu den vier Texterzeugungsmodellen kündigte Jassy zwei neue Modelle zur Erzeugung visueller Inhalte an.
Zunächst ist da Amazon Nova Canvas, ein hochmodernes Bildgenerierungsmodell, das professionell gestaltete Bilder basierend auf Text- oder Bildhinweisen erstellen kann. Es bietet auch einige praktische Funktionen, wie das Bearbeiten von Bildern mit Texteingaben sowie Steuerungsoptionen für Farbschemata und Layout. Das Modell enthält auch Funktionen zur Unterstützung der sicheren und verantwortungsvollen Nutzung von KI, darunter Wasserzeichen (zur Nachverfolgung der Bildquelle) und Inhaltsprüfungsfunktionen (zur Beschränkung potenziell schädlicher Inhalte).
In von Drittanbietern durchgeführten menschlichen Vergleichsbewertungen schnitt Amazon Nova Canvas besser ab als OpenAI DALL-E 3 und Stable Diffusion. Unten ist eine Bilderreihe zu sehen, die von Amazon Nova Canvas erstellt wurde:
Von Amazon Nova Canvas generiert
Von Amazon Nova Canvas generiert
Dann gibt es noch Amazon Nova Reel, ein hochmodernes Videogenerierungsmodell, das es ermöglicht, mit Leichtigkeit qualitativ hochwertige Videos basierend auf Text- und Bildhinweisen zu erstellen, perfekt für Werbe-, Marketing- oder Schulungsinhalte. Benutzer können visuelle Stil- und Rhythmusoptionen durch natürliche Spracheingabe steuern, einschließlich Kamerabewegung, Rotation und Zoom. In von Dritt anbietern durchgeführten menschlichen Vergleichsbewertungen waren die Videoqualität und die Konsistenz der von Amazon Nova Reel generierten Videos besser als die der Gen-3 Alpha von Runway.
Video erstellt von Amazon Nova Reel|Videoquelle: Amazon Web Services
Ähnlich wie Canvas hat Nova Reel ebenfalls Sicherheits- und Verantwortlichkeitsfunktionen, einschließlich Wasserzeichen und Inhaltsprüfung. Aktuell unterstützt es die Erstellung von Videos bis zu 6 Sekunden Länge, die in den nächsten Monaten auf bis zu 2 Minuten erweitert werden soll.
Jassy teilte auch Novas zukünftige Pläne mit, darunter die Entwicklung der zweiten Generation der oben genannten Modelle bis zum nächsten Jahr. Außerdem ist die Einführung eines Sprach-zu-Sprach-Modells im ersten Quartal und eines Any-to-Any-Modells bis Mitte des nächsten Jahres geplant. Dies bedeutet ein Multi-Modal-Modell, das Texte, Sprache, Bilder oder Videos als Eingabe und entsprechend als Ausgabe verarbeiten kann.
Von Titan zu Nova, mit der Veröffentlichung von zwei großen Modellen in kurzer Folge, könnte es Bedenken geben, dass Amazon Web Services (AWS) seine Modellstrategie im Hinblick auf zahlreiche Partnerschaften mit großen Modellentwicklern ändern könnte.
Jassy war sich dessen bewusst und erklärte Amazons Position auf der Konferenz selbst:
"Vielleicht fragen sich die Leute, wie sie Amazons Modellstrategie sehen sollen. Schließlich arbeiten wir eng mit vielen Modellanbietern zusammen und entwickeln gleichzeitig unsere eigenen Modelle. Ich möchte sagen, dass das Ziel immer darin besteht, Wahlmöglichkeiten zu bieten, die die breitesten und hochwertigsten Funktionen darstellen, und das bedeutet zwangsläufig eine Vielfalt an Auswahlmöglichkeiten."
Matt Garman, CEO von AWS, erklärt, dass Entwickler auf Amazon Bedrock Modelle von Amazon oder beliebigen Ökosystempartnern auswählen können.|Bildquelle: Amazon Web Services
02 Der größte E-Commerce-Plattform der Welt: Was tun mit generativer KI?
Neben der Einführung der neuen großen Modelle erläuterte Andy Jassy auch ausführlich die internen KI-Anwendungsfälle von Amazon.
Als die größte E-Commerce-Plattform der Welt und "erster Kunde" von Amazon Web Services hat Amazon im vergangenen Jahr versucht, für mehrere Geschäftsfelder KI zur Effizienzsteigerung einzusetzen, um die Probleme der Benutzer zu lösen. Typische Szenarien sind:
Bessere Empfehlungen und personalisierte Vorschläge im Einzelhandel;
Planung der besten Wege für die Picker der Erfüllungszentren, um die Produkte schneller zu den Kunden zu bringen;
Anwendung in unseren Prime Air Drohnen, mit dem Ziel, in den nächsten Jahren Lieferungen innerhalb von weniger als einer Stunde zu ermöglichen;
Die Just Walk Out-Technologie in Amazon Go Stores, technische Unterstützung für Alexa;
Bereitstellung von mehr als 25 AWS KI-Diensten, die es Entwicklern erleichtern, KI-Anwendungen zu erstellen.
Aus den von Amazon beobachteten AI-Anwendungsfällen leitet Andy ab, dass AI-Anwendungen zur Problemlösung ("nützliche KI") zwei praktische Werte haben: Kostensenkung und Effizienzsteigerung oder die Schaffung neuer Erlebnisse.
"In globalem Maßstab zeigen Unternehmen, die am erfolgreichsten AI einsetzen, Fortschritte bei der Kostenvermeidung und Produktivitätssteigerung, und viele Unternehmen haben in diesen Bereichen Fortschritte erzielt. Gleichzeitig sieht man auch einige ganz neu gedachte und neu gestaltete Kundenerlebnisse."
Andy führte typische interne Anwendungsfälle für diese beiden AI-Anwendungsarten an:
AI zur Kostensenkung und Effizienzsteigerung
1) Intelligenter Kundenservice
Ein Beispiel aus dem Kundenservice: Amazons Einzelhandelsgeschäft hat Hunderte Millionen Kunden. Früher konnte man, wenn man den Kundenservice kontaktieren wollte, das über einen Chatbot tun, der auf einer statischen Entscheidungsbaum-Maschinenlerntechnologie basierte, bei der der Kunde viel Text eingeben musste, um eine Antwort zu erhalten.
Doch nach der Umstrukturierung mit generativer KI haben Kunden jetzt einen Ansprechpartner, der sie versteht.
Angenommen, Sie haben vor einigen Tagen ein Produkt bestellt; wenn Sie den neuen Chatbot starten, weiß er, wer Sie sind, was Sie vor einigen Tagen bestellt haben und wo Sie wohnen. Durch die Modellprognose kann er vorhersehen, dass die meisten Kunden, die den Kundenservice nach einigen Tagen kontaktieren, wahrscheinlich Fragen zu Rücksendungen haben. Während Sie ihm die Situation erklären, kann er schnell die nächstgelegenen Whole Foods oder andere Rückgabemöglichkeiten für Phys ische Geschäfte aufzeigen. Das Modell ist intelligent genug, um zu erkennen, wenn der Benutzer frustriert ist und möglicherweise mit einem menschlichen Agenten sprechen möchte, um das Problem zu lösen.
Vor der neuen Konzeption war die Kundenzufriedenheit mit dem Chatbot bereits ziemlich hoch, aber seit dem Hinzufügen der generativen KI hat die Kundenzufriedenheit um 500 Basispunkte zugenommen.
2) Verkäufer Formularausfüllung
Amazon hat weltweit etwa zwei Millionen Verkäufer in seinen Einzelhandelsgeschäften, wobei über 60% der verkauften Produkte von diesen Verkäufern bereitgestellt werden. Früher mussten sie beim Hochladen von Produkten auf die Website ein langes Formular mit vielen Feldern ausfüllen, um den Endkunden das Browsen und Verstehen der Produktinformationen zu erleichtern, was für die Verkäufer eine erhebliche Aufgabe darstellte.
Jetzt hat Amazon mit generativer KI ein neues Tool entwickelt, mit dem Verkäufer nur ein paar Wörter eingeben oder ein Foto machen oder eine URL bereitstellen müssen, und das Tool kann viele Produktattributinformationen ausfüllen, was die Arbeit für die Verkäufer erheblich erleichtert. Über 500.000 Verkäufer nutzen derzeit dieses generative KI-Tool.
3) Bestandsverwaltung
Amazons Bestandsverwaltung im Einzelhandelsgeschäft ist ebenfalls ein großes Szenario mit über 1.000 verschiedenen Gebäuden oder Knoten, um die richtigen Produkte optimal an Erfüllungszentren oder Gebäude zu verteilen, die den Kunden am nächsten liegen, um Transportzeit zu sparen und Produkte schneller und kostengünstiger zuzustellen. Dabei müssen jedoch Lagerbestände in einem Erfüllungszentrum berücksichtigt werden, wie z.B. das Inventar eines bestimmten Produkts, welche Produkte bestellt werden, wie schnell sie bestellt werden, ob es mehr Lagerkapazität im Erfüllungszentrum gibt oder ob das Inventar auf andere Erfüllungszentren übertragen werden muss, um das gesamte Lagernetzwerk auszubalancieren.
Amazon nutzt Transformer-Modelle, um diese Probleme zu lösen und Prognosen zu erstellen. Derzeit hat ein Transformer-Modell für langfristige Prognosen die Prognosegenauigkeit um 10% und die regionale Prognosegenauigkeit sogar um über 20% verbessert. Bei Amazons Einzelhandelsgeschäft in Milliardenhöhe bedeutet eine Effizienzsteigerung im zweistelligen Bereich eine Kosteneinsparung in Milliardenhöhe.
4) Roboter
Im Roboterszenario hat Amazon über 750.000 Roboter in den Erfüllungszentren eingeführt, und eine Reihe von AI-Technologien hilft, die Kapazität und Transportkapazität zu optimieren, Bearbeitungszeiten zu verkürzen und die Servicekosten zu senken.
Ein Beispiel ist Sparrow, ein Roboterarm zur Rückklassifizierung. Er muss regelmäßig Gegenstände aus verschiedenen verstreuten Bereichen sammeln und in Container packen. Mit dem generativen KI-Gehirn kann Sparrow sagen, welche Gegenstände in der ersten K iste sind und welche er holen soll. Gleichzeitig muss Sparrow erkennen, welche Gegenstände spezifisch sind und wissen, wie man sie basierend auf ihrer Größe, ihrem Material und ihrer Flexibilität richtig greift, und wissen, wo sie im empfänglichen Container platziert werden sollen.
Derzeit wurden in einem Erfüllungszentrum in Shreveport, Louisiana, etwa fünf brandneue Robotererfindungen eingeführt, welche die Bearbeitungszeit um 25% verkürzt haben. In Zukunft werden die Servicekosten voraussichtlich ebenfalls um 25% sinken.
AI für innovative Kundenerlebnisse
Dies sind einige der internen Beispiele von Amazon für Kostensenkung und Produktivitätssteigerung, und Amazon sieht auch das Potenzial von generativer KI bei der Schaffung völlig neuer Einkaufserlebnisse, von denen Jassy einige typische Beispiele nennt.
1) Rufus Einkaufsteam
Ein erstes Beispiel ist das Rufus Einkaufsteam.
Wenn Kunden nicht sicher sind, was sie wollen, und sich bei der Auswahl unsicher fühlen, durchsuchen sie möglicherweise Produktkategorien, lesen Kundenbewertungen usw., aber Rufus Einkaufsteam bietet jetzt das Erlebnis einer "echten Verkaufsberatung".
Es ist, als ob man in ein Geschäft geht und nicht sicher ist, was man möchte, und einem Verkaufspersonal beschreiben, was man sucht, das einem dann geeignete Waren empfiehlt und bei weiteren Fragen schnelle Antworten bietet. Rufus bietet jetzt diese Art von Erfahrung.
Durch Rufus kann man auf jeder Produktdetailseite Fragen stellen, und Rufus gibt schnell Antworten. Es hilft bei Produkt- und Kategorievergleichen und gibt auf Anfrage Empfehlungen. Man kann weitschweifige Fragen stellen und Empfehlungen erhalten, Rufus stellt dann spezifische Fragen, um den eigentlichen Bedarf besser zu verstehen. Zum Beispiel kann man Rufus sagen: "Hey, ich möchte die Golfschläger, die ich vorher gekauft habe, finden, kannst du mir helfen?" Rufus kann sie finden. Fragen Sie: "Prüfe den Status der Bestellungen , die noch nicht versendet wurden." Es kann den Status finden.
Rufus hat gegenüber einem physischen Verkaufsmitarbeiter einen Vorteil: Es wechselt nicht zu anderen Einzelhändlern oder in eine andere Branche, es bleibt immer bei Ihnen und kennt Ihre Absichten und Interessen besser.
2) Alexa
Auch Alexa, eingeführt von Amazon im Jahr 2014, hat ein neues Gehirn erhalten.
Ziel von Alexa ist es, der weltweit beste persönliche Assistent zu werden, und mit den großen Sprachmodellen und generativer KI rückt dieses Ziel in greifbare Nähe. Alexa ist auf allen von Amazon verkauften Geräten aktiv, mit 500 Millionen Knoten, die Menschen verwenden, um zu unterhalten, einkaufen, Informationen abzurufen und Smart Homes zu steuern.
Derzeit verwendet Amazon mehrere Basis-Modelle, um Alexa neu zu gestalten und es nicht nur besser machen, Ihre Fragen zu beantworten, sondern auch Dinge zu tun, die gegenwärtig nur wenige generative KI-Anwendungen schaffen – nämlich Ihre Bedürfnisse zu verstehen und vorherzusagen und sogar für Sie zu handeln. Jassy deutete an, dass in den kommenden Monaten hierzu weitere Ergebnisse zu sehen sein werden.
3) Amazon Lens
Auf der Amazon-Website gibt es jetzt ein neues Feature namens Amazon Lens. Angenommen, man sieht bei einem Freund einen tollen Blumenkübel und möchte wissen, woher dieser stammt, aber der Freund weiß es auch nicht.
Man könnte "Amazon, Blumenkübel, hängend, geflochten" in eine Suchmaschine eingeben, könnte eine gute Antwort erhalten oder auch nicht.
Nun können Sie Amazon Lens verwenden, indem Sie einfach ein Foto des Gegenstands machen. Amazon Lens verwendet Computer Vision und ein multi-modales Modell, um anhand des Fotos zu suchen und die richtigen Suchergebnisse auf Amazon anzuzeigen, damit der Kauf leicht erfolgt.
4) Größenempfehlungen
Amazon hat auch ein großes Sprachmodell für Größenempfehlungen entwickelt, das ein neues Erlebnis für den Online-Einkauf bietet.
Wenn man zum Beispiel ein Hemd kaufen möchte und nicht sicher ist, ob die Größe dieses Markenlabels größer oder kleiner ist, und sich unsicher ist, ob man eine mittlere oder große Größe wählen soll, kann das Modell für Größenempfehlungen die Größenrelationen zwischen den verschiedenen Marken analysieren, um herauszufinden, welche Marken größer oder kleiner ausfallen und welche ähnlich sind, und Ihnen eine passende Größe basierend auf Ihren bisherigen Einkäufen automatisch empfehlen.
5) Verteidigungsalarm
Jassy erklärte außerdem, was Amazon im Videobereich tut, beispielsweise mit dem Projekt Next Gen Stats in Zusammenarbeit mit der NFL, das pro Saison 500 Millionen Datenpunkte sammelt, um KI-Modelle zu entwickeln und eine Funktion namens "Verteidigungsalarm" zu erstellen.
Diese Funktion kann anzeigen, welcher Verteidigungsspieler möglicherweise auf den Quarterback zueilt, und markiert es im Bild, was das Zuschauererlebnis erheblich ändert. Zudem wurde eine "Verteidigungsanfälligkeit" erstellt, die dem Publikum zeigt, wohin der Angriff gezielt zu führen ist. Diese Funktionen bieten den Fans ein neues Seherlebnis.
Auf dem Weg zur Kostensenkung, Effizienzsteigerung und Schaffung neuer Erlebnisse sind dies die Szenarien, in denen Amazon interne AI zur Lösung konkreter Probleme einsetzt. Andy Jassy gab bekannt, dass Amazon intern fast 1.000 generative KI-Anwendungen erstellt hat oder dabei ist, diese zu erstellen.
Dieser Artikel wurde von der WeChat-Öffentlichkeitskonto "Geek Park" erstellt, Autor: Wancheng, veröffentlicht mit Genehmigung von 36Kr.