AI-Vision-Startup „Luma AI“ erhält Millionenfinanzierung, Amazon und AMD investieren|Exklusiv von 36Kr
Geschrieben von|Zhou Xinyu
Redaktion|Su Jianxun
Intelligent Emergence hat erfahren, dass das in Silicon Valley ansässige Unternehmen im Bereich AI-Vision "Luma AI" kürzlich eine neue Finanzierungsrunde in Höhe von mehreren Millionen US-Dollar abgeschlossen hat.
Zu den Investoren dieser Runde gehören Amazon, AMD, Factorial Funds und LDV Capital, vier Unternehmen oder Fonds aus Europa und den USA. Gleichzeitig haben die bestehenden Investoren A16Z, Amplify Partners und Matrix Partners ihre Investitionen weiter erhöht.
Es ist bekannt, dass die Finanzierung hauptsächlich zur Beschleunigung der Entwicklung von Grundlagenmodellen und Produkten der visuellen künstlichen Intelligenz verwendet wird.
Gegründet im Jahr 2021, ist Luma AI ein technologieorientiertes Unternehmen, das sich auf Computer Vision-Inhalte konzentriert und selbstentwickelte Modelle für Videoerstellung, 3D-Erstellung und Bilderstellung anbietet. Im Januar 2024 berichtete Intelligent Emergence über Luma AIs Abschluss einer Serie-B-Finanzierung von 43 Millionen US-Dollar, bei der A16Z als Investor auftrat.
Weltweit befindet sich die Ressourcenverteilung im Bereich AI in der "Halbzeit". Laut einer Statistik von Techcrunch gab es in der zweiten Hälfte des Jahres 2024 im Durchschnitt 10% weniger Finanzierungsaktivitäten über 100 Millionen US-Dollar pro Monat als in der ersten Hälfte. Gleichzeitig konzentriert sich das Risikokapital zunehmend auf die Anwendungsebene von KI, insbesondere AI-Suche, AI-Vertrieb, Robotik, AI-Programmierung und ähnliche Bereiche.
Das Modellniveau ist eine Infrastruktur, das AI-Modellniveau kann nicht isoliert zum Produkt werden, letztendlich muss der Traffic von AI-Anwendungen übernommen werden - sowohl Investoren als auch AI-Fachleute haben mittlerweile dieses Bewusstsein.
Am 26. November 2024 veröffentlichte Luma AI, das sich hauptsächlich auf das Modellniveau konzentriert, nach dem populären Videoerstellung-Modell Dream Machine sein erstes KI-Anwendungsprodukt, die Dream Machine AI Kreativplattform.
"Im Vergleich zu Sprachmodellen wie ChatGPT ist das Videomodell immer noch ein relativ nischenhaftes Feld." Der Produktdesigner von Luma AI, Jiacheng Yang, stellte fest, dass die Benutzer von Dream Machine hauptsächlich Fachleute mit Erfahrung in AI oder Filmproduktion sind. Er erläuterte in einem Interview mit Intelligent Emergence die Gründe für die Veröffentlichung der AI-Kreativplattform, die sich auf Bilddesign konzentriert:
"Im Vergleich zur Videoerstellung hat der Bildbereich eine größere Benutzerbasis, was uns hilft, unsere Nutzerzahl zu erweitern. Unser Ziel ist es, ein AI-Visual-Tool zu schaffen, das sowohl für AI-Einsteiger als auch Design-Laien leicht zugänglich ist."
Die Dream Machine AI Kreativplattform kann als ein Designplattform verstanden werden, die Funktionen wie Text-Bild-Design, AI-Brainstorming, Themen/Stil-Referenz und Design-zu-Video-Umwandlung umfasst.
Themen/Stil-Referenz-Funktion der Dream Machine AI Kreativplattform. Bildquelle: Luma AI
Im Vergleich zu Text-zu-Bild-Produkten wie Midjourney oder Stable Diffusion verfügt die Dream Machine AI Kreativplattform über ein besseres Verständnis von natürlicher Sprache und kann gleichzeitig hochauflösende und designorientierte Bildunterschriften in Bildern generieren.
Von der Dream Machine AI Kreativplattform generierte hochauflösende Bildunterschrift. Bildquelle: Luma AI
Der Grund für die benutzerfreundliche und leistungsstarke Dream Machine AI Kreativplattform liegt in der grundlegenden Modellfähigkeit. Derzeit stammen die Sprachverarbeitungsfähigkeiten der Plattform von einem von Luma AI auf einem Drittanbieter-Sprachmodell aufgebauten Agent; die Bildgenerierungsfähigkeiten stammen von Luma AIs eigenentwickeltem Bilderzeugungsmodell Luma Photon; und die Bild-zu-Video-Fähigkeiten von Luma AI entstammen dem am 16. Juni 2024 veröffentlichten eigenentwickelten Videoerzeugungsmodell Dream Machine.
Zu dieser Zeit waren Videogenerierungsmodelle wie Sora und Vidu von Saras Sciences nur auf der Demoszenenstufe und wurden nicht öffentlich getestet. Dream Machine machte sich durch das frühe "kostenlose" Beta-Testing sowie seine beeindruckende Leistung und die "Meme"-Funktion in sozialen Netzwerken einen Namen.
Innerhalb von 4 Tagen überschritt die Nutzerzahl von Dream Machine 1 Million. Gleichzeitig erzählte Barkley Dai, Datenproduktmanager von Luma AI, Intelligent Emergence, dass die Werbekosten von Dream Machine 0 betrugen.
Derzeit besteht das Team von Luma AI aus etwa 50 Personen. Laut Informationen von Barkley vergrößerte sich das Team, nachdem 2023 im Dezember beschlossen wurde, mit dem Videogenerierungsprojekt zu beginnen, von 10 auf 50 Personen und rekrutierte hauptsächlich Spitzenkräfte im Bereich Videogenerierung.
Die Auswirkungen des Einsatzes von hochqualifizierten Fachkräften zeigten sich in der Leistung von Dream Machine. Derzeit kann Dream Machine ein fünf Sekunden langes Video in etwa 20 Sekunden generieren. Gleichzeitig ist Dream Machine durch extrem realistische Kamerabewegungen, natürliche Licht- und Schattenveränderungen und reiche Kamerapositionen gekennzeichnet. In der Version 1.6, veröffentlicht im September 2024, können Benutzer die Bewegungsrichtung der Kamera nur durch Eingabe von Textanfragen anpassen.
Gleichzeitig bietet Luma AI mit Genie, einem Text-zu-3D-Tool, das im Jahr 2023 gegründet wurde, weitere technische Lösungen. Genie war zu dieser Zeit das einzige verfügbare Werkzeug, das in der Lage war, innerhalb von 10 Sekunden 3D-Modelle zu generieren.
Auf der Kommerzialisierungsebene bietet Luma AI einerseits API-Zugänge für ihre Modelle in den Bereichen Video, Bild und 3D an; andererseits werden Anwendungsprodukte wie die Dream Machine AI Kreativplattform über ein Modus des begrenzten Freemiums und Abonnements monetarisiert.
Zurzeit zählt Luma AI zu den wenigen KI-Startups, die in den multimodalen Bereichen Video, Bild und 3D umfassend aufgestellt sind. In einem öffentlichen Interview erwähnte der Chefwissenschaftler von Luma AI, Jiaming Song, dass die Menge an Tokens, die für das Training von multimodalen Modellen benötigt wird, erheblich höher ist als im Sprachbereich, und dass die Scaling-Laws für Multimodalität den Modellen helfen können, die Welt besser zu verstehen.
Weiterführende Lektüre:
Wir freuen uns auf Ihren Besuch!