28,2 Milliarden. Die größte Finanzierungsrunde in der europäischen KI-Branche ist entstanden.
Die größte Finanzierung im Bereich KI in Europa ist dieses Jahr erfolgt.
Kürzlich hat das londoner Künstliche-Intelligenz-Unternehmen Synthesia die Abschluss eines 200-Millionen-Dollar-E-Runden-Finanzierungsvorgangs angekündigt und einen Unternehmenswert von 4 Milliarden Dollar erreicht.
Im Gegensatz zu den meisten Start-ups, die sich auf allgemeine Large Language Models konzentrieren, setzt Synthesia auf die Unternehmens-KI-Videoerstellung und hilft globalen Organisationen, Textwissen effizient in mehrsprachige Schulungs- und Kommunikationsvideos umzuwandeln.
Von der frühen Ablehnung durch fast 100 Venture Capital-Firmen bis hin zur heutigen Position als Vorbild für die KI-Anwendungsschicht in Europa: Der Weg von Synthesia bestätigt einen Trend: Im KI-Wahn gewinnt nicht die aufwendigste Technologie den Markt, sondern die tiefste Verankerung in konkreten Anwendungsfällen.
Das Unicorn, das durch perfektes Produkt-Market-Fit entstanden ist
Anfang 2026 erreichte der KI-Sektor in Europa einen markanten Moment: Das in London ansässige KI-Video-Unternehmen Synthesia kündigte die Abschluss einer 200-Millionen-Dollar-Finanzierung an, mit einem geschätzten Unternehmenswert von 4 Milliarden Dollar nach der Finanzierung. Dies ist nicht nur die größte Einzelrunden-Finanzierung in der Geschichte des generativen Künstliche-Intelligenz-Bereichs in Europa, sondern hat auch Synthesia in eine Spitzenposition unter den Konkurrenten gebracht und es zu einem der wertvollsten KI-Anwendungsschicht-Unicorns in der Region gemacht.
Die Beteiligung wurde von GV (Google Ventures), einer Tochtergesellschaft von Alphabet, geleitet, und es folgten namhafte Investoren wie NVentures von Nvidia, Accel, NEA und Kleiner Perkins. Doch noch interessanter als die Finanzierungsbeträge ist, wie Synthesia es in nur wenigen Jahren geschafft hat, sich von einem Randprojekt, das als "Werkzeug für Falschmeldungen" angezweifelt wurde, zu einer Infrastrukturplattform zu entwickeln, die mehr als die Hälfte der weltweit größten 100 Unternehmen bedient. Die Kernantwort verbirgt sich in einem scheinbar trockenen, aber äußerst gewinnbringenden Anwendungsfall: Unternehmensschulungen.
In globalen Großunternehmen wird Wissen über lange Zeit in Textform festgehalten – in Betriebsanleitungen, Compliance-Richtlinien, Produktdokumentationen und Sicherheitsvorschriften. Diese Inhalte sind zwar professionell und genau, aber oft langweilig und schwer zu lesen, was zu geringer Mitarbeiterbeteiligung und schlechten Umsatzraten führt. Laut einer Studie von McKinsey geben Unternehmen jährlich durchschnittlich über 2 Millionen Dollar für die Erstellung von Schulungsinhalten aus, wobei jedoch über 60 % der Textdokumente nie effektiv in eine verbreitbare und verständliche Form umgewandelt werden und somit "Wissensmüll" werden.
Genau hier setzt Synthesia an. Mit seiner eigenen generativen KI-Technologie wandelt es automatisch einen Text in ein hochwertiges Video um, das von einem "Digitalen Menschen" präsentiert wird. Die Synthesia-Plattform ist sehr einfach zu bedienen. Es gibt zahlreiche vorhandene PowerPoint-Vorlagen, in die man einfach den Inhalt einfügt. Die KI-Figur passt automatisch die Mundbewegungen an und gestikuliert, und jede Seite kann nochmals bearbeitet werden. Am Ende entsteht ein standardisiertes Unternehmensschulungsvideo, das professionell aussieht, einen gleichmäßigen Rhythmus hat und in Massenproduktion hergestellt werden kann.
Mit anderen Worten, der Kernwert von Synthesia liegt darin, dass es Unternehmen hilft, ihre bestehenden textbasierten Wissensbestände – wie Betriebsanleitungen, Compliance-Richtlinien oder Schulungsmaterialien – effizient in Videoform umzuwandeln. Für multinationale Unternehmen ist der traditionelle Videoproduktionsprozess komplex und erfordert Skriptschreibung, Synchronsprecher, Dreharbeiten und Nachbearbeitung. Hinzu kommt, dass jede zusätzliche Sprache in der Regel wiederholte Investitionen erfordert. Synthesia ermöglicht es Benutzern hingegen, in kurzer Zeit mehrsprachige Videos mit Digitalen Menschen als Sprechern zu erstellen, indem sie einfach Text eingeben. Dies vereinfacht die Inhaltserstellungskette erheblich.
Laut Angaben auf der Unternehmenswebseite zählen zu den Kunden von Synthesia globale Unternehmen wie Coca-Cola, Pfizer, Accenture, JPMorgan Chase, Unilever und Siemens. Diese Kunden nutzen die Plattform hauptsächlich für interne Zwecke, wie die Einarbeitung von Mitarbeitern, die Vermittlung von Produkterkenntnissen und die Verbreitung von Compliance-Richtlinien, und nicht für externe Marketingzwecke. Diese Fokussierung auf die interne Unternehmenskommunikation hat Synthesia vor dem heftigen Wettbewerb im Konsumenten-KI-Bereich bewahrt und es ermöglicht, sich auf einen Markt mit hohen Zugangshürden und hoher Kundenbindung zu konzentrieren.
Genau diese Verständnis für die Entscheidungslogik von Unternehmen hat Synthesia in der Welle des generativen KI zu einem differenzierten Ansatz geführt: Anstatt sich auf die allgemeine Inhaltserstellung zu konzentrieren, integriert es sich in die bestehenden Wissensmanagement- und Lernentwicklungsprozesse von Unternehmen und wird zur Infrastruktur zur Verbesserung der Informationsumwandlungseffizienz.
Das ausgegrenzte Geschäft, das 99 Mal abgelehnt wurde
Im Jahr 2017 sitzen Victor Riparbelli und einige Doktoranden aus Cambridge und der University College London in einem kleinen Coworking-Office in London und testen wiederholt ein Video. Auf dem Bildschirm erklärt ein virtueller Charakter einen technischen Text in fließendem Englisch. Dies scheint eine gewöhnliche KI-Experiment zu sein, wird aber zum Ausgangspunkt der Unternehmensgeschichte von Synthesia. Niemand hätte damals gedacht, dass dieses Projekt, das von fast 100 Venture Capital-Firmen abgelehnt wurde, in weniger als zehn Jahren zu einem 4-Milliarden-Dollar-Unicorn in Europa werden würde.
Zu Beginn der Gründung war die Richtung von Synthesia noch unklar. Das Team plante zunächst, eine Plattform für Digitale Menschen für Verbraucher zu entwickeln, auf der Benutzer ihre eigenen virtuellen Doppelgänger für soziale oder unterhaltsame Zwecke erstellen könnten. Der Markt reagierte jedoch kalt. Noch problematischer war, dass ihre Technologie häufig mit "Deepfakes" in Verbindung gebracht wurde. Bei einer frühen Präsentation wurde der Vortrag von einem Investor unterbrochen, der fragte: "Planen Sie, Falschmeldungen zu erstellen?" Solche Zweifel waren häufig. Zu dieser Zeit war die Welt besonders sensibel gegenüber Falschinformationen, und jede Technologie, die mit Gesichtssynthese verbunden war, wurde leicht mit ethischen Risiken in Verbindung gebracht.
Über zwei Jahre lang blieb Synthesia fast unbeachtet. Das Gründerteam bat 99 Investmentfirmen um Finanzierung, erhielt aber entweder Absagen oder Schweigen als Antwort. Einige Investoren sagten offen, dass B2B-KI-Videos zu fernläufig seien und Unternehmen nicht für solche "hübsche Funktionen" zahlen würden. Andere waren der Meinung, dass die Videoproduktion eine seltene Anforderung sei und nicht ausreichen würde, um das langfristige Wachstum eines SaaS-Produkts zu unterstützen. In der schlimmsten Phase hielten sich das Team mit Teilzeitberatungsarbeiten am Leben, und die Bürorente musste in Raten gezahlt werden.
Der Mitbegründer Steffen Tjerrild schickte in seiner Verzweiflung eine E-Mail an den amerikanischen Milliardär und Eigentümer der NBA-Mannschaft Dallas Mavericks, Mark Cuban. Interessanterweise wurde diese E-Mail-Adresse aus einer Datenbank abgerufen, die bei einem Hackerangriff auf Sony vor einigen Jahren preisgegeben wurde.
Mark Cuban antwortete innerhalb von 5 Minuten. Dann folgte eine 14-stündige E-Mail-Korrespondenz – Cuban telefoniert nicht, sondern kommuniziert nur per E-Mail – und um 4 Uhr morgens britischen Zeit hatte Cuban zugestimmt, 1 Million Dollar zu investieren.
Dieser Betrag hat Synthesia am Leben erhalten und bestätigt eine Ansicht, die das Gründerteam später immer wieder betont hat: Die besten Investoren sind diejenigen, die bereits an Ihre Vision glauben. Anstatt Zeit zu verschwenden, um Zweifler zu überzeugen, sollten Sie diejenigen finden, die bereits an diese Richtung glauben, und sich dann von ihnen beurteilen lassen, ob Sie die richtigen Personen sind, um diese Aufgabe auszuführen.
Im Jahr 2020 hat die Pandemie die Nachfrage nach Remote-Arbeit und digitalen Schulungen beschleunigt. In der Kundenliste von Synthesia tauchten nun Namen wie Accenture, Pfizer und Unilever auf. Diese Unternehmen stellten fest, dass die Verwendung von KI-Videos anstelle von Teilen der von Menschen aufgenommenen Inhalte nicht nur Kosten spart, sondern auch die Abschlussrate der Mitarbeiter-Schulungen erheblich verbessert. Ein Schulungsleiter eines Pharmaunternehmens sagte einmal, dass die Durchschnittsabschlussrate von Compliance-Kursen zuvor unter 40 % lag, nach der Einführung von Synthesia aber auf über 85 % stieg.
Die Einstellung des Kapitalmarktes hat sich daraufhin umgedreht. Im Jahr 2021 leitete GV, eine Tochtergesellschaft von Google-Mutterunternehmen Alphabet, die Serie-A-Finanzierung. 2023 schloss sich Kleiner Perkins an der Serie-B-Finanzierung an. Bis zur Serie-C-Finanzierung im Jahr 2026 strömten Top-Investoren wie Accel in das Unternehmen. Die Technologie, die einst als "zu früh" angezweifelt wurde, wird heute als Vorbild für die Umsetzung von KI in Unternehmen angesehen.
Das Gründerteam von Synthesia gibt zu, dass die größte Lehre aus der Zeit der 99 Ablehnungen nicht darin lag, dass die Technologie nicht gut genug war, sondern dass sie den richtigen Wertanker nicht gefunden hatten. Als sie von "Was wir können" zu "Was Unternehmen wirklich brauchen" wechselte, lief alles plötzlich reibungslos. KI-Videos mögen im Konsumentenbereich nur ein neues Spielzeug sein, aber im Unternehmensinneren lösen sie das langjährige Problem der ineffizienten Wissensvermittlung.
Noch wichtiger ist, dass sie den heftigen Wettbewerb vermieden haben. Während unzählige Start-ups sich auf KI-Chatbots, Bildgenerierung oder Kurzzeitvideo-Filter konzentrieren, hat Synthesia sich still und leise auf einen scheinbar trockenen Nischenmarkt konzentriert. Genau diese "unerwünschte" Wahl hat eine hohe Eingangshürde errichtet: Unternehmenskunden legen Wert auf Sicherheit, Stabilität und Integrationsfähigkeit, nicht auf die Schönheit der Benutzeroberfläche. Dies erklärt auch, warum Nachzügler, auch wenn ihre Technologie ähnlich ist, es schwer haben, die Vorsprungsposition von Synthesia zu erschüttern.
KI-Videos werden zur neuen Unternehmensinfrastruktur
Der Unternehmenswert von 4 Milliarden Dollar von Synthesia ist nicht nur ein Erfolg für das Unternehmen selbst, sondern markiert auch den Beginn eines neuen Wendepunkts in der Branche.
In den letzten Jahren hat die generative Künstliche Intelligenz den Übergang von der Laborphase in die kommerzielle Anwendung hinter sich gebracht. Video, das Medium mit der höchsten Informationsdichte und der reichsten emotionalen Expression, wird zum Schlüsselträger für die Umsetzung von KI in Unternehmensszenarien. Im Gegensatz zur Bildgenerierung oder Textproduktion liegt der Wert von KI-Videos nicht in der "Aufzeigung von Technologie", sondern in der Lösung von strukturellen Problemen, die in der Unternehmensführung seit langem bestehen: Die Aktivierung von festgehaltenem Wissen ist schwierig, die Effizienz der Inhaltserstellung ist niedrig, und die Kosten für die globale Kommunikation sind hoch. Heute werden diese Probleme durch ein neues Technologieparadigma systematisch gelöst.
Die Nachfrage von Unternehmen nach Videos geht weit über das Marketing hinaus. In der internen Unternehmensführung ist Video zu einer unabdingbaren Komponente in Kernprozessen wie Schulungen, Compliance, Kundenservice und Produktvorstellungen geworden. Die traditionelle Videoproduktion hängt jedoch von professionellen Teams ab, dauert oft Wochen und kostet oft Tausende von Dollar. Darüber hinaus ist es schwierig, die Videos lokal anzupassen. Eine Studie von McKinsey zeigt, dass die weltweit 500 größten Unternehmen durchschnittlich mehr als 500 Stunden an interner Videoinhalte pro Jahr produzieren, aber über 70 % davon nur einmal verwendet werden und dann auf den Servern einschlafen, ohne wiederverwendet, aktualisiert oder hinsichtlich ihrer Effektivität überprüft zu werden. Diese Verschwendung von "Einmalinhalten" ist das grundlegende Problem, das KI-Videos lösen sollen.
Die Kernfähigkeit von KI-Video-Plattformen besteht darin, statische Wissensbestände in dynamische, interaktive und skalierbare Inhaltseinheiten umzuwandeln. Benutzer müssen nur einen Text-Skript eingeben, und das System erstellt automatisch ein Video mit Digitalen Menschen als Sprechern. Das System unterstützt über 120 Sprachen, und die Mundbewegungen stimmen mit der Stimme genau überein, während die Gesichtsausdrücke natürlich und fließend sind. Noch wichtiger ist, dass diese Videos nicht isoliert existieren, sondern in die bestehenden Unternehmensabläufe integriert werden können. Beispielsweise kann das System automatisch ein personalisiertes Einstellungsvideo generieren, wenn ein neuer Mitarbeiter in das Personalmanagement-System aufgenommen wird. Wenn die Produktdokumentation aktualisiert wird, wird auch das entsprechende Schulungsvideo automatisch aktualisiert, um sicherzustellen, dass alle Mitarbeiter die gleichen Informationen erhalten. Dieser "datengetriebene Inhaltserstellung"-Ansatz wandelt Videos von "Fertigprodukten" zu "Diensten" und integriert sie wirklich in das digitale Nervensystem von Unternehmen.
Der Anwendungsbereich von KI-Videos erweitert sich derzeit rasch. In der Finanzbranche verwenden Banken KI-Videos zur Erstellung von Anti-Geldwäsche-Schulungen, um sicherzustellen, dass alle Zweigstellen weltweit die gleichen Regulierungsanforderungen einhalten. Im Pharma-Bereich nutzen Pharmakonzepte mehrsprachige KI-Videos, um Ärzten präzise Informationen über neue Medikamente zu vermitteln und so Übersetzungsfehler zu vermeiden. In der Fertigungsindustrie wandeln Fabriken Betriebsanleitungen in AR-übersetzte Anleitungsvideos um, so dass Arbeiter mit Smartgläsern die Reparaturschritte von Maschinen direkt vor ihren Augen sehen können. Laut einer Prognose von Gartner werden bis Ende 2026 30 % der großen Unternehmen KI-generierte Videos für die interne Kommunikation einsetzen, ein Anteil, der 2023 noch unter 5 % lag. Der Marktanalyst CB Insights schätzt, dass der Markt für Unternehmens-KI-Videos bis 2028 einen Volumen von über 5 Milliarden Dollar erreichen wird.
Der Wettbewerb im Markt entwickelt sich ebenfalls schnell. Die gegenwärtigen Marktteilnehmer lassen sich grob in drei Kategorien einteilen. Die erste Kategorie sind vertikale SaaS-Unternehmen, die sich auf den B2B-Markt konzentrieren und auf Sicherheit, Integrationsfähigkeit und Unternehmensdienstleistungen legen. Die Kunden dieser Unternehmen sind hauptsächlich Weltklasse-Unternehmen, die hohe Preise zahlen und eine hohe Verlängerungsrate haben. Allerdings dauert der Verkaufsprozess lang, da es erforderlich ist, tief in die IT-Infrastruktur der Kunden einzudringen.
Die zweite Kategorie sind leichte Tool-Plattformen, die auf kleine und mittlere Unternehmen oder private Inhaltsersteller abzielen und eine kostenfreundliche, aber funktionell eingeschränkte Lösung für die Selbstbedienung von Videoerstellung bieten. Diese Plattformen sind jedoch oft nicht in der Lage, komplexe Compliance-Anforderungen zu erfüllen.
Allerdings wird es noch einige Zeit dauern, bis die großen Konzerne vollständig in den Markt eintreten. Unternehmens-KI-Videos sind nicht einfach eine Zusammenfügung von Stimme und Bild, sondern erfordern komplexe Prozesse wie Identitätsautorisierung, Inhaltsüberprüfung, Datentrennung und die Integration von mehreren Systemen. Synthesia konnte die Spitzenkunden gewinnen, weil es frühzeitig viel in die Aufbau eines Compliance-Systems investiert hat und Zertifikate wie SOC 2 Type II und ISO 27001 erworben hat. Darüber hinaus unterstützt es die private Installation. Diese Fähigkeiten sind in kurzer Zeit schwer zu replizieren und bilden eine solide Schutzmauer.
Aus globaler Perspektive entwickelt Europa in der KI-Anwendungsschicht einen differenzierten Ansatz. Im Gegensatz zu den USA, die sich auf die Grundlagenforschung von Large Language Models konzentrieren, und China, das sich auf die Monetarisierung von Konsumenten-Traffic konzentriert, neigen europäische Unternehmen eher dazu, sich auf B2B-Szen