Von der „Ausgabe“ zur „Eingabe“ von KI-Stimmen: Worauf setzt das Kapital mit Millionen von US-Dollar?
Am 16. Juli gab das Startup für Spracheingabe Willow Voice bekannt, dass es eine Angel-Finanzierung in Höhe von 4,2 Millionen US-Dollar abgeschlossen hat, die von YC geleitet wurde. Nur einige Tage zuvor, am 25. Juni, gab auch ein anderes Startup für Spracheingabe, Wispr Flow, bekannt, dass es eine Serie-A-Finanzierung in Höhe von 30 Millionen US-Dollar abgeschlossen hat.
Bisher haben wir uns ständig mit dem Bereich der KI-Sprachtechnologie befasst. Die meisten Unternehmen, die Finanziierungen erhalten haben, befassen sich jedoch mit Sprachsynthese, also der "Ausgabe". Beispielsweise hat der Marktführer ElevenLabs im Januar dieses Jahres eine Serie-C-Finanzierung in Höhe von 250 Millionen US-Dollar abgeschlossen und einen Unternehmenswert von über 3 Milliarden US-Dollar erreicht.
Die letzten beiden Finanzierungen scheinen jedoch ein anderes Signal zu senden. Sprachstartups, die sich auf die "Eingabe" konzentrieren, erregen zunehmend das Interesse von Investoren.
Warum können Sprach-Eingabe-Startups, die schon seit 2012 existieren, noch immer Finanziierungen erhalten?
Willow Voice und Wispr Flow (im Folgenden kurz Willow und Flow) konzentrieren sich auf die ASR-Technologie (Automatische Spracherkennung). Die beiden Produkte sind im Wesentlichen ähnlich. Beide ähneln einer "Sprach-Eingabe-Methode". Benutzer müssen nur eine bestimmte Taste auf ihrem Computer oder Handy drücken, um die gesprochenen Worte direkt in Text zu transkribieren.
Auf den ersten Blick scheint dies eine Funktion zu sein, die uns im Alltag bereits vertraut ist. Beispielsweise hat WeChat 2019 eine "Sprach-zu-Text-Funktion" für iOS eingeführt. Apple hat bereits 2012 in iOS 6 die erste Version der "Sprach-Diktierfunktion" (Voice Dictation) eingeführt. Auch Star-Startups wie ElevenLabs und OpenAI im Zeitalter der KI unterstützen die Sprach-zu-Text-Funktion.
Fehlerrate bei der Ausgabe von formatiertem Text (links) und unformatiertem Text (rechts) bei der Verwendung von Sprache als Eingabe. Anmerkung: Die Fehlerrate ist in Prozent angegeben. Beispielsweise beträgt die Fehlerrate von OpenAIs Whisper bei formatiertem Text 14,9 %. Ein niedrigerer Wert bedeutet eine stärkere Modellleistung. Dieser Test umfasst auch verschiedene Szenarien wie laute Umgebungen, starke Akzente und Sprache mit Fachausdrücken. Veröffentlichungsdatum der Testergebnisse: Februar 2025 | Bildquelle: Voice Writer.io
Formatiert: Das Modell muss direkt die richtige Formatierung ausgeben. Das bedeutet, dass nicht nur die Wörter korrekt erkannt werden müssen, sondern auch die Groß- und Kleinschreibung sowie die Satzzeichen korrekt sein müssen. Unformatiert: Es wird nur die Erkennungsgenauigkeit der Wörter selbst berücksichtigt.
Nach den Tests von VoiceWriter.io gibt es mit Ausnahme der Transkriptionsfunktion von Google Cloud nur geringe Unterschiede zwischen den verschiedenen Produkten. In Szenarien mit unformatiertem Text liegt die Fehlerrate der meisten Produkte unter 10 %. Dies entspricht dem Niveau von Menschen, die nicht speziell für die Transkription trainiert sind. In Szenarien mit formatiertem Text, bei denen Satzzeichen und Groß- und Kleinschreibung berücksichtigt werden müssen, ist die Leistung der Sprach-Transkriptionsmodelle jedoch etwas schlechter. Die durchschnittliche Fehlerrate aller Produkte steigt um 10 % an.
Laut Tanay Kothari, dem Gründer von Flow, in einem Podcast ist die Wortfehlerrate (WER) von KI-Systemen bei der Transkription von unformatiertem Text zwar bereits sehr niedrig, aber es hat wenig Bedeutung. Selbst wenn ein Produkt eine Fehlerrate von weniger als 1 % erreichen kann, bedeutet dies immer noch, dass in jedem paar Sätzen ein Fehler auftritt. Benutzer können sich also nicht vollständig auf die KI verlassen.
Da es Unterschiede zwischen mündlicher und schriftlicher Sprache gibt, würden Benutzer die transkribierten Texte nicht direkt als Nachrichten senden oder in Notiz-Apps speichern. Sie müssen die Texte noch vereinfachen und korrigieren.
Unter diesem Konzept unterscheidet sich Flow von traditionellen Sprach-zu-Text-Lösungen darin, dass es sich um "Null-Bearbeitungs-Informationen" strebt. Bei beiden Produkten wird zwischen der "direkten Transkription durch die KI" und der "Ausgabe des Textes" ein "Textverarbeitungsschritt" eingefügt, um dem Benutzer direkt verwendbaren Text auszugeben. Dieser Textverarbeitungsschritt umfasst drei Ebenen: Erstens die Formatierung des Textes, d. h. die richtige Satztrennung und die Entfernung von Füllwörtern. Zweitens das Verständnis des Kontextes, z. B. die automatische Korrektur von Sprachfehlern und die Erkennung von Emotionen. Drittens die Erkennung des Kontexts, d. h. die Fähigkeit, in verschiedenen Eingabeszenarien wie Direktnachrichten, E-Mails und Notizen Texte in verschiedenen Stilen auszugeben.
Eine erste Vergleichstestung von Flow, Willow und OpenAI Whisper hat ergeben, dass die Ausgabe von OpenAI Whisper nur auf der ersten Ebene bleibt. Flow und Willow können die zweite Ebene erreichen, aber die dritte Ebene können fast alle Produkte noch nicht erreichen.
Das Ziel ist schön, aber die Realität ist enttäuschend
Von der Produktsichtweise betrachtet, verwirklichen Flow und Willow den Prozess von "mündlicher Eingabe" zu "schriftlicher Ausgabe". Da es sich um schriftliche Sprache handelt, eignen sich diese Produkte eher für Arbeitszusammenhänge.
In der Jahresrückschau der KI-Produkte von a16z haben sowohl Ammaar Reshi, der Chefdesigner von ElevenLabs, als auch der Unternehmer Ben Tossell Flow empfohlen. Aus den Empfehlungen geht hervor, dass sie es fast täglich nutzen. | Bildquelle: a16z
Da die Spracheingabe im Vergleich zur Tastatureingabe stärker auf die Umgebung einwirkt, eignet sie sich nicht so gut für normale Büroangestellte. Laut dem Gründer von Flow richteten sie sich zunächst an Silicon Valley-VC, Unternehmer und Führungskräfte, die eine große Menge an Informationen verarbeiten müssen, die Effizienz der Eingabe verbessern möchten und meist über ein eigenes Büro verfügen oder häufig außerhalb des Büros arbeiten.
Analyse der typischen Benutzer auf der offiziellen Website von Flow | Bildquelle: Flow-Website
Nach der anfänglichen Expansion über VC, Unternehmer und Führungskräfte begann Flow, über Product Hunt auf weitere potenzielle Benutzer zuzugreifen, wie z. B. Studenten, Code-Entwickler, Autoren, Anwälte und Berater. Ähnlich wie VC, Unternehmer und Führungskräfte haben diese Benutzer auch den Bedarf, eine große Menge an Text zu verarbeiten oder lange Texte einzugeben. Ihre Arbeitsorte sind allgemein flexibel, und sie bearbeiten häufig Texte außerhalb des Büros.
Angesichts der beiden Merkmale "Text-Eingabe im Arbeitszustand" und "außerhalb des Büros" haben wir drei Szenarien - To-Do-Liste, E-Mail-Antwort, Vorstellungsnotizen vor einem Meeting - festgelegt, um Willow, Flow und die Diktierfunktion von ChatGPT (angetrieben durch das Whisper-Modell) zu vergleichen.
Test 1: To-Do-Liste-Szenario
Szenariobeschreibung: In einem Auto auf dem Weg zum Büro muss ein Teamleiter die wichtigen Aufgaben des Tages zusammenfassen und in einer Notiz-App aufzeichnen.
Mündlicher Text: Hmm... Heute muss ich zunächst die Icons auf der Hauptseite aktualisieren und bis 15:30 eine Veröffentlichungsbenachrichtigung senden. Zweitens muss ich um 16:00 eine Rückschau-Meeting mit dem Team führen. Außerdem muss ich die Tagesberichte von letzter Woche an John senden. Drittens muss ich bis 17:00 das Sammeldokument der Benutzerfeedback zusammenstellen. Schließlich muss ich bis 19:00 die Planung für die nächste Woche an das Produkt-Team senden.
Ausgabebedingungen: Die wichtigen Informationen müssen korrekt sein, und die Aufgaben müssen automatisch nummeriert aufgelistet werden.
Ausgabe der verschiedenen Produkte:
Bewertung: In diesem Szenario haben alle drei Produkte die Kerninformationen wie Zeit und Aufgaben nicht verloren. Sowohl Flow als auch Willow haben die Aufgaben gemäß den Markierungen wie "zunächst", "zweitens", "drittens" und "schließlich" in Absätze unterteilt, was eher wie eine To-Do-Liste aussieht. In Bezug auf Satzzeichen und Formatierung hat Flow eine bessere Leistung gezeigt.
OpenAIs Whisper hat insgesamt die schlechteste Leistung gezeigt. Obwohl es Satzzeichen eingefügt hat, hat es die Aufgaben nicht in Absätze unterteilt und am Ende überflüssige Wörter hinzugefügt.
Test 2: Memorandum-Szenario mit Fachausdrücken
Szenariobeschreibung: Vor einer Finanzbericht-Bewertungs-Sitzung eines Brokerhauses muss ein Analyst die Highlights des Finanzberichts zusammenfassen und in Form eines Memorandums an die anderen Teammitglieder weitergeben.
Mündlicher Text: "Ähm... Ich habe gerade den Finanzbericht gelesen. Obwohl XX in diesem Quartal im Vergleich zum Vorjahr gewachsen ist, hat es im Vergleich zum letzten Quartal einen Rückgang verzeichnet. Die Quote der Abonnement-Einnahmen steigt, hauptsächlich aufgrund der Beiträge von XX und XX. Außerdem muss man sich die Convertible Bonds mit Alibaba anschauen, um zu prüfen, ob es ein Verdünnungsrisiko gibt. Ich schlage vor, dass man sich auf die Produktstruktur und die Bezahlungsmotivation konzentriert. Das Wachstum der Einnahmen bleibt eher bescheiden."
Ausgabebedingungen: Die wichtigen Informationen und Fachausdrücke müssen korrekt sein, und der Ton sollte formell sein.
Ausgabe der verschiedenen Produkte:
Anmerkung: Rot markierte Wörter sind fehlerhaft. Der Text wurde von KI generiert und dient nur zu Testzwecken und hat keine Beziehung zur Realität.
Bewertung: In diesem Memorandum-Szenario mit Fachausdrücken haben alle drei Produkte einen Fehler bei dem Fachausdruck "Verdünnungsrisiko" gemacht. Willow und Whisper haben auch eine beträchtliche Anzahl anderer Fehler gemacht. Selbst nachdem ich den Fachausdruck "Verdünnungsrisiko" manuell in Flow eingegeben habe, hat Flow ihn nicht korrekt ausgegeben. Insgesamt können keine der drei Produkte für eher spezialisierte Szenarien eingesetzt werden. Im Vergleich dazu hat Flow jedoch eine etwas bessere Leistung gezeigt.
Außerdem haben alle drei Produkte keine "mündlichen" Ausdrücke wie "im Vergleich zum letzten Quartal einen Rückgang verzeichnet" korrigiert und keine logische Struktur hergestellt. Ich habe die "Einnahmen" in der ersten und dritten Zeile getrennt erwähnt, aber alle drei Produkte haben die ähnlichen Inhalte nicht zusammengefasst.
Test 3: E-Mail-Antwort an einen Kunden
Szenariobeschreibung: Am Flughafen muss ein Benutzer auf eine Anfrage-E-Mail eines Kunden antworten und Vorschläge geben.
Mündlicher Text: Sehr geehrte Damen und Herren, ich habe gesehen, dass Sie die Verkaufsabläufe optimieren möchten. Ich denke, dass Ihr Problem ziemlich typisch ist. Es gibt keine systematische Auswahl-Methode für die ersten Potenzialkunden, was zu einer geringen Effizienz bei der Nachverfolgung durch den Verkaufsteam führt. In ähnlichen Fällen haben einige unserer Kunden in der Vergangenheit bereits Erfahrungen gemacht. Wir empfehlen, die Bewertungs-Kriterien für Potenzialkunden einheitlich zu gestalten oder ein einfaches CRM-System einzuführen. Ich werde in den nächsten Tagen ein Fallbeispiel zusammenstellen und Ihnen zukommen senden, damit Sie sehen können, ob es für Sie von Nutzen ist.
Ausgabebedingungen: Der Text muss automatisch in Absätze unterteilt werden, das E-Mail-Format haben und einen formellen Ton annehmen.
Ausgabe der verschiedenen Produkte:
Bewertung: Sowohl Flow als auch Willow haben die Begrüßung "Sehr geehrte Damen und Herren" in einer neuen Zeile gesetzt. Flow hat in Bezug auf die Unterteilung in Absätze eine bessere Leistung gezeigt. Keines der drei Produkte hat die mündlichen Ausdrücke im Eingabetext gut korrigiert. Nur Flow hat "zukommen lassen" in "zukommen senden" geändert. Insgesamt ist der Ton der E-Mail immer noch sehr mündlich, und der Benutzer muss ihn vor dem Versand manuell korrigieren.
Nach der Tests haben Flow und Willow zwar eine akzeptable Qualität, aber es besteht immer noch ein großer Abstand zu ihrem Ziel der "Null-Bearbeitung". Bei der Erkennung von Fachausdrücken und in formellen Texten gibt es unzureichende Ergebnisse. Ich habe auch Tests mit englischen Transkriptionen durchgeführt, und die Ergebnisse sind ähnlich. Es treten auch hier Transkriptionsfehler auf.
Abschluss
Obwohl die Tests zeigen, dass Flow