Wichtiges Update: Google Übersetzer wurde mit Gemini 3.5 LT verbunden – wir haben es praktisch getestet
Bei der kürzlich stattgefundenen Google I/O hat Google das neue Gemini 3.5-Modell offiziell vorgestellt. Außerdem wurde erwähnt, dass die Fähigkeiten von Gemini in Zukunft in mehr Produkte der Google-Ekoshäre integriert werden sollen.
Was die Redaktion von Lei Technology aber nicht erwartet hatte, war, dass die erste Google-Ekoshärenanwendung, die Gemini nutzt, nicht die großen Google-Ekoshärenplayer wie Suche, YouTube oder Maps ist, sondern Google Translate, dessen Präsenz in den letzten Jahren stetig abgenommen hat. Gestern hat Google ein Update für Google Translate veröffentlicht und das neueste Audio-Modell Gemini 3.5 Live Translate (im Folgenden als Gemini 3.5 LT bezeichnet) in die Übersetzung integriert.
Bildquelle: Google
Wie ist nun die Erfahrung bei der Echtzeit-Spracheübersetzung von Google Translate mit der Unterstützung von Gemini 3.5 LT?
Fehlende und falsche Wörter bleiben weiterhin vorhanden, das Einweg-Übersetzungsmodell hat gravierende Mängel
Öffnet man die Echtzeit-Übersetzungsfunktion von Google Translate und wählt den Modus „Echtzeit hören“, gelangt man in das neue, von Gemini 3.5 LT angetriebene Übersetzungsmodell. Merkwürdigerweise kann dieser „Echtzeit hören“-Modus nur aktiviert werden, wenn ein externes Kopfhörer angeschlossen ist. Angesichts der Tatsache, dass dieser Echtzeit-Hörmodus von Google Translate nicht wie der simultane Übersetzungsmodus von Timekettle bidirektional und gleichzeitig funktioniert, versteht die Redaktion von Lei Technology diese Designentscheidung nicht.
Glücklicherweise ist die Bedienung des „Echtzeit hören“-Modus relativ einfach: Öffnet man den Echtzeit-Hörmodus und hält das Telefon dem Gesprächspartner nahe, kann man im Kopfhörer die übersetzte Audioausgabe „echtzeitnah“ hören.
Bildquelle: Lei Technology
Im Vergleich zum früheren „Dialog“-Modus von Google Translate, bei dem man erst sprechen kann, wenn man gedrückt hält und die Übersetzung erst beginnt, wenn man loslässt, beginnt der Echtzeit-Hörmodus die Übersetzung, nachdem der Gesprächspartner einen kurzen Satz beendet hat. Die Aktualität ist somit deutlich höher. Bei der Übersetzung gibt es jedoch immer noch eine deutliche Verzögerung.
Nehmen wir als Beispiel die Übersetzung einer chinesischen klassischen Dichtung ins Englische. Man hört erst beim Sprechen des dritten Satzes die Übersetzung des ersten Satzes im Kopfhörer. Dies unterscheidet sich noch immer von der fast „gleichzeitigen“ Übersetzung von professionellen simultanen Übersetzungskopfhörern.
Was die Genauigkeit der Übersetzung betrifft, hat die Redaktion von Lei Technology Google Translate einige klassische Videospielgespräche als „Originaltonspur“ zum Testen vorgelegt und gleichzeitig Apple Translate und Youdao Translate als Vergleich herangezogen.
Schauen wir uns zunächst den Originaltext an. Spieler von GTA: SA werden sich sicher an diese Bestellaufzeichnung erinnern:
I'll have 2 number 9s, a number 9 large, a number 6 with extra dip, a number 7, 2 number 45s, one with cheese and a large soda.
Das ist der von Google Translate „gehörte“ englische Originaltext:
Now, I have two number nines, but number nine Lord, number six with extra dip, a number seven, two number 45s, one with cheese and a large soda. Okay.Okay.
Man kann sehen, dass selbst Google Translate, das von Gemini 3.5 LT angetrieben wird, in einigen Details den Originaltext verfehlt, beispielsweise:
I’ll have wird zu I have (Verschmelzung von Wörtern übersehen);
a number 9 large wird zu but number nine Lord (Fehler bei der Erkennung);
Am Anfang und Ende werden zusätzlich Now und Okay.Okay. hinzugefügt (Illusion bei der Erkennung).
Was die Übersetzungseffektivität betrifft, übersetzt Google Translate jedoch genau diesen fehlerhaften Originaltext.
Bildquelle: Lei Technology
Was die Sprachrendering betrifft, hat die von Google Translate ausgegebene Stimme im Vergleich zu einer einfachen TTS-Stimme tatsächlich mehr Rhythmus. Es klingt eher wie eine menschliche Stimme, aber man kann immer noch erkennen, dass es sich um eine künstlich generierte Stimme handelt.
Im Vergleich dazu hat Apple Translate weitaus größere Probleme: Die Erkennung weist zahlreiche Fehler auf, und die Übersetzung ist praktisch unbrauchbar.
Bildquelle: Lei Technology
Youdao's simultane Übersetzung ist hingegen stabiler. Es gibt nur einen Fall von übersehener Verschmelzung von Wörtern („I’ll have“ wird zu „I have“) und einen Fall von fehlerhafter Erkennung („Soda“ wird zu „Soup“). Die Übersetzungsqualität und -geschwindigkeit sind ebenfalls stabil.
Bildquelle: Lei Technology
Außerdem gibt es einen sehr merkwürdigen Aspekt beim „Echtzeit hören“-Modus von Google Translate: Aus unbekannten Gründen speichert Google Translate keine Übersetzungsaufzeichnungen im „Echtzeit hören“-Modus:
Außer dem „Echtzeit hören“-Modus gibt es bei Google Translate noch verschiedene andere Übersetzungsmodi wie „Dialog“ und „Text“. Bei letzteren kann man nach Abschluss der Übersetzung den Originaltext und die Übersetzung in der Verlaufsaufzeichnung einsehen. Im „Echtzeit hören“-Modus verschwinden jedoch alle Übersetzungsaufzeichnungen, sobald man diesen Modus verlässt (einschließlich einer Zwangsbeendigung durch das Abkoppeln des Kopfhörers).
Wenn Sie vorhaben, den „Echtzeit hören“-Modus von Google Translate für Interviewaufzeichnungen zu nutzen, rät die Redaktion von Lei Technology Ihnen, diesen Gedanken aufzugeben.
Bildquelle: Lei Technology
Außerdem hat die Redaktion von Lei Technology bei der Nutzung festgestellt, dass im „Echtzeit hören“-Modus von Google Translate weiterhin fehlerhafte Übersetzungen und Verwechslungen von Subjekten auftreten. Aber man kann auch positiv denken: Selbst menschliche Übersetzer machen manchmal Fehler oder übersehen Dinge. Google Translate und andere Übersetzungssoftware können jedoch schneller ihre Technologie verbessern und Lücken schließen.
Wichtiger noch: Als Repräsentant auf dem globalen Markt für universelle Übersetzung wird die Einbindung von KI in Google Translate den gesamten Markt für universelle Übersetzung in Richtung KI-Übersetzung vorantreiben.
Übersetzung wird zu einem der am meisten beobachteten KI-Einsatzbereiche
Betrachtet man das Update von Google Translate für sich genommen, würde die Redaktion von Lei Technology es eher als eine „Aufholaktion bei KI-Funktionen“ bezeichnen: Wenn andere Anwendungen große Modelle integrieren, muss auch Google Translate das tun. Betrachtet man jedoch die gesamte KI-Hardwarebranche im Jahr 2026, hält die Redaktion von Lei Technology die Übersetzung eher für einen der am meisten beobachteten KI-Einsatzbereiche dieses Jahres.
Der Grund ist einfach: Im Vergleich zu vielen KI-Funktionen, die sich noch im Stadium des „Technikshowcases“ befinden, ist die Nachfrage nach Übersetzungen klar definiert und sehr hoch. Im Gegensatz zu Produkten, die die Benutzer erst »ausbilden« und Bedürfnisse schaffen müssen, muss die Marke nicht erklären, was man mit KI machen kann, und die Benutzer stellen auch nicht die Frage, warum man KI nutzen sollte.
Beispielsweise hat Timekettle das X1 Meeting AI, ein Gerät für simultane Übersetzung bei Meetings, entwickelt. Durch die KI-Modelle von Timekettle werden die traditionellen Schwächen bei der Erkennung von Satzzeichen, der semantischen Vorhersage und der Fehlerkorrektur im Kontext während der simultanen Übersetzung behoben. Neben der Übersetzung hat Timekettle auch eine Funktion zur Erkennung von Knochenschallmuster entwickelt, die es ermöglicht, dass die Übersetzungskopfhörer genau erkennen können, wer was sagt. Dies bildet die Grundlage für die anschließende simultane Übersetzung.
Bildquelle: Lei Technology
Die von iFlytek neu veröffentlichte KI-Brille verfolgt einen anderen Ansatz. Seit ihrer Entstehung wurden die meisten intelligenten Brillen um die Kernfunktion der Aufnahme herum entwickelt. Die im vergangenen Monat veröffentlichte iFlytek KI-Brille hat jedoch die »All-Szenario-Übersetzung« als Kernfunktion festgelegt.
Bildquelle: Lei Technology
Indem die Aufnahme durch die Übersetzung ersetzt wird, wird nicht nur das Problem der »Nutzungslosigkeit« von intelligenten Brillen gelöst, sondern auch die Stärken von iFlytek voll ausgenutzt. Dank der langjährigen technologischen Erfahrungen von iFlytek auf dem Gebiet der Übersetzung kann die iFlytek KI-Brille schnell in der Branche der intelligenten Brillen Fuß fassen.
Nach Ansicht der Redaktion von Lei Technology versuchen diese KI-Übersetzungsgeräte, ob es sich um Timekettle's simultane Übersetzungskopfhörer oder iFlytek's KI-Brille handelt, die Übersetzung von einer App-Funktion in eine Fähigkeit zu verwandeln, die in verschiedene Hardwaregeräte integriert werden kann, um so mehr Anwendungsfälle abzudecken.
Nehmen wir Google Translate als Beispiel. Obwohl Google Translate derzeit noch Probleme wie Verzögerungen, fehlende Übersetzungen und fehlende Aufzeichnungen hat, könnte die Echtzeit-Audio-Fähigkeit von Gemini 3.5 LT in Zukunft in Kopfhörer, Brillen, Konferenzgeräte und sogar in Autositze integriert werden.
Für professionelle Hersteller von Übersetzungshardware wie Timekettle und iFlytek ist die Einführung von Gemini 3.5 LT sowohl eine Herausforderung als auch eine Chance. Die »Herausforderung« ist leicht zu verstehen: Wenn ein Spieler wie Google auf dem Markt erscheint, wird die Erwartung der Benutzer an kostenlose Übersetzungstools natürlich steigen. Beispielsweise hat die Integration von KI-Übersetzungsfunktionen in TWS-Kopfhörer durch verschiedene Mobiltelefonhersteller im vergangenen Jahr den Markt für Einsteiger-Übersetzungskopfhörer direkt eingeengt und die »Mindestanforderungen« an die Fähigkeiten von Übersetzungskopfhörern erhöht.
Bildquelle: JD.com
Aber wenn man es von einer anderen Seite betrachtet, hat die universelle Übersetzung auch natürliche Schwächen: Bei Geschäftsmeetings ist die Erkennung von mehreren Personen erforderlich, bei Interviews müssen Aufzeichnungen gemacht werden, bei grenzüberschreitenden Messen ist eine lange Akkulaufzeit erforderlich, und in lauten Umgebungen ist eine bessere Tonaufnahme erforderlich. All dies kann nicht einfach durch ein Modellupdate gelöst werden.
Deshalb bedeutet