Zum Hauptinhalt Zur Navigation Zur Suche

Voice-to-Voice: DeepL will Stimmen von Sprechern direkt übersetzen

Mittels Stimme-zu-Stimme-Übersetzung per KI sollen Nutzer die Stimmen anderer Teilnehmer direkt in ihrer ausgewählten Sprache hören können.
/ Oliver Nickel
2 Kommentare News folgen (öffnet im neuen Fenster)
Live-Stimmenübersetzung könnte irgendwann sehr hilfreich sein. (Bild: Pixabay.com/Montage: Golem.de)
Live-Stimmenübersetzung könnte irgendwann sehr hilfreich sein. Bild: Pixabay.com/Montage: Golem.de

Das KI-Unternehmen DeepL will nicht nur simple Textpassagen in andere Sprachen übersetzen. Künftig sollen auch Stimme-zu-Stimme-Übersetzungen möglich sein. Ein entsprechendes Tool werde in den kommenden Wochen und Monaten von diversen Partnern getestet. "Die DeepL Voice-to-Voice-Übersetzung hilft, die Reibungsverluste durch Übersetzungsverzögerungen und die Ablenkung durch das Lesen von Untertiteln zu beseitigen", schreibt das Unternehmen auf der Webseite zum Produkt(öffnet im neuen Fenster). "Gespräche in Microsoft Teams und Zoom sollen so in jeder Sprache natürlicher ablaufen können."

Aktuell muss das Unternehmen vor allem ein großes Problem bewältigen: Sprache-zu-Sprache-Übersetzung sollte möglichst in Echtzeit und mit wenig Latenz ablaufen, da ein solches Feature sonst eher verwirren statt helfen würde. Zugleich sollten Übersetzungen so genau wie möglich sein, um Missverständnisse zu vermeiden. Partner, die sich für das Programm anmelden, seien deshalb ein wichtiger Schritt für die Verfeinerung des Produkts.

Aktuell noch mit Umwegen

Derzeit nutzt das Feature allerdings noch einen Umweg. Zunächst werden Stimmaufnahmen direkt in DeepL geleitet und in ein Skript in Textform umgewandelt. Anschließend werden generierte Texte wieder in Audiodaten und in die gewünschte Zielsprache umgewandelt. Der Zwischenschritt macht die erste Implementierung einfacher, da beide separaten Teile – Text-to-Voice und Voice-to-Text – bereits existieren. Allerdings lässt sich eine höhere Verzögerung zwischen gesprochener Eingabe und übersetzter Ausgabe nicht verhindern.

Das Ziel soll es laut DeepL-CEO Jarek Kutylowski sein, den Zwischenschritt künftig zu streichen und Stimmen direkt in andere Stimmen und Sprachen umzuwandeln. "Nach so vielen Jahren im Bereich der Textübersetzung war die Sprachübersetzung für uns ein logischer Schritt", sagt der CEO im Interview mit Techcrunch(öffnet im neuen Fenster). Erste Versionen des neuen Features werden als Add-ins für Microsoft Teams und Zoom getestet. Auch soll eine API veröffentlicht werden, mit der Kunden ihre eigenen Dienste mit dem Produkt ausstatten können.


Relevante Themen