Zum Hauptinhalt Zur Navigation

KI: Facebook baut Übersetzer ohne Schriftsprache

Übersetzungsprogramme nutzen Schriftsysteme, damit bleiben aber viele Sprachen ausgeschlossen. Facebook zeigt, dass das nicht sein muss.
/ Sebastian Grüner
1 Kommentare News folgen (öffnet im neuen Fenster)
Facebooks KI-Team kann auch ohne Schriftsysteme übersetzen. (Bild: STR via Reuters Connect)
Facebooks KI-Team kann auch ohne Schriftsysteme übersetzen. Bild: STR via Reuters Connect

Das KI-Team von Facebook hat seine Arbeiten an einer neuen Art Übersetzungsprogramm vorgestellt(öffnet im neuen Fenster) , das erstmals nicht direkt auf einer schriftlichen Repräsentation einer Sprache basiert. Die meisten bisher genutzten Machine-Learning-Ansätze nutzen riesige Textkorpora oder auch bekannte schriftliche Übersetzungen zum Training. Doch nur ungefähr die Hälfte der weltweit gesprochenen Sprachen verfügt über ein Schriftsystem, die anderen nicht.

Konkret erstellt hat Facebook nun einen Übersetzer für Hokkien, eine chinesische Sprache, die eben hauptsächlich gesprochen weitergegeben wird. Ein standardisiertes Schriftsystem dafür existiert trotz der etwa 45 Millionen Sprecher nicht. Der übliche Ansatz zum Erstellen eines Übersetzungsprogramms funktioniere also nicht, so Facebook.

Damit das Ziel der Übersetzung also doch noch umgesetzt werden kann, mussten sich die Beteiligten Entwickler ein neues Vorgehen überlegen und ein entsprechendes Modell erstellen. Facebook nennt seine Umsetzung im Gegensatz zu Text-to-Speech nun Speech-to-Speech. Die Sprachaufnahmen der Eingabe werden dabei zunächst in kleinere Komponenten zerlegt und zum Training der Übersetzung wird dann zunächst ein Zwischenschritt gegangen: Hokkien wird in Mandarin in Schriftform umgewandelt, das nah mit Hokkien verwandt sei. Das Training mit Hilfe der Mandarin-Daten habe das Modell deutlich verbessern können.

Darüber hinaus setzte das Team auf sogenannte Spracheinbettungen, wie das Unternehmen in seinem KI-Blog schreibt(öffnet im neuen Fenster) . Zum Training sind also Daten aus Hokkien und Englisch herangezogen worden, die in ähnlichen semantischen Kontexten verwendet werden. Zur automatisierten Auswertung der Modellmöglichkeiten setzte das Team zudem auf eine phonetische Umschrift und verglich seine Arbeit auch mit einem in Taiwan erstellten Sprachkorpus für Hokkien.


Relevante Themen