Sprachassistent: Amazon legt riesigen Datensatz für 51 Sprachen offen
Sprachassistenten wie Amazons Alexa gibt es nur in wenigen Sprachen. Ein mehrsprachiger Datensatz soll das nun ändern.

Amazon hat einen sehr großen Datensatz zur Sprachverarbeitung in mehreren Sprachen als Open Source veröffentlicht. Ziel der Veröffentlichung ist es, Entwickler dazu zu ermutigen, Amazons Alexa für viele Sprachen zu erweitern. Bisher steht Alexa in Deutsch, Englisch, Portugiesisch, Französisch, Hindi, Italienisch, Japanisch, Spanisch, und Arabisch bereit. Der neue Datensatz, den das Unternehmen Massive nennt, umfasst 51 Sprachen und steht unter einer freien Creative-Commons-Lizenz.
Dazu schreibt Amazon in der Ankündigung: "Stellen Sie sich vor, alle Menschen auf der ganzen Welt könnten Sprach-KI-Systeme wie Alexa in ihrer Muttersprache verwenden." Davon sind die Systeme bisher weit entfernt und auch Projekte wie etwa Mozillas Common Voice, das Daten für mehrere Sprachen sammelt, umfassen hier nur vergleichsweise wenige Daten. Denn das Schwierigste daran ist, diese Sprachdaten zu sammeln.
Im Gegensatz zu Common Voice, das gesprochene Daten sammelt, setzt Amazon zunächst auf eine Verarbeitung von Text. Die Umwandlung gesprochener Sprache zu Text wird offenbar als separates Problem betrachtet. Der nun bereitgestellte Datensatz basiert deswegen auf Übersetzungen eines bereits auf Englisch verfügbaren Datensatzes (Slurp). Amazon hofft, so etwa ein einziges Machine-Learning-Modell entwickeln zu können, das mit mehreren Sprachen funktioniert und Informationen von einer Sprache in eine andere transferieren kann.
Aufbauend auf dem Massive-Datensatz startet das Unternehmen darüber hinaus einen Wettbewerb für KI-Forscher. Teilnehmer sollen hier ein einziges Modell für alle Sprachen trainieren und entsprechend testen. Als zweiter Schritt soll dann ein auf Englisch abgestimmtes Modell auf die anderen Sprachen angewendet werden. "Dadurch wird die Fähigkeit des Modells zur Verallgemeinerung auf neue Sprachen bewertet, eine wichtige Überlegung angesichts der Anzahl von Sprachen auf der ganzen Welt, für die es wenig bis gar keine gekennzeichneten Daten gibt", schreibt Amazon dazu.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Kommentieren