Sprachassistent: Amazon legt riesigen Datensatz für 51 Sprachen offen

Sprachassistenten wie Amazons Alexa gibt es nur in wenigen Sprachen. Ein mehrsprachiger Datensatz soll das nun ändern.

Artikel veröffentlicht am ,
Amazon versucht sich an einer weitgehenden Mehrsprachigkeit von Alexa.
Amazon versucht sich an einer weitgehenden Mehrsprachigkeit von Alexa. (Bild: Amazon)

Amazon hat einen sehr großen Datensatz zur Sprachverarbeitung in mehreren Sprachen als Open Source veröffentlicht. Ziel der Veröffentlichung ist es, Entwickler dazu zu ermutigen, Amazons Alexa für viele Sprachen zu erweitern. Bisher steht Alexa in Deutsch, Englisch, Portugiesisch, Französisch, Hindi, Italienisch, Japanisch, Spanisch, und Arabisch bereit. Der neue Datensatz, den das Unternehmen Massive nennt, umfasst 51 Sprachen und steht unter einer freien Creative-Commons-Lizenz.

Stellenmarkt
  1. IT-Systemadministrator / Netzwerkadministrator (m/w/d) (Informatiker, Techniker o. ä.)
    SCHEUERLE Fahrzeugfabrik GmbH, Pfedelbach
  2. Softwareentwickler CAx/CAD/PLM (w/m/d)
    SICK AG, Waldkirch bei Freiburg
Detailsuche

Dazu schreibt Amazon in der Ankündigung: "Stellen Sie sich vor, alle Menschen auf der ganzen Welt könnten Sprach-KI-Systeme wie Alexa in ihrer Muttersprache verwenden." Davon sind die Systeme bisher weit entfernt und auch Projekte wie etwa Mozillas Common Voice, das Daten für mehrere Sprachen sammelt, umfassen hier nur vergleichsweise wenige Daten. Denn das Schwierigste daran ist, diese Sprachdaten zu sammeln.

Im Gegensatz zu Common Voice, das gesprochene Daten sammelt, setzt Amazon zunächst auf eine Verarbeitung von Text. Die Umwandlung gesprochener Sprache zu Text wird offenbar als separates Problem betrachtet. Der nun bereitgestellte Datensatz basiert deswegen auf Übersetzungen eines bereits auf Englisch verfügbaren Datensatzes (Slurp). Amazon hofft, so etwa ein einziges Machine-Learning-Modell entwickeln zu können, das mit mehreren Sprachen funktioniert und Informationen von einer Sprache in eine andere transferieren kann.

Aufbauend auf dem Massive-Datensatz startet das Unternehmen darüber hinaus einen Wettbewerb für KI-Forscher. Teilnehmer sollen hier ein einziges Modell für alle Sprachen trainieren und entsprechend testen. Als zweiter Schritt soll dann ein auf Englisch abgestimmtes Modell auf die anderen Sprachen angewendet werden. "Dadurch wird die Fähigkeit des Modells zur Verallgemeinerung auf neue Sprachen bewertet, eine wichtige Überlegung angesichts der Anzahl von Sprachen auf der ganzen Welt, für die es wenig bis gar keine gekennzeichneten Daten gibt", schreibt Amazon dazu.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Optibike
E-Bike mit 480 km Reichweite kostet 17.000 Euro

Das E-Bike Optibike R22 Everest setzt mit seinen zwei Akkus auf Reichweite.

Optibike: E-Bike mit 480 km Reichweite kostet 17.000 Euro
Artikel
  1. Krypto-Kriminalität: Behörden fahnden nach Onecoin-Betrügerin
    Krypto-Kriminalität
    Behörden fahnden nach Onecoin-Betrügerin

    Deutsche und internationale Behörden suchen nach den Hintermännern und -frauen von Onecoin. Der Schaden durch Betrug mit der vermeintlichen Kryptowährung geht in die Milliarden.

  2. Hassrede: Bayern will soziale Netzwerke bestrafen
    Hassrede
    Bayern will soziale Netzwerke bestrafen

    Der bayrische Justizminister fordert, bei der Verbreitung von Hassrede auch die Betreiber von sozialen Medien stärker zur Verantwortung zu ziehen.

  3. Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
    Prehistoric Planet
    Danke, Apple, für so grandiose Dinosaurier!

    Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
    Ein IMHO von Marc Sauter

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Samsung 870 QVO 1 TB 79€ • Prime Video: Filme leihen für 0,99€ • Alternate (u. a. Recaro Rae Essential 429€) • Gigabyte RTX 3080 12 GB ab 1.024€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • SanDisk Ultra microSDXC 256 GB ab 14,99€ • Sackboy 19,99€ [Werbung]
    •  /