CNTK: Microsofts Spracherkennung erreicht menschliches Niveau

Das System zum Erkennen von gesprochener Sprache von Microsoft sei bei einem Standard-Test inzwischen ähnlich gut wie professionell geschulte Menschen. Das Forscherteam nutzt dafür Microsofts Open-Source-Toolkit CNTK, hat bei einigen Gesprächen aber noch große Schwierigkeiten.

Artikel veröffentlicht am ,
Die Spracherkennung von Microsoft wird immer besser.
Die Spracherkennung von Microsoft wird immer besser. (Bild: Marcin Wichary, Flickr.com/CC-BY 2.0)

Digitale Assistenten, mit denen Nutzer sprechen können, werden immer häufiger in Consumer-Hardware eingesetzt, wenn auch mit teils eher ernüchterndem Erlebnis. Ein Forscherteam von Microsoft berichtet allerdings, dass es mit seinem maschinellen System zur Spracherkennung in einem Standard-Test inzwischen eine ähnlich gute Fehlerrate erreiche wie Menschen, die damit beauftragt worden sind, Gespräche zu transkribieren.

Stellenmarkt
  1. Funktions- und Softwareentwickler (m/w/d) Ladesysteme E-Mobilität
    Porsche AG, Weissach
  2. Wissenschaftliche Mitarbeiter*innen (m/w/d)
    Leibniz-Institut für Wissensmedien (IWM), Tübingen
Detailsuche

Microsoft vergleicht das Ergebnis seines Systems dabei allerdings nicht mit der häufig zitierten Fehlerrate von Menschen beim sogenannten Switchboard-Test, die mit 4 Prozent angegeben wird. Das Team vergleicht dagegen sein Ergebnis mit einem eigens für die Transkription beauftragten Team. Je nach Sorgfalt weichen die menschlichen Fehlerraten hierbei teils deutlich voneinander ab und liegen üblicherweise zwischen knapp 4 Prozent und etwa 9 Prozent. Microsoft gibt für seine maschinelle Erkennung eine Fehlerrate von 5,9 Prozent an.

Ergebnis abhängig von Gesprächsart

Bei dem Switchboard-Test werden Gespräche analysiert, bei denen zwei Personen ein vorgegebenes Thema miteinander besprechen. Das vereinfacht die maschinelle Analyse, da in dem zugrundeliegenden Sprachmodell ähnliche Worte verknüpft werden können wie etwa schnell und flott (fast und quick). In einer vergleichsweise offenen Diskussion zweier Personen ohne vorgegebenes Thema, dem sogenannten Call-Home-Test, ist die Fehlerrate sowohl von Mensch als auch Maschine bei knapp über 11 Prozent. Auch hier schneide das System von Microsoft genauso gut oder teils etwas besser ab als die Menschen.

Mensch und Maschine machen der Analyse zufolge auch teilweise ähnliche Fehler. So werden zum Beispiel die Verben is und was verwechselt, ebenso wie die Artikel a und the sowie die Worte in und and. Zur Umsetzung des Modells und der Durchführung der eigentlichen Tests verwendet Microsoft sein selbsterstelltes Deep-Learning-Toolkit CNTK (Computational Network Toolkit), das seit Anfang des Jahres als Open Source auf Github bereitsteht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


jacki 21. Okt 2016

Naja die Software kann schon auch Dinge wie Zusammenhänge, Lücken füllen, usw. usw...

igor37 20. Okt 2016

Die von Blackberry unterstützt mehrere aktive Sprachen gleichzeitig. Zumindest mit...

Kleine Schildkröte 20. Okt 2016

Ich hab in den letzten zwei Jahrzehnten soviele Versprechen von großen IT-Firmen gehört...

divStar 20. Okt 2016

Das würdest du auch nicht müssen. 1 PC oder Controller, der den Datenstrom entgegen...



Aktuell auf der Startseite von Golem.de
25 Jahre Mars Attacks!
"Aus irgendeinem merkwürdigen Grund fehl am Platz"

Viele Amerikaner fanden Tim Burtons Mars Attacks! nicht so witzig, aber der Rest der Welt lacht umso mehr - bis heute, der Film ist grandios gealtert.
Von Peter Osteried

25 Jahre Mars Attacks!: Aus irgendeinem merkwürdigen Grund fehl am Platz
Artikel
  1. EU Chips Act: Voll daneben ist auch vorbei
    EU Chips Act
    Voll daneben ist auch vorbei

    Im Dezember könnte sich die EU auf einen Chips Act zur Förderung der Halbleiterindustrie einigen, der bisher komplett am Ziel vorbei plant. Worauf sich die Branche und ihre Kunden gefasst machen müssen.
    Eine Analyse von Gerd Mischler

  2. Anniversary Celebration angespielt: Atari hat mal wieder etwas richtig Tolles gemacht
    Anniversary Celebration angespielt
    Atari hat mal wieder etwas richtig Tolles gemacht

    Der Spielehersteller Atari hat die wunderbare Sammlung Anniversary Celebration veröffentlicht - für alle Plattformen.
    Von Peter Steinlechner

  3. Nordamerika: Tesla gibt Autopilot-Betaversion für alle Fahrer frei
    Nordamerika
    Tesla gibt Autopilot-Betaversion für alle Fahrer frei

    Die Zugriffsbeschränkung für den Full-Self-Driving-Modus des Autopiloten von Tesla gilt nicht mehr. Alle Kunden in Nordamerika können ihn nun nutzen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Black Friday bei Mindfactory, MediaMarkt & Saturn • WD_BLACK SN770 500GB 49,99€ • GIGABYTE Z690 AORUS ELITE 179€ • Seagate FireCuda 530 1TB 119,90€ • Crucial P3 Plus 1TB 81,99 und P2 1TB 67,99€ • Alpenföhn Wing Boost 3 ARGB 120 3er-Pack 42,89€ • MindStar: Intel i7 12700K 359€ [Werbung]
    •  /