Abo
  • Services:

CNTK: Microsofts Spracherkennung erreicht menschliches Niveau

Das System zum Erkennen von gesprochener Sprache von Microsoft sei bei einem Standard-Test inzwischen ähnlich gut wie professionell geschulte Menschen. Das Forscherteam nutzt dafür Microsofts Open-Source-Toolkit CNTK, hat bei einigen Gesprächen aber noch große Schwierigkeiten.

Artikel veröffentlicht am ,
Die Spracherkennung von Microsoft wird immer besser.
Die Spracherkennung von Microsoft wird immer besser. (Bild: Marcin Wichary, Flickr.com/CC-BY 2.0)

Digitale Assistenten, mit denen Nutzer sprechen können, werden immer häufiger in Consumer-Hardware eingesetzt, wenn auch mit teils eher ernüchterndem Erlebnis. Ein Forscherteam von Microsoft berichtet allerdings, dass es mit seinem maschinellen System zur Spracherkennung in einem Standard-Test inzwischen eine ähnlich gute Fehlerrate erreiche wie Menschen, die damit beauftragt worden sind, Gespräche zu transkribieren.

Stellenmarkt
  1. Gesellschaft für Dienste im Alter mbH (GDA), Hannover
  2. Robert Bosch GmbH, Stuttgart

Microsoft vergleicht das Ergebnis seines Systems dabei allerdings nicht mit der häufig zitierten Fehlerrate von Menschen beim sogenannten Switchboard-Test, die mit 4 Prozent angegeben wird. Das Team vergleicht dagegen sein Ergebnis mit einem eigens für die Transkription beauftragten Team. Je nach Sorgfalt weichen die menschlichen Fehlerraten hierbei teils deutlich voneinander ab und liegen üblicherweise zwischen knapp 4 Prozent und etwa 9 Prozent. Microsoft gibt für seine maschinelle Erkennung eine Fehlerrate von 5,9 Prozent an.

Ergebnis abhängig von Gesprächsart

Bei dem Switchboard-Test werden Gespräche analysiert, bei denen zwei Personen ein vorgegebenes Thema miteinander besprechen. Das vereinfacht die maschinelle Analyse, da in dem zugrundeliegenden Sprachmodell ähnliche Worte verknüpft werden können wie etwa schnell und flott (fast und quick). In einer vergleichsweise offenen Diskussion zweier Personen ohne vorgegebenes Thema, dem sogenannten Call-Home-Test, ist die Fehlerrate sowohl von Mensch als auch Maschine bei knapp über 11 Prozent. Auch hier schneide das System von Microsoft genauso gut oder teils etwas besser ab als die Menschen.

Mensch und Maschine machen der Analyse zufolge auch teilweise ähnliche Fehler. So werden zum Beispiel die Verben is und was verwechselt, ebenso wie die Artikel a und the sowie die Worte in und and. Zur Umsetzung des Modells und der Durchführung der eigentlichen Tests verwendet Microsoft sein selbsterstelltes Deep-Learning-Toolkit CNTK (Computational Network Toolkit), das seit Anfang des Jahres als Open Source auf Github bereitsteht.



Anzeige
Hardware-Angebote
  1. ab 349€
  2. und 25€ Steam-Gutschein erhalten

jacki 21. Okt 2016

Naja die Software kann schon auch Dinge wie Zusammenhänge, Lücken füllen, usw. usw...

igor37 20. Okt 2016

Die von Blackberry unterstützt mehrere aktive Sprachen gleichzeitig. Zumindest mit...

Kleine Schildkröte 20. Okt 2016

Ich hab in den letzten zwei Jahrzehnten soviele Versprechen von großen IT-Firmen gehört...

divStar 20. Okt 2016

Das würdest du auch nicht müssen. 1 PC oder Controller, der den Datenstrom entgegen...

Nikolai 19. Okt 2016

Laut Netz liegt die Fehlerquote bei der Google _Offline_-Erkennung bei 13,5%. (https...


Folgen Sie uns
       


LG G7 Thinq - Test

Das G7 Thinq ist LGs zweites Smartphone unter der Thinq-Dachmarke. Das Gerät hat eine Kamera, die mit Hilfe künstlicher Intelligenz Bildinhalte analysiert und anhand der Analyseergebnisse die Bildeinstellungen verändert. Mit äußerster Vorsicht sollten Nutzer die Gesichtsentsperrung verwenden, da sie sich in der Standardeinstellung spielend leicht austricksen lässt.

LG G7 Thinq - Test Video aufrufen
Gemini PDA im Test: 2004 ist nicht 2018
Gemini PDA im Test
2004 ist nicht 2018

Knapp über ein Jahr nach der erfolgreichen Finanzierung hat das Startup Planet Computers mit der Auslieferung seines Gemini PDA begonnen. Die Tastatur ist gewöhnungsbedürftig, längere Texte lassen sich aber mit Geduld durchaus damit tippen. Die Frage ist: Brauchen wir heute noch einen PDA?
Ein Test von Tobias Költzsch und Sebastian Grüner

  1. Atom Wasserfestes Mini-Smartphone binnen einer Minute finanziert
  2. Librem 5 Freies Linux-Smartphone wird größer und kantig
  3. Smartphone-Verkäufe Xiaomi erobert Platz vier hinter Huawei, Apple und Samsung

Sony: Ein Kuss und viele Tode
Sony
Ein Kuss und viele Tode

E3 2018 Mit einem zärtlichen Moment in The Last of Us 2 hat Sony sein Media Briefing eröffnet - danach gab es teils blutrünstiges Gameplay plus Rätselraten um Death Stranding von Hideo Kojima.
Ein Bericht von Peter Steinlechner

  1. Smach Z ausprobiert Neuer Blick auf das Handheld für PC-Spieler
  2. The Division 2 angespielt Action rund um Air Force One
  3. Ghost of Tsushima Dynamischer Match im offenen Japan

CD Projekt Red: So spielt sich Cyberpunk 2077
CD Projekt Red
So spielt sich Cyberpunk 2077

E3 2018 Hacker statt Hexer, Ich-Sicht statt Dritte-Person-Perspektive und Auto statt Pferd: Die Witcher-Entwickler haben ihr neues Großprojekt Cyberpunk 2077 im Detail vorgestellt.
Von Peter Steinlechner


      •  /