Alexa, Google Assistant und Siri: Spezialgerät erlaubt lautlose Sprachsteuerung
Mit einer speziellen Lösung lassen sich Alexa, Google Assistant oder Siri auf Zuruf nutzen, wenn es nicht möglich ist, laut zu sprechen.

Wissenschaftler haben ein Versuchsgerät gebaut, mit dem sich digitale Assistenten wie Alexa, Google Assistant oder Siri auf Zuruf steuern lassen, ohne die Stimme der Person hören müssen. Digitale Assistenten sollen vor allem durch die Sprachsteuerung punkten. Aber es gibt Situationen, in denen eine Sprachsteuerung nicht sinnvoll möglich ist. Dafür wurde ein Spezialgerät entwickelt.
Dieses Spezialgerät ist auch für Menschen gedacht, die mit der Lauterzeugung Probleme haben. Sie sollen damit dennoch in der Lage sein, digitale Assistenten sprechend zu bedienen. Ein entsprechendes Versuchsgerät wurde von Assistenzprofessor Cheng Zhang und Doktorand Ruidong Zhang von der Cornell University entwickelt. Darüber hat Cornell Chronicle berichtet.
"Dieses Gerät hat das Potenzial, die Sprachmuster einer Person zu erlernen, selbst bei stillem Sprechen", sagte Zhang. Es nennt sich Speechin und verfolgt einen ähnlichen Ansatz wie Neckface. Neckface wurde von Cheng Zhang und seinen Sci-Fi-Lab-Teammitgliedern 2021 vorgestellt. Es verfolgt kontinuierlich die gesamte Mimik im Gesicht, indem es mit Infrarotkameras Bilder des Kinns und des Gesichts von unterhalb des Halses aufnimmt.
Spezialgerät wird um den Hals getragen
Auch Speechin nutzt eine IR-Kamera, die mit einem 3D-Drucker erstellt wurde. Das gesamte Konstrukt hängt in einem Gehäuse an einer Kette um den Hals und wird vor der Brust getragen. Dabei filmt die Kamera das Kinn der entsprechenden Person von unten. Durch diese Filmaufnahmen sollen sich Wörter vom Gerät erkennen lassen, auch wenn sie lautlos gesprochen werden. Die von Speechin erkannten Wörter werden dann an den betreffenden digitalen Assistenten weitergereicht.
Bei ersten Experimenten mit 20 Teilnehmern wurden Messungen vorgenommen, um die Ausgangsposition des Kinns zu bestimmen. Dann wurde das Gerät anhand von Differenzbildern darauf trainiert, einfache Befehle zu erkennen. Von den Teilnehmern sprachen zehn Englisch und zehn Mandarin-Chinesisch.
Zhang ließ die Personen 54 Befehle auf Englisch aussprechen, die aus Ziffern, interaktiven Befehlen, Sprachassistentenbefehlen, Interpunktionsbefehlen und Navigationsbefehlen bestanden. Anschließend machte er das Gleiche mit 44 einfachen Wörtern oder Sätzen in Mandarin. Speechin erkannte Befehle in Englisch und Mandarin mit einer durchschnittlichen Genauigkeit von 90,5 Prozent bzw. 91,6 Prozent.
Um die Grenzen dieses Verfahrens weiter zu testen, führten die Forscher eine weitere Studie mit zehn Teilnehmern durch, die alle eine speziell erstellte Liste von 72 einsilbigen Nichtwörtern mit Phonemen lautlos aussprachen. Die Nichtwörter waren Kombinationen aus 18 Konsonanten und vier Vokalen.
Schließlich rekrutierten die Forscher sechs Teilnehmer, die 10 Sätze in Mandarin und 10 in Englisch sprechen sollten und dabei umherliefen. Die Erfolgsquote war in dieser Studie geringer. Das wird damit erklärt, dass sich jeder Mensch beim Sprechen unterschiedlich bewegt. So gibt es mehr oder weniger Kopfbewegungen, was es für Speechin entsprechend schwieriger macht, das lautlos Gesprochene zu erkennen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Tu so, als würdest du ein Wort sagen, und bewege den Mund entsprechend. Allerdings...