Alexa, Google Assistant und Siri: Spezialgerät erlaubt lautlose Sprachsteuerung

Mit einer speziellen Lösung lassen sich Alexa, Google Assistant oder Siri auf Zuruf nutzen, wenn es nicht möglich ist, laut zu sprechen.

Artikel veröffentlicht am ,
Speechin erkennt anhand von Kinnbewegungen stumm gesprochene Wörter.
Speechin erkennt anhand von Kinnbewegungen stumm gesprochene Wörter. (Bild: Cornell University)

Wissenschaftler haben ein Versuchsgerät gebaut, mit dem sich digitale Assistenten wie Alexa, Google Assistant oder Siri auf Zuruf steuern lassen, ohne die Stimme der Person hören müssen. Digitale Assistenten sollen vor allem durch die Sprachsteuerung punkten. Aber es gibt Situationen, in denen eine Sprachsteuerung nicht sinnvoll möglich ist. Dafür wurde ein Spezialgerät entwickelt.

Stellenmarkt
  1. IT-Systemadministrator (m/w/d) First-Level-Support
    MVZ Labor Münster Hafenweg GmbH, Münster
  2. Senior Software Developer (m/w / divers)
    Eurowings Aviation GmbH, Köln
Detailsuche

Dieses Spezialgerät ist auch für Menschen gedacht, die mit der Lauterzeugung Probleme haben. Sie sollen damit dennoch in der Lage sein, digitale Assistenten sprechend zu bedienen. Ein entsprechendes Versuchsgerät wurde von Assistenzprofessor Cheng Zhang und Doktorand Ruidong Zhang von der Cornell University entwickelt. Darüber hat Cornell Chronicle berichtet.

"Dieses Gerät hat das Potenzial, die Sprachmuster einer Person zu erlernen, selbst bei stillem Sprechen", sagte Zhang. Es nennt sich Speechin und verfolgt einen ähnlichen Ansatz wie Neckface. Neckface wurde von Cheng Zhang und seinen Sci-Fi-Lab-Teammitgliedern 2021 vorgestellt. Es verfolgt kontinuierlich die gesamte Mimik im Gesicht, indem es mit Infrarotkameras Bilder des Kinns und des Gesichts von unterhalb des Halses aufnimmt.

Spezialgerät wird um den Hals getragen

Auch Speechin nutzt eine IR-Kamera, die mit einem 3D-Drucker erstellt wurde. Das gesamte Konstrukt hängt in einem Gehäuse an einer Kette um den Hals und wird vor der Brust getragen. Dabei filmt die Kamera das Kinn der entsprechenden Person von unten. Durch diese Filmaufnahmen sollen sich Wörter vom Gerät erkennen lassen, auch wenn sie lautlos gesprochen werden. Die von Speechin erkannten Wörter werden dann an den betreffenden digitalen Assistenten weitergereicht.

Golem Akademie
  1. Masterclass Data Science mit Pandas & Python: virtueller Zwei-Tage-Workshop
    29./30.09.2022, Virtuell
  2. Automatisierung (RPA) mit Python: virtueller Zwei-Tage-Workshop
    11./12.07.2022, Virtuell
Weitere IT-Trainings

Bei ersten Experimenten mit 20 Teilnehmern wurden Messungen vorgenommen, um die Ausgangsposition des Kinns zu bestimmen. Dann wurde das Gerät anhand von Differenzbildern darauf trainiert, einfache Befehle zu erkennen. Von den Teilnehmern sprachen zehn Englisch und zehn Mandarin-Chinesisch.

Zhang ließ die Personen 54 Befehle auf Englisch aussprechen, die aus Ziffern, interaktiven Befehlen, Sprachassistentenbefehlen, Interpunktionsbefehlen und Navigationsbefehlen bestanden. Anschließend machte er das Gleiche mit 44 einfachen Wörtern oder Sätzen in Mandarin. Speechin erkannte Befehle in Englisch und Mandarin mit einer durchschnittlichen Genauigkeit von 90,5 Prozent bzw. 91,6 Prozent.

Wir stellen vor: Echo Show 15

Um die Grenzen dieses Verfahrens weiter zu testen, führten die Forscher eine weitere Studie mit zehn Teilnehmern durch, die alle eine speziell erstellte Liste von 72 einsilbigen Nichtwörtern mit Phonemen lautlos aussprachen. Die Nichtwörter waren Kombinationen aus 18 Konsonanten und vier Vokalen.

Schließlich rekrutierten die Forscher sechs Teilnehmer, die 10 Sätze in Mandarin und 10 in Englisch sprechen sollten und dabei umherliefen. Die Erfolgsquote war in dieser Studie geringer. Das wird damit erklärt, dass sich jeder Mensch beim Sprechen unterschiedlich bewegt. So gibt es mehr oder weniger Kopfbewegungen, was es für Speechin entsprechend schwieriger macht, das lautlos Gesprochene zu erkennen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /