Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa

Das US-Unternehmen Mycroft AI arbeitet an einem Open-Source-Sprachassistenten. Die Alexa-Alternative ist etwas für lange Winterabende.

Ein Praxistest von Thorsten Müller veröffentlicht am
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist.
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist. (Bild: Anthony Harvey/Getty Images)

"Alexa ..." schallt es häufig in vielen Haushalten. Die weltweite Erfolgsgeschichte dieser Sprachassistenten in smarten Lautsprechern dürfte niemandem entgangen sein. Gerade in Bezug auf die Sprachverarbeitung (Spracherkennung und Sprachausgabe) basieren diese Geräte auf Cloud-Diensten der großen Technologieanbieter und müssen daher konstant mit dem Internet verbunden sein.

Inhalt:
  1. Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa
  2. Modularer Aufbau - Beispiel lokales TTS
  3. English, Deutsch, Denglisch?!

Was bedeutet das? Die Spracherkennung, also das Umwandeln der gesprochenen Benutzeranweisung in Text, wird nicht lokal auf dem Gerät durchgeführt, sondern auf Cloud-Systemen der entsprechenden Anbieter. Gleiches gilt für die Ausgabe eines Ergebnisses als gesprochener Text, die sogenannte Sprachsynthese. Die Übertragung und Verarbeitung der eigenen Stimme bringt natürlich Datenschutzbedenken hervor - obgleich Amazon und Google ohnehin mehr über uns wissen als wir selbst.

Für interessierte Anwender, die den Komfort eines Sprachassistenten nutzen möchten, aber sich um ihre Privatsphäre sorgen, arbeitet das Unternehmen Mycroft AI an einer "Privacy aware"-Open-Source-Alternative.

Unterstützte Systeme für Mycroft

Wer Mycroft ausprobieren möchte, hat mehrere Möglichkeiten: entweder auf einem Linux-Computer mit Python 3 oder einem Raspberry Pi 3 oder mit Mycroft als Docker-Container. Native Windows-Unterstützung ist geplant, aber derzeit seitens des Herstellers noch nicht verfügbar. Windows- oder Mac-Anwender können sich mit einem virtuellen Linux-System behelfen.

Stellenmarkt
  1. Junior Developer (m/w/d)
    CENTROTEC SE, Brilon
  2. IT-Projektmanager (m/w/d)
    Hays AG, Herdecke
Detailsuche

Für jeden Installationsweg stehen in der offiziellen Dokumentation Anleitungen bereit. Entscheidet man sich für die manuelle Linux-Installation, dann ist es kein Fehler, den Python3 Package Manager vorher mit pip3 install pip --upgrade zu aktualisieren.

Zusätzlich zum Software-Stack arbeitet Mycroft an einer eigenen Hardware-Produktpalette, Mark genannt. Die - primär an Entwickler gerichtete - erste Version Mark I wurde 2016 verkauft. Während das Nachfolgemodell Mark II derzeit für die Produktion vorbereitet wird, konnten ungeduldige Bastler ein Raspberry-Pi-4-basiertes Devkit erwerben, um bereits die Kombination aus Hardware- und Softwarestack kennenzulernen. Wegen des Fokus auf die Produktionslinie stehen die Devkits aktuell nicht mehr zum Verkauf.

"Privacy first" vs. "Register your device"

Am Ende jeder Mycroft-Installation fordert das System auf, diese neue Installation auf der Internetseite des Herstellers zu registrieren. Bis dies durchgeführt ist, quittiert Mycroft jede Anfrage mit der Bitte, zuerst die Geräteregistrierung abzuschließen. Dies klingt für ein System, das mit Fokus auf hohen Datenschutz wirbt, sehr fragwürdig. Die Notwendigkeit der Registrierung ist eine der häufigsten Fragen innerhalb der Mycroft-Community. Sie wird oft im Zusammenhang mit dem Wunsch gestellt, Mycroft komplett offline betreiben zu können.

Also wozu eine Online-Registrierung? Ein Aspekt ist die einfache Konfiguration von Mycroft (beispielsweise Zeitzone, Name der Installation, Stadt für Wetterabfragen, ...) und installierter Skills über eine Online-Weboberfläche. Dies geht für die geneigten Anwender allerdings auch per Kommandozeile und JSON-Konfigurationsdateien.

  • Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)
  • Konfigurationsbaum von Mycroft (Auszug) (Screenshot: Thorsten Müller)
  • Mycroft-Konfiguration des TTS-Moduls mit Mozilla / Coqui (Screenshot: Thorsten Müller)
  • (Tabelle: Thorsten Müller)
Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)

Der wichtigere Aspekt ist die Verarbeitung der Sprache. Die Qualität der Spracherkennung ist ein wesentliches Erfolgskriterium eines Sprachassistenten - wer möchte schon einen Sprachassistenten verwenden, der jedes zweite Wort falsch versteht?

Dies wird in der sogenannten WER (word error rate) gemessen, also der prozentual falschen Erkennung von Wörtern während der Spracherkennung. Trotz offener Alternativen wie Deepspeech mit dem zugehörigen Mozilla-Common-Voice-Datensatz liefern die APIs der großen Technologieanbieter meist zuverlässigere Ergebnisse.

Echo (4. Generation) - Mit herausragendem Klang, Smart Home-Hub und Alexa - Anthrazit

Metadaten wie die eigene IP-Adresse werden entfernt

Für einen Kompromiss zwischen Qualität und Datenschutz betreibt Mycroft eine anonymisierende Proxy-Schicht und entfernt einige Metadaten wie beispielsweise die eigene IP-Adresse aus der Anfrage einer Mycroft-Installation, bevor sie in die Cloud zur eigentlichen Verarbeitung weitergeleitet wird.

Vergleichbares geschieht auch bei der Sprachausgabe am Ende einer Anfrage. Je nach Sprache klingen lokale Spracherzeugungen teilweise wie ein böser Roboter aus einem schlechten Science-Fiction-Film der 1970er Jahre. Daher werden standardmäßig Cloud-basierte Stimmen verwendet, um eine höhere Benutzerakzeptanz zu erreichen. Sofern diese nicht zur Verfügung stehen, wird mit Mimic eine lokale, englische, sehr mechanisch klingende Stimme als Fallback verwendet.

Beide Aspekte - Spracherkennung und Sprachausgabe - können aber dank eines modularen Aufbaus per Konfiguration auf lokale Alternativen umgestellt werden, sofern man diese funktional eingerichtet hat.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Modularer Aufbau - Beispiel lokales TTS 
  1. 1
  2. 2
  3. 3
  4.  


terraformer 30. Jan 2022

Danke für den Hinweis!

ThorstenMueller 27. Jan 2022

Hallo. eine lokale deutsche Stimme wird nicht mitgeliefert. Standardmäßig werden hier...

ThorstenMueller 27. Jan 2022

Hallo, standardmäßig werden deutsche Spracherkennung und Sprachausgabe per Cloud Diensten...

Birefringence 26. Jan 2022

Ein vollständig offline funktionierendes System ist Rhasspy (ich darf noch keine Links...



Aktuell auf der Startseite von Golem.de
Sicherheitslücke
Die Schadsoftware, die auf ausgeschalteten iPhones aktiv ist

Forschern ist es gelungen, eine Schadsoftware auf ausgeschalteten iPhones mit vermeintlich leerem Akku auszuführen. Denn ganz aus sind diese nicht.

Sicherheitslücke: Die Schadsoftware, die auf ausgeschalteten iPhones aktiv ist
Artikel
  1. Bundeswehr: Das Heer will sich nicht abhören lassen
    Bundeswehr
    Das Heer will sich nicht abhören lassen

    Um sicher zu kommunizieren, halten die Landstreitkräfte in NATO-Missionen angeblich ihre Panzer an und verabreden sich "von Turm zu Turm".
    Ein Bericht von Matthias Monroy

  2. Einstieg in Linux mit drei Online-Workshops
     
    Einstieg in Linux mit drei Online-Workshops

    Linux-Systeme verstehen und härten sowie die Linux-Shell programmieren - das bieten drei praxisnahe Online-Workshops der Golem Akademie.
    Sponsored Post von Golem Akademie

  3. Milliarden-Übernahme: Musk spricht von günstigerem Übernahmeangebot für Twitter
    Milliarden-Übernahme  
    Musk spricht von günstigerem Übernahmeangebot für Twitter

    Mit Blick auf die Zählung von Spam-Konten bei Twitter hat Elon Musk gefragt, ob die mehr als 200 Millionen Twitter-Nutzer angerufen worden seien.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Bis zu 400€ Rabatt auf Gaming-Stühle • AOC G3 Gaming-Monitor 34" UWQHD 165 Hz günstig wie nie: 404€ • Xbox Series X bestellbar • MindStar (u.a. Gigabyte RTX 3090 24GB 1.699€) • LG OLED TV (2021) 65" 120 Hz 1.499€ statt 2.799€ [Werbung]
    •  /