Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa
Das US-Unternehmen Mycroft AI arbeitet an einem Open-Source-Sprachassistenten. Die Alexa-Alternative ist etwas für lange Winterabende.

"Alexa ..." schallt es häufig in vielen Haushalten. Die weltweite Erfolgsgeschichte dieser Sprachassistenten in smarten Lautsprechern dürfte niemandem entgangen sein. Gerade in Bezug auf die Sprachverarbeitung (Spracherkennung und Sprachausgabe) basieren diese Geräte auf Cloud-Diensten der großen Technologieanbieter und müssen daher konstant mit dem Internet verbunden sein.
- Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa
- Modularer Aufbau - Beispiel lokales TTS
- English, Deutsch, Denglisch?!
Was bedeutet das? Die Spracherkennung, also das Umwandeln der gesprochenen Benutzeranweisung in Text, wird nicht lokal auf dem Gerät durchgeführt, sondern auf Cloud-Systemen der entsprechenden Anbieter. Gleiches gilt für die Ausgabe eines Ergebnisses als gesprochener Text, die sogenannte Sprachsynthese. Die Übertragung und Verarbeitung der eigenen Stimme bringt natürlich Datenschutzbedenken hervor - obgleich Amazon und Google ohnehin mehr über uns wissen als wir selbst.
Für interessierte Anwender, die den Komfort eines Sprachassistenten nutzen möchten, aber sich um ihre Privatsphäre sorgen, arbeitet das Unternehmen Mycroft AI an einer "Privacy aware"-Open-Source-Alternative.
Unterstützte Systeme für Mycroft
Wer Mycroft ausprobieren möchte, hat mehrere Möglichkeiten: entweder auf einem Linux-Computer mit Python 3 oder einem Raspberry Pi 3 oder mit Mycroft als Docker-Container. Native Windows-Unterstützung ist geplant, aber derzeit seitens des Herstellers noch nicht verfügbar. Windows- oder Mac-Anwender können sich mit einem virtuellen Linux-System behelfen.
Für jeden Installationsweg stehen in der offiziellen Dokumentation Anleitungen bereit. Entscheidet man sich für die manuelle Linux-Installation, dann ist es kein Fehler, den Python3 Package Manager vorher mit pip3 install pip --upgrade zu aktualisieren.
Zusätzlich zum Software-Stack arbeitet Mycroft an einer eigenen Hardware-Produktpalette, Mark genannt. Die - primär an Entwickler gerichtete - erste Version Mark I wurde 2016 verkauft. Während das Nachfolgemodell Mark II derzeit für die Produktion vorbereitet wird, konnten ungeduldige Bastler ein Raspberry-Pi-4-basiertes Devkit erwerben, um bereits die Kombination aus Hardware- und Softwarestack kennenzulernen. Wegen des Fokus auf die Produktionslinie stehen die Devkits aktuell nicht mehr zum Verkauf.
"Privacy first" vs. "Register your device"
Am Ende jeder Mycroft-Installation fordert das System auf, diese neue Installation auf der Internetseite des Herstellers zu registrieren. Bis dies durchgeführt ist, quittiert Mycroft jede Anfrage mit der Bitte, zuerst die Geräteregistrierung abzuschließen. Dies klingt für ein System, das mit Fokus auf hohen Datenschutz wirbt, sehr fragwürdig. Die Notwendigkeit der Registrierung ist eine der häufigsten Fragen innerhalb der Mycroft-Community. Sie wird oft im Zusammenhang mit dem Wunsch gestellt, Mycroft komplett offline betreiben zu können.
Also wozu eine Online-Registrierung? Ein Aspekt ist die einfache Konfiguration von Mycroft (beispielsweise Zeitzone, Name der Installation, Stadt für Wetterabfragen, ...) und installierter Skills über eine Online-Weboberfläche. Dies geht für die geneigten Anwender allerdings auch per Kommandozeile und JSON-Konfigurationsdateien.
Der wichtigere Aspekt ist die Verarbeitung der Sprache. Die Qualität der Spracherkennung ist ein wesentliches Erfolgskriterium eines Sprachassistenten - wer möchte schon einen Sprachassistenten verwenden, der jedes zweite Wort falsch versteht?
Dies wird in der sogenannten WER (word error rate) gemessen, also der prozentual falschen Erkennung von Wörtern während der Spracherkennung. Trotz offener Alternativen wie Deepspeech mit dem zugehörigen Mozilla-Common-Voice-Datensatz liefern die APIs der großen Technologieanbieter meist zuverlässigere Ergebnisse.
Metadaten wie die eigene IP-Adresse werden entfernt
Für einen Kompromiss zwischen Qualität und Datenschutz betreibt Mycroft eine anonymisierende Proxy-Schicht und entfernt einige Metadaten wie beispielsweise die eigene IP-Adresse aus der Anfrage einer Mycroft-Installation, bevor sie in die Cloud zur eigentlichen Verarbeitung weitergeleitet wird.
Vergleichbares geschieht auch bei der Sprachausgabe am Ende einer Anfrage. Je nach Sprache klingen lokale Spracherzeugungen teilweise wie ein böser Roboter aus einem schlechten Science-Fiction-Film der 1970er Jahre. Daher werden standardmäßig Cloud-basierte Stimmen verwendet, um eine höhere Benutzerakzeptanz zu erreichen. Sofern diese nicht zur Verfügung stehen, wird mit Mimic eine lokale, englische, sehr mechanisch klingende Stimme als Fallback verwendet.
Beide Aspekte - Spracherkennung und Sprachausgabe - können aber dank eines modularen Aufbaus per Konfiguration auf lokale Alternativen umgestellt werden, sofern man diese funktional eingerichtet hat.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Modularer Aufbau - Beispiel lokales TTS |
Danke für den Hinweis!
Hallo. eine lokale deutsche Stimme wird nicht mitgeliefert. Standardmäßig werden hier...
Hallo, standardmäßig werden deutsche Spracherkennung und Sprachausgabe per Cloud Diensten...
Ein vollständig offline funktionierendes System ist Rhasspy (ich darf noch keine Links...