Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa

Das US-Unternehmen Mycroft AI arbeitet an einem Open-Source-Sprachassistenten. Die Alexa-Alternative ist etwas für lange Winterabende.

Ein Praxistest von Thorsten Müller veröffentlicht am
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist.
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist. (Bild: Anthony Harvey/Getty Images)

"Alexa ..." schallt es häufig in vielen Haushalten. Die weltweite Erfolgsgeschichte dieser Sprachassistenten in smarten Lautsprechern dürfte niemandem entgangen sein. Gerade in Bezug auf die Sprachverarbeitung (Spracherkennung und Sprachausgabe) basieren diese Geräte auf Cloud-Diensten der großen Technologieanbieter und müssen daher konstant mit dem Internet verbunden sein.

Inhalt:
  1. Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa
  2. Modularer Aufbau - Beispiel lokales TTS
  3. English, Deutsch, Denglisch?!

Was bedeutet das? Die Spracherkennung, also das Umwandeln der gesprochenen Benutzeranweisung in Text, wird nicht lokal auf dem Gerät durchgeführt, sondern auf Cloud-Systemen der entsprechenden Anbieter. Gleiches gilt für die Ausgabe eines Ergebnisses als gesprochener Text, die sogenannte Sprachsynthese. Die Übertragung und Verarbeitung der eigenen Stimme bringt natürlich Datenschutzbedenken hervor - obgleich Amazon und Google ohnehin mehr über uns wissen als wir selbst.

Für interessierte Anwender, die den Komfort eines Sprachassistenten nutzen möchten, aber sich um ihre Privatsphäre sorgen, arbeitet das Unternehmen Mycroft AI an einer "Privacy aware"-Open-Source-Alternative.

Unterstützte Systeme für Mycroft

Wer Mycroft ausprobieren möchte, hat mehrere Möglichkeiten: entweder auf einem Linux-Computer mit Python 3 oder einem Raspberry Pi 3 oder mit Mycroft als Docker-Container. Native Windows-Unterstützung ist geplant, aber derzeit seitens des Herstellers noch nicht verfügbar. Windows- oder Mac-Anwender können sich mit einem virtuellen Linux-System behelfen.

Stellenmarkt
  1. Microsoft Office 365 & Power Platform Developer (m/w)
    Marc Cain GmbH, Bodelshausen
  2. Consultant SAP Grantor (m/w/d)
    IKOR GmbH, deutschlandweit
Detailsuche

Für jeden Installationsweg stehen in der offiziellen Dokumentation Anleitungen bereit. Entscheidet man sich für die manuelle Linux-Installation, dann ist es kein Fehler, den Python3 Package Manager vorher mit pip3 install pip --upgrade zu aktualisieren.

Zusätzlich zum Software-Stack arbeitet Mycroft an einer eigenen Hardware-Produktpalette, Mark genannt. Die - primär an Entwickler gerichtete - erste Version Mark I wurde 2016 verkauft. Während das Nachfolgemodell Mark II derzeit für die Produktion vorbereitet wird, konnten ungeduldige Bastler ein Raspberry-Pi-4-basiertes Devkit erwerben, um bereits die Kombination aus Hardware- und Softwarestack kennenzulernen. Wegen des Fokus auf die Produktionslinie stehen die Devkits aktuell nicht mehr zum Verkauf.

"Privacy first" vs. "Register your device"

Am Ende jeder Mycroft-Installation fordert das System auf, diese neue Installation auf der Internetseite des Herstellers zu registrieren. Bis dies durchgeführt ist, quittiert Mycroft jede Anfrage mit der Bitte, zuerst die Geräteregistrierung abzuschließen. Dies klingt für ein System, das mit Fokus auf hohen Datenschutz wirbt, sehr fragwürdig. Die Notwendigkeit der Registrierung ist eine der häufigsten Fragen innerhalb der Mycroft-Community. Sie wird oft im Zusammenhang mit dem Wunsch gestellt, Mycroft komplett offline betreiben zu können.

Also wozu eine Online-Registrierung? Ein Aspekt ist die einfache Konfiguration von Mycroft (beispielsweise Zeitzone, Name der Installation, Stadt für Wetterabfragen, ...) und installierter Skills über eine Online-Weboberfläche. Dies geht für die geneigten Anwender allerdings auch per Kommandozeile und JSON-Konfigurationsdateien.

  • Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)
  • Konfigurationsbaum von Mycroft (Auszug) (Screenshot: Thorsten Müller)
  • Mycroft-Konfiguration des TTS-Moduls mit Mozilla / Coqui (Screenshot: Thorsten Müller)
  • (Tabelle: Thorsten Müller)
Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)

Der wichtigere Aspekt ist die Verarbeitung der Sprache. Die Qualität der Spracherkennung ist ein wesentliches Erfolgskriterium eines Sprachassistenten - wer möchte schon einen Sprachassistenten verwenden, der jedes zweite Wort falsch versteht?

Dies wird in der sogenannten WER (word error rate) gemessen, also der prozentual falschen Erkennung von Wörtern während der Spracherkennung. Trotz offener Alternativen wie Deepspeech mit dem zugehörigen Mozilla-Common-Voice-Datensatz liefern die APIs der großen Technologieanbieter meist zuverlässigere Ergebnisse.

Echo (4. Generation) - Mit herausragendem Klang, Smart Home-Hub und Alexa - Anthrazit

Metadaten wie die eigene IP-Adresse werden entfernt

Für einen Kompromiss zwischen Qualität und Datenschutz betreibt Mycroft eine anonymisierende Proxy-Schicht und entfernt einige Metadaten wie beispielsweise die eigene IP-Adresse aus der Anfrage einer Mycroft-Installation, bevor sie in die Cloud zur eigentlichen Verarbeitung weitergeleitet wird.

Vergleichbares geschieht auch bei der Sprachausgabe am Ende einer Anfrage. Je nach Sprache klingen lokale Spracherzeugungen teilweise wie ein böser Roboter aus einem schlechten Science-Fiction-Film der 1970er Jahre. Daher werden standardmäßig Cloud-basierte Stimmen verwendet, um eine höhere Benutzerakzeptanz zu erreichen. Sofern diese nicht zur Verfügung stehen, wird mit Mimic eine lokale, englische, sehr mechanisch klingende Stimme als Fallback verwendet.

Beide Aspekte - Spracherkennung und Sprachausgabe - können aber dank eines modularen Aufbaus per Konfiguration auf lokale Alternativen umgestellt werden, sofern man diese funktional eingerichtet hat.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Modularer Aufbau - Beispiel lokales TTS 
  1. 1
  2. 2
  3. 3
  4.  


terraformer 30. Jan 2022

Danke für den Hinweis!

ThorstenMueller 27. Jan 2022

Hallo. eine lokale deutsche Stimme wird nicht mitgeliefert. Standardmäßig werden hier...

ThorstenMueller 27. Jan 2022

Hallo, standardmäßig werden deutsche Spracherkennung und Sprachausgabe per Cloud Diensten...

Birefringence 26. Jan 2022

Ein vollständig offline funktionierendes System ist Rhasspy (ich darf noch keine Links...



Aktuell auf der Startseite von Golem.de
Autoindustrie
Mit handgeknüpften Kabelbäumen gegen die Lieferkrise

Der Krieg in der Ukraine unterbricht die Lieferkette bei den Kabelbäumen. Jetzt suchen Autohersteller nach neuen Produktionswegen.
Von Wolfgang Gomoll

Autoindustrie: Mit handgeknüpften Kabelbäumen gegen die Lieferkrise
Artikel
  1. Streaming: Spotify sieht großes Wachstumspotenzial
    Streaming
    Spotify sieht großes Wachstumspotenzial

    Spotify will in zwei Jahren eine Milliarde Kunden haben. Derzeit gibt es etwas mehr als 420 Millionen Nutzer.

  2. Homeoffice: Bastler baut Gestell für die liegende Büroarbeit im Bett
    Homeoffice
    Bastler baut Gestell für die liegende Büroarbeit im Bett

    Der Bildschirm über dem Kopf, die Tastatur hängt herab: Das Homeoffice aus dem Bett heraus funktioniert - mit Handwerk und Kreativität.

  3. Lenovo: Günstiges Thinkpad mit Trackpoint und Chrome OS kommt
    Lenovo
    Günstiges Thinkpad mit Trackpoint und Chrome OS kommt

    Das Thinkpad C14 verwendet Intels Alder Lake. Mit etwas Bastelarbeit ließe sich aus dem Chromebook sicher ein Linux-Notebook machen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 jetzt bestellbar • Cyber Week: Bis zu 900€ Rabatt auf E-Bikes • MindStar (u. a. Intel Core i9 529€, MSI RTX 3060 Ti 609€) • Gigabyte Waterforce Mainboard günstig wie nie: 480,95€ • Razer Ornata V2 Gaming-Tastatur günstig wie nie: 54,99€ • AOC G3 Gaming-Monitor 34" 165 Hz günstig wie nie: 404€ [Werbung]
    •  /