Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa

Das US-Unternehmen Mycroft AI arbeitet an einem Open-Source-Sprachassistenten. Die Alexa-Alternative ist etwas für lange Winterabende.

Ein Praxistest von Thorsten Müller veröffentlicht am
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist.
Mycroft Holmes (hier: Mark Gatiss) gab den Namen für einen Computer, nach dem der Sprachassistent Mycroft benannt ist. (Bild: Anthony Harvey/Getty Images)

"Alexa ..." schallt es häufig in vielen Haushalten. Die weltweite Erfolgsgeschichte dieser Sprachassistenten in smarten Lautsprechern dürfte niemandem entgangen sein. Gerade in Bezug auf die Sprachverarbeitung (Spracherkennung und Sprachausgabe) basieren diese Geräte auf Cloud-Diensten der großen Technologieanbieter und müssen daher konstant mit dem Internet verbunden sein.

Inhalt:
  1. Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa
  2. Modularer Aufbau - Beispiel lokales TTS
  3. English, Deutsch, Denglisch?!

Was bedeutet das? Die Spracherkennung, also das Umwandeln der gesprochenen Benutzeranweisung in Text, wird nicht lokal auf dem Gerät durchgeführt, sondern auf Cloud-Systemen der entsprechenden Anbieter. Gleiches gilt für die Ausgabe eines Ergebnisses als gesprochener Text, die sogenannte Sprachsynthese. Die Übertragung und Verarbeitung der eigenen Stimme bringt natürlich Datenschutzbedenken hervor - obgleich Amazon und Google ohnehin mehr über uns wissen als wir selbst.

Für interessierte Anwender, die den Komfort eines Sprachassistenten nutzen möchten, aber sich um ihre Privatsphäre sorgen, arbeitet das Unternehmen Mycroft AI an einer "Privacy aware"-Open-Source-Alternative.

Unterstützte Systeme für Mycroft

Wer Mycroft ausprobieren möchte, hat mehrere Möglichkeiten: entweder auf einem Linux-Computer mit Python 3 oder einem Raspberry Pi 3 oder mit Mycroft als Docker-Container. Native Windows-Unterstützung ist geplant, aber derzeit seitens des Herstellers noch nicht verfügbar. Windows- oder Mac-Anwender können sich mit einem virtuellen Linux-System behelfen.

Stellenmarkt
  1. Software Developer (w/m/d)
    Intrum Hanseatische Inkasso-Treuhand GmbH, Hamburg
  2. Entwicklungsingenieur:in (m/w/d) - Fahrerassistenzsysteme / Autonomes Fahren
    IAV GmbH, Heimsheim
Detailsuche

Für jeden Installationsweg stehen in der offiziellen Dokumentation Anleitungen bereit. Entscheidet man sich für die manuelle Linux-Installation, dann ist es kein Fehler, den Python3 Package Manager vorher mit pip3 install pip --upgrade zu aktualisieren.

Zusätzlich zum Software-Stack arbeitet Mycroft an einer eigenen Hardware-Produktpalette, Mark genannt. Die - primär an Entwickler gerichtete - erste Version Mark I wurde 2016 verkauft. Während das Nachfolgemodell Mark II derzeit für die Produktion vorbereitet wird, konnten ungeduldige Bastler ein Raspberry-Pi-4-basiertes Devkit erwerben, um bereits die Kombination aus Hardware- und Softwarestack kennenzulernen. Wegen des Fokus auf die Produktionslinie stehen die Devkits aktuell nicht mehr zum Verkauf.

"Privacy first" vs. "Register your device"

Am Ende jeder Mycroft-Installation fordert das System auf, diese neue Installation auf der Internetseite des Herstellers zu registrieren. Bis dies durchgeführt ist, quittiert Mycroft jede Anfrage mit der Bitte, zuerst die Geräteregistrierung abzuschließen. Dies klingt für ein System, das mit Fokus auf hohen Datenschutz wirbt, sehr fragwürdig. Die Notwendigkeit der Registrierung ist eine der häufigsten Fragen innerhalb der Mycroft-Community. Sie wird oft im Zusammenhang mit dem Wunsch gestellt, Mycroft komplett offline betreiben zu können.

Also wozu eine Online-Registrierung? Ein Aspekt ist die einfache Konfiguration von Mycroft (beispielsweise Zeitzone, Name der Installation, Stadt für Wetterabfragen, ...) und installierter Skills über eine Online-Weboberfläche. Dies geht für die geneigten Anwender allerdings auch per Kommandozeile und JSON-Konfigurationsdateien.

  • Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)
  • Konfigurationsbaum von Mycroft (Auszug) (Screenshot: Thorsten Müller)
  • Mycroft-Konfiguration des TTS-Moduls mit Mozilla / Coqui (Screenshot: Thorsten Müller)
  • (Tabelle: Thorsten Müller)
Web-Oberfläche von account.mycroft.ai zur Konfiguration der Installation (Screenshot: Thorsten Müller)

Der wichtigere Aspekt ist die Verarbeitung der Sprache. Die Qualität der Spracherkennung ist ein wesentliches Erfolgskriterium eines Sprachassistenten - wer möchte schon einen Sprachassistenten verwenden, der jedes zweite Wort falsch versteht?

Dies wird in der sogenannten WER (word error rate) gemessen, also der prozentual falschen Erkennung von Wörtern während der Spracherkennung. Trotz offener Alternativen wie Deepspeech mit dem zugehörigen Mozilla-Common-Voice-Datensatz liefern die APIs der großen Technologieanbieter meist zuverlässigere Ergebnisse.

Echo (4. Generation) - Mit herausragendem Klang, Smart Home-Hub und Alexa - Anthrazit

Metadaten wie die eigene IP-Adresse werden entfernt

Für einen Kompromiss zwischen Qualität und Datenschutz betreibt Mycroft eine anonymisierende Proxy-Schicht und entfernt einige Metadaten wie beispielsweise die eigene IP-Adresse aus der Anfrage einer Mycroft-Installation, bevor sie in die Cloud zur eigentlichen Verarbeitung weitergeleitet wird.

Vergleichbares geschieht auch bei der Sprachausgabe am Ende einer Anfrage. Je nach Sprache klingen lokale Spracherzeugungen teilweise wie ein böser Roboter aus einem schlechten Science-Fiction-Film der 1970er Jahre. Daher werden standardmäßig Cloud-basierte Stimmen verwendet, um eine höhere Benutzerakzeptanz zu erreichen. Sofern diese nicht zur Verfügung stehen, wird mit Mimic eine lokale, englische, sehr mechanisch klingende Stimme als Fallback verwendet.

Beide Aspekte - Spracherkennung und Sprachausgabe - können aber dank eines modularen Aufbaus per Konfiguration auf lokale Alternativen umgestellt werden, sofern man diese funktional eingerichtet hat.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Modularer Aufbau - Beispiel lokales TTS 
  1. 1
  2. 2
  3. 3
  4.  


terraformer 30. Jan 2022

Danke für den Hinweis!

ThorstenMueller 27. Jan 2022

Hallo. eine lokale deutsche Stimme wird nicht mitgeliefert. Standardmäßig werden hier...

ThorstenMueller 27. Jan 2022

Hallo, standardmäßig werden deutsche Spracherkennung und Sprachausgabe per Cloud Diensten...

Birefringence 26. Jan 2022

Ein vollständig offline funktionierendes System ist Rhasspy (ich darf noch keine Links...



Aktuell auf der Startseite von Golem.de
Verkaufsstart des 9-Euro-Tickets
Was Fahrgäste wissen müssen

Das 9-Euro-Ticket für den ÖPNV ist beschlossene Sache, Verkehrsverbünde und -unternehmen sehen sich auf den Verkaufsstart in diesen Tagen gut vorbereitet. Doch es gibt viele offene Fragen.

Verkaufsstart des 9-Euro-Tickets: Was Fahrgäste wissen müssen
Artikel
  1. Urkunden nicht zugestellt: Digitalisierung in Berlin sorgt für Pannen
    Urkunden nicht zugestellt
    Digitalisierung in Berlin sorgt für Pannen

    Eine Panne in der Berliner Innenverwaltung hat dafür gesorgt, dass Hunderte von wichtigen Urkunden nicht übermittelt werden konnten.

  2. Rheinland-Pfalz: Glasfaser soll erneut an Gleisen verlegt werden
    Rheinland-Pfalz
    Glasfaser soll erneut an Gleisen verlegt werden

    Onefiber hat sein erstes großes Projekt. In Rheinland-Pfalz wird parallel zur Glasfaser der Bahn verlegt und teilweise auch neu.

  3. Richter: Chancen für künstliche Intelligenz in der Justiz
    Richter
    Chancen für künstliche Intelligenz in der Justiz

    Die deutschen Gerichte sind überlastet, Nachwuchs in ausreichender Zahl ist nicht in Sicht. Kann KI Recht sprechen und die Gerichte entlasten?

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer Predator X38S (UWQHD, 175 Hz OC) 1.499€ • MindStar (u. a. AMD Ryzen 7 5700X 268€ und PowerColor RX 6750 XT Red Devil 609€ und RX 6900 XT Red Devil Ultimate 949€) • Alternate (u. a. Cooler Master Caliber R1 159,89€) • SanDisk Portable SSD 1 TB 81€ • Motorola Moto G60s 149€ [Werbung]
    •  /