Sprachassistent Leon: Basteln am virtuellen Hirn des eigenen KI-Assistenten
10.000 Stars bei Github und vollmundige Versprechungen der Entwickler: Der quelloffene virtuelle Sprachassistent Leon scheint besonders attraktiv. Zwar ist er es (noch) nicht, einen Blick ist er trotzdem wert.
"Du kannst dir Leon als dein virtuelles Gehirn vorstellen": Die Projektseite des persönlichen virtuellen Assistenten auf Github stapelt nicht gerade tief und weckt hohe Erwartungen. Hoch ist daher auch das Frustpotenzial.
Leons Fähigkeiten - oder neudeutsch: Skills - sollen Anwender unter anderem dabei unterstützen, tägliche Routineaufgaben zu automatisieren. Der Assistent steht als Open Source zur Verfügung, die Interaktion zwischen ihm und seinen Anwendern kann entweder, wie bei anderen persönlichen Assistenzsystemen, sprachbasiert oder auch textuell sein. Wichtig ist der Hinweis des Entwicklers: "can live on your server" - kann also auf der heimischen Infrastruktur betrieben werden. Das dezente "can" wird gleich noch wichtig.
Offline oder nicht
Wer sich nach offenen (Sprach-)Assistenten jenseits der cloudbasierten Produkte großer Technologieunternehmen umschaut, den beschäftigt nicht selten die folgende Frage: Kann dieser Sprachassistent offline betrieben werden? Sei es aus Gründen des Datenschutzes oder vielleicht, weil keine durchgehende oder stabile Internetverbindung gewährleistet werden kann.
Für Leon lautet die klare Antwort: jein. Und so ist auch das "can live on your server" zu verstehen. Möchte man mit seinem persönlichen Assistenten ausschließlich in Textform kommunizieren, so kann Leon ohne internetabhängige Dienste betrieben werden. Wer aus einem persönlichen Assistenten einen persönlichen Sprach-Assistenten machen möchte, der muss etwas ins Kleingedruckte schauen.
Wenig überraschend ist, dass dafür Komponenten für Spracherkennung (STT) und Sprachausgabe (TTS) benötigt werden. Hier bietet Leon eine breite Auswahl an möglichen Optionen. Im Bereich der Spracherkennung (STT) werden aktuell drei Möglichkeiten angeboten: Google Cloud, IBM Watson, Coqui STT. Die Unterstützung von zwei weiteren Diensten (Alibaba Cloud und Microsoft Azure) zur Spracherkennung ist laut Entwickler geplant. Davon ist Coqui STT die einzige Option, die lokal betrieben werden kann.
Vergleichbar sieht es im Bereich der Sprachausgabe (TTS) aus. Derzeit werden die vier Dienste Google Cloud, AWS, IBM Watson und CMU Flite unterstützt. Geplant ist, analog zu STT, noch die Alibaba-Cloud- und Microsoft-Azure-Unterstützung. Hier bildet CMU Flite die einzige offline lauffähige TTS-Komponente.
Natürlich ist jeweils eine lokal lauffähige Option für STT und TTS ausreichend, wenn man nicht beim weiteren Lesen der Dokumentation folgenden Hinweis sehen würde: "The offline STT and offline TTS only work for the en-US language. More languages will come later." Derzeit scheint der Offline-Sprachbetrieb nur in englischer Sprache zu funktionieren. Wobei zumindest Coqui STT prinzipiell auch die deutsche Sprache unterstützt.
Zusammengefasst bedeutet dies: Leon als Sprachassistent kann derzeit im englischsprachigen Betrieb lokal oder im deutschsprachigen Einsatz mit Cloudsprachdiensten betrieben werden.
Auf die Registrierung bei Clouddiensten und der Beantragung von API-Schlüsseln wurde im Rahmen dieses Artikels verzichtet und Leon stattdessen für den lokalen und englischsprachigen Betrieb konfiguriert. Genutzt wurde die Version 1.0.0-beta.7.