• IT-Karriere:
  • Services:

Speech to Text: Das bisschen Sprache kann so schwer nicht sein

Schnell ein Interview transkribieren, das müsste mit KI-Systemen doch inzwischen gut machbar sein - dachten wir.

Ein Erfahrungsbericht von veröffentlicht am
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft.
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft. (Bild: Pixabay)

Vermutlich haben alle in der IT irgendwann schon einmal den gut gemeinten Rat gehört, langweilige, zeitaufwendige und vor allem auch wiederkehrende Aufgaben einfach zu automatisieren und damit zu vereinfachen. In einem Gespräch unter Kollegen kommt uns schnell eben diese Idee in den Sinn, als wir unseren Arbeitsalltag diskutieren. Nervig erscheint uns vor allem das manuelle Transkribieren von Wortlaut-Interviews, die wir bisher selbst mit dem Headset auf dem Ohr in die Tastatur abtippen. Das muss doch mit moderner Technik auch anders gehen, denken wir uns - vielleicht etwas voreilig.

Inhalt:
  1. Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  2. Speech-to-Text: Hoffnung für den Alltag

Die großen und weitreichenden Versprechen der modernen Machine-Learning-Modelle zur Sprachverarbeitung kommen da genau richtig und wir nehmen uns vor, sie zu testen und bei Erfolg in den Redaktionsalltag zu integrieren, hoffentlich zur Freude der Kollegen. Die Maßgabe für uns ist dabei neben der eigentlichen Qualität der Spracherkennung vor allem die Praktikabilität unseres Unterfangens.

Für einen kurzen Test wollen wir die Entwicklungsabteilung nicht unnötig belasten und dass die Redaktuere neben der eigentlichen Textarbeit noch groß programmieren müssen, sollte nicht Zweck unseres Experiments sein.

Entsprechend unbedarft gehen wir an die Aufgabe. Was kann schon so schwer daran sein, ein Speech-to-Text-System zu verwenden? Einfach irgendwo die Dateiaufnahme hochladen, die Umwandlung zum Text abwarten und nach redaktionellem Feinschliff könnte das Interview im Idealfall schnell online gehen. In unserer Naivität haben wir jedoch wohl einfach die Geschäftsmodelle der großen Cloud-Anbieter nicht bedacht. Aber der Reihe nach.

AWS, Google Cloud, Azure: nix mit schnell mal testen

Stellenmarkt
  1. Ministerium des Innern und für Kommunales des Landes Brandenburg, Potsdam
  2. Interhyp Gruppe, München

Zunächst besprechen wir, dass wir uns der Einfachheit halber wirklich nur kurz die Angebote der drei großen Cloud-Anbieter ansehen wollen: also Amazon Web Services (AWS), Google Cloud und Microsofts Azure. Wir verteilen die Zuständigkeiten und warten auf Feedback für die Auswertung, die alsbald kommt, aber leider deutlich schlechter ausfällt, als wir uns das erhofft haben. Das liegt aber nicht etwa an der Sprachqualität - dazu später mehr -, sondern vor allem an den eher schlechten Testmöglichkeiten.

Noch recht einfach gestaltet sich der Test bei Microsofts Azure. Für dessen Speech-to-Text-Dienst als Teil der sogenannten Cognitive Services gibt es eine in Javascript geschriebene Beispielanwendung, die kostenfrei eine WAV-Datei in Echtzeit transkribiert.

Wir können oder müssen also dem Ergebnis beim Entstehen zusehen. Dabei denken wir kurz an den Compiling-Comic von XKCD. Doch selbst in Echtzeit ist die maschinelle Verarbeitung immer noch schneller als wir beim Abtippen eines Interviews. Wollen wir den Azure-Dienst aber wirklich produktiv einsetzen, sollten wir sinnvollerweise aber nicht immer nur die Beispielanwendung von Microsoft verwenden. Das wiederum heißt aber, dass wir doch selbst programmieren müssten, was wir wie erwähnt genau vermeiden wollten.

Google und AWS komplizierter

Im Fall von AWS gestaltet sich unser Test etwas schwieriger. Zwar lässt sich der Transkribe genannte Dienst nach einer Anmeldung mit ein paar wenigen Klicks verwenden, dafür müssen die Dateien aber zunächst in einem S3-Bucket bereitliegen. Doch Transkribe will unseren Bucket nicht. Es dauert eine Weile, bis wir herausfinden, dass unsere Bucket in Frankfurt/Main am falschen Ort liegt. Transkribe erwartet dafür einen Server an der US-Ostküste.

Danach laufen unsere Tests aber endlich zügig durch. Um zu diesem Punkt zu gelangen, benötigen wir jedoch eine detaillierte Anleitung und halten das Ganze auch für sehr wenig nutzerfreundlich. Einfach die Dateien hochladen und auswerten lassen wie in dem Azure-Beispiel ist bei AWS nicht möglich. Dafür könnten wir den Dienst aber immerhin nutzen, ohne selbst programmieren zu müssen. Der Weg dahin ist aber alles andere als intuitiv.

Unerwartete Probleme hat der Kollege, der sich für die Google Cloud entschieden hat. Zwar lässt sich auch dort ähnlich wie bei Microsoft schnell eine Datei hochladen und der Dienst kurz testen. Dies ist jedoch auf maximal eine Minute begrenzt. Ausführlicher geht dies nur nach einer Anmeldung und der Nutzung der API beziehungsweise eines Kommandozeilenwerkzeugs mit entsprechenden Zugangsdaten und dem Anlegen von Konfigurationsdateien.

Das ist dem testwilligen Kollegen zunächst einfach zu kompliziert. Und mit Blick auf den Einsatz in der gesamten Redaktion gehen wir davon aus, dass wir wohl um eine sehr ausführliche Anleitung oder eben die Programmierung einer eigenen kleinen Anwendung auch bei der Google Cloud nicht drum herumkommen.

Wir stellen etwas ernüchtert fest, dass das Transkribieren von Interviews doch nicht so schnell und einfach umsetzbar ist, wie wir uns das anfangs gedacht haben. Zumindest führt bei den drei großen Cloud-Diensten wohl kein Weg an der Entwicklungsabteilung vorbei. Wir machen uns dennoch an die Auswertung, schauen uns nach Alternativen um und werden dabei überrascht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Speech-to-Text: Hoffnung für den Alltag 
  1. 1
  2. 2
  3.  


Anzeige
Top-Angebote
  1. 299,99€ (Release 10.11.)
  2. 299,99€ (Release 10.11.)
  3. 299,99€ (Release 10.11.)
  4. 299,99€ (Release 10.11.)

Bommeltussi 16. Sep 2020 / Themenstart

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020 / Themenstart

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020 / Themenstart

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...

codinger 16. Sep 2020 / Themenstart

Ich nehme an diese app konsumiert die im Artikel genannte API: Ich darf keine links...

peace 15. Sep 2020 / Themenstart

Auf der Android-Tastatur befindet sich ein Mikrofon-Icon: Wenn man das anklickt, kann man...

Kommentieren


Folgen Sie uns
       


IT-Freelancer: Der kürzeste Pfad zum nächsten Projekt
IT-Freelancer
Der kürzeste Pfad zum nächsten Projekt

Die Nachfrage nach IT-Freelancern ist groß - die Konkurrenz aber auch. Der nächste Auftrag kommt meist aus dem eigenen Netzwerk oder von Vermittlern. Doch wie findet man den passenden Mix?
Ein Bericht von Manuel Heckel

  1. Selbstständiger Sysadmin "Jetzt fehlen nur noch die Aufträge"

iPhone, iPad und Co.: Apple bringt iOS 14, iPadOS 14, TVOS 14 und WatchOS 7
iPhone, iPad und Co.
Apple bringt iOS 14, iPadOS 14, TVOS 14 und WatchOS 7

Auch ohne neue iPhones lässt es sich Apple nicht nehmen, seine neue iOS-Version 14 zu veröffentlichen. Auch andere Systeme erhalten Upgrades.

  1. Apple Pay EU will Apple zur Freigabe von NFC-Chip bringen
  2. Apple One Abos der verschiedenen Apple-Dienste im Paket
  3. Corona Apple hat eigenen Mund-Nasen-Schutz entwickelt

Prozessor: Wie arm ARM mit Nvidia dran ist
Prozessor
Wie arm ARM mit Nvidia dran ist

Von positiv bis hin zum Desaster reichen die Stimmen zum Deal: Was der Kauf von ARM durch Nvidia bedeuten könnte.
Eine Analyse von Marc Sauter

  1. Prozessoren Nvidia kauft ARM für 40 Milliarden US-Dollar
  2. Chipdesigner Nvidia bietet mehr als 40 Milliarden Dollar für ARM
  3. Softbank-Tochter Nvidia hat Interesse an ARM

    •  /