• IT-Karriere:
  • Services:

Speech to Text: Das bisschen Sprache kann so schwer nicht sein

Schnell ein Interview transkribieren, das müsste mit KI-Systemen doch inzwischen gut machbar sein - dachten wir.

Ein Erfahrungsbericht von veröffentlicht am
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft.
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft. (Bild: Pixabay)

Vermutlich haben alle in der IT irgendwann schon einmal den gut gemeinten Rat gehört, langweilige, zeitaufwendige und vor allem auch wiederkehrende Aufgaben einfach zu automatisieren und damit zu vereinfachen. In einem Gespräch unter Kollegen kommt uns schnell eben diese Idee in den Sinn, als wir unseren Arbeitsalltag diskutieren. Nervig erscheint uns vor allem das manuelle Transkribieren von Wortlaut-Interviews, die wir bisher selbst mit dem Headset auf dem Ohr in die Tastatur abtippen. Das muss doch mit moderner Technik auch anders gehen, denken wir uns - vielleicht etwas voreilig.

Inhalt:
  1. Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  2. Speech-to-Text: Hoffnung für den Alltag

Die großen und weitreichenden Versprechen der modernen Machine-Learning-Modelle zur Sprachverarbeitung kommen da genau richtig und wir nehmen uns vor, sie zu testen und bei Erfolg in den Redaktionsalltag zu integrieren, hoffentlich zur Freude der Kollegen. Die Maßgabe für uns ist dabei neben der eigentlichen Qualität der Spracherkennung vor allem die Praktikabilität unseres Unterfangens.

Für einen kurzen Test wollen wir die Entwicklungsabteilung nicht unnötig belasten und dass die Redaktuere neben der eigentlichen Textarbeit noch groß programmieren müssen, sollte nicht Zweck unseres Experiments sein.

Entsprechend unbedarft gehen wir an die Aufgabe. Was kann schon so schwer daran sein, ein Speech-to-Text-System zu verwenden? Einfach irgendwo die Dateiaufnahme hochladen, die Umwandlung zum Text abwarten und nach redaktionellem Feinschliff könnte das Interview im Idealfall schnell online gehen. In unserer Naivität haben wir jedoch wohl einfach die Geschäftsmodelle der großen Cloud-Anbieter nicht bedacht. Aber der Reihe nach.

AWS, Google Cloud, Azure: nix mit schnell mal testen

Stellenmarkt
  1. KRATZER AUTOMATION AG, Unterschleißheim
  2. Lidl Digital, Neckarsulm

Zunächst besprechen wir, dass wir uns der Einfachheit halber wirklich nur kurz die Angebote der drei großen Cloud-Anbieter ansehen wollen: also Amazon Web Services (AWS), Google Cloud und Microsofts Azure. Wir verteilen die Zuständigkeiten und warten auf Feedback für die Auswertung, die alsbald kommt, aber leider deutlich schlechter ausfällt, als wir uns das erhofft haben. Das liegt aber nicht etwa an der Sprachqualität - dazu später mehr -, sondern vor allem an den eher schlechten Testmöglichkeiten.

Noch recht einfach gestaltet sich der Test bei Microsofts Azure. Für dessen Speech-to-Text-Dienst als Teil der sogenannten Cognitive Services gibt es eine in Javascript geschriebene Beispielanwendung, die kostenfrei eine WAV-Datei in Echtzeit transkribiert.

Wir können oder müssen also dem Ergebnis beim Entstehen zusehen. Dabei denken wir kurz an den Compiling-Comic von XKCD. Doch selbst in Echtzeit ist die maschinelle Verarbeitung immer noch schneller als wir beim Abtippen eines Interviews. Wollen wir den Azure-Dienst aber wirklich produktiv einsetzen, sollten wir sinnvollerweise aber nicht immer nur die Beispielanwendung von Microsoft verwenden. Das wiederum heißt aber, dass wir doch selbst programmieren müssten, was wir wie erwähnt genau vermeiden wollten.

Google und AWS komplizierter

Im Fall von AWS gestaltet sich unser Test etwas schwieriger. Zwar lässt sich der Transkribe genannte Dienst nach einer Anmeldung mit ein paar wenigen Klicks verwenden, dafür müssen die Dateien aber zunächst in einem S3-Bucket bereitliegen. Doch Transkribe will unseren Bucket nicht. Es dauert eine Weile, bis wir herausfinden, dass unsere Bucket in Frankfurt/Main am falschen Ort liegt. Transkribe erwartet dafür einen Server an der US-Ostküste.

Danach laufen unsere Tests aber endlich zügig durch. Um zu diesem Punkt zu gelangen, benötigen wir jedoch eine detaillierte Anleitung und halten das Ganze auch für sehr wenig nutzerfreundlich. Einfach die Dateien hochladen und auswerten lassen wie in dem Azure-Beispiel ist bei AWS nicht möglich. Dafür könnten wir den Dienst aber immerhin nutzen, ohne selbst programmieren zu müssen. Der Weg dahin ist aber alles andere als intuitiv.

Unerwartete Probleme hat der Kollege, der sich für die Google Cloud entschieden hat. Zwar lässt sich auch dort ähnlich wie bei Microsoft schnell eine Datei hochladen und der Dienst kurz testen. Dies ist jedoch auf maximal eine Minute begrenzt. Ausführlicher geht dies nur nach einer Anmeldung und der Nutzung der API beziehungsweise eines Kommandozeilenwerkzeugs mit entsprechenden Zugangsdaten und dem Anlegen von Konfigurationsdateien.

Das ist dem testwilligen Kollegen zunächst einfach zu kompliziert. Und mit Blick auf den Einsatz in der gesamten Redaktion gehen wir davon aus, dass wir wohl um eine sehr ausführliche Anleitung oder eben die Programmierung einer eigenen kleinen Anwendung auch bei der Google Cloud nicht drum herumkommen.

Wir stellen etwas ernüchtert fest, dass das Transkribieren von Interviews doch nicht so schnell und einfach umsetzbar ist, wie wir uns das anfangs gedacht haben. Zumindest führt bei den drei großen Cloud-Diensten wohl kein Weg an der Entwicklungsabteilung vorbei. Wir machen uns dennoch an die Auswertung, schauen uns nach Alternativen um und werden dabei überrascht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Speech-to-Text: Hoffnung für den Alltag 
  1. 1
  2. 2
  3.  


Anzeige
Spiele-Angebote
  1. für PC, PS4/PS5, Xbox und Switch
  2. 25,99€
  3. 19,49€

bitshift 20. Nov 2020

Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...

Bommeltussi 16. Sep 2020

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...

codinger 16. Sep 2020

Ich nehme an diese app konsumiert die im Artikel genannte API: Ich darf keine links...


Folgen Sie uns
       


Die Tesla-Baustelle von oben 2020-2021

Wir haben den Fortschritt in Grünheide dokumentiert.

Die Tesla-Baustelle von oben 2020-2021 Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /