Speech to Text: Das bisschen Sprache kann so schwer nicht sein

Schnell ein Interview transkribieren, das müsste mit KI-Systemen doch inzwischen gut machbar sein - dachten wir.

Ein Erfahrungsbericht von veröffentlicht am
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft.
Spracherkennung ist bei den großen Anbietern leider nicht so einfach verfügbar, wie erhofft. (Bild: Pixabay)

Vermutlich haben alle in der IT irgendwann schon einmal den gut gemeinten Rat gehört, langweilige, zeitaufwendige und vor allem auch wiederkehrende Aufgaben einfach zu automatisieren und damit zu vereinfachen. In einem Gespräch unter Kollegen kommt uns schnell eben diese Idee in den Sinn, als wir unseren Arbeitsalltag diskutieren. Nervig erscheint uns vor allem das manuelle Transkribieren von Wortlaut-Interviews, die wir bisher selbst mit dem Headset auf dem Ohr in die Tastatur abtippen. Das muss doch mit moderner Technik auch anders gehen, denken wir uns - vielleicht etwas voreilig.

Inhalt:
  1. Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  2. Speech-to-Text: Hoffnung für den Alltag

Die großen und weitreichenden Versprechen der modernen Machine-Learning-Modelle zur Sprachverarbeitung kommen da genau richtig und wir nehmen uns vor, sie zu testen und bei Erfolg in den Redaktionsalltag zu integrieren, hoffentlich zur Freude der Kollegen. Die Maßgabe für uns ist dabei neben der eigentlichen Qualität der Spracherkennung vor allem die Praktikabilität unseres Unterfangens.

Für einen kurzen Test wollen wir die Entwicklungsabteilung nicht unnötig belasten und dass die Redaktuere neben der eigentlichen Textarbeit noch groß programmieren müssen, sollte nicht Zweck unseres Experiments sein.

Entsprechend unbedarft gehen wir an die Aufgabe. Was kann schon so schwer daran sein, ein Speech-to-Text-System zu verwenden? Einfach irgendwo die Dateiaufnahme hochladen, die Umwandlung zum Text abwarten und nach redaktionellem Feinschliff könnte das Interview im Idealfall schnell online gehen. In unserer Naivität haben wir jedoch wohl einfach die Geschäftsmodelle der großen Cloud-Anbieter nicht bedacht. Aber der Reihe nach.

AWS, Google Cloud, Azure: nix mit schnell mal testen

Stellenmarkt
  1. Softwareentwickler (m/w/d) mit Schwerpunkt Regelungstechnik/DSP
    KOSTAL Automobil Elektrik GmbH & Co. KG, Dortmund
  2. Informatiker (w/m/d) für elektronische Formularverarbeitung
    Stadt Erlangen, Erlangen
Detailsuche

Zunächst besprechen wir, dass wir uns der Einfachheit halber wirklich nur kurz die Angebote der drei großen Cloud-Anbieter ansehen wollen: also Amazon Web Services (AWS), Google Cloud und Microsofts Azure. Wir verteilen die Zuständigkeiten und warten auf Feedback für die Auswertung, die alsbald kommt, aber leider deutlich schlechter ausfällt, als wir uns das erhofft haben. Das liegt aber nicht etwa an der Sprachqualität - dazu später mehr -, sondern vor allem an den eher schlechten Testmöglichkeiten.

Noch recht einfach gestaltet sich der Test bei Microsofts Azure. Für dessen Speech-to-Text-Dienst als Teil der sogenannten Cognitive Services gibt es eine in Javascript geschriebene Beispielanwendung, die kostenfrei eine WAV-Datei in Echtzeit transkribiert.

Wir können oder müssen also dem Ergebnis beim Entstehen zusehen. Dabei denken wir kurz an den Compiling-Comic von XKCD. Doch selbst in Echtzeit ist die maschinelle Verarbeitung immer noch schneller als wir beim Abtippen eines Interviews. Wollen wir den Azure-Dienst aber wirklich produktiv einsetzen, sollten wir sinnvollerweise aber nicht immer nur die Beispielanwendung von Microsoft verwenden. Das wiederum heißt aber, dass wir doch selbst programmieren müssten, was wir wie erwähnt genau vermeiden wollten.

Google und AWS komplizierter

Im Fall von AWS gestaltet sich unser Test etwas schwieriger. Zwar lässt sich der Transkribe genannte Dienst nach einer Anmeldung mit ein paar wenigen Klicks verwenden, dafür müssen die Dateien aber zunächst in einem S3-Bucket bereitliegen. Doch Transkribe will unseren Bucket nicht. Es dauert eine Weile, bis wir herausfinden, dass unsere Bucket in Frankfurt/Main am falschen Ort liegt. Transkribe erwartet dafür einen Server an der US-Ostküste.

Danach laufen unsere Tests aber endlich zügig durch. Um zu diesem Punkt zu gelangen, benötigen wir jedoch eine detaillierte Anleitung und halten das Ganze auch für sehr wenig nutzerfreundlich. Einfach die Dateien hochladen und auswerten lassen wie in dem Azure-Beispiel ist bei AWS nicht möglich. Dafür könnten wir den Dienst aber immerhin nutzen, ohne selbst programmieren zu müssen. Der Weg dahin ist aber alles andere als intuitiv.

Unerwartete Probleme hat der Kollege, der sich für die Google Cloud entschieden hat. Zwar lässt sich auch dort ähnlich wie bei Microsoft schnell eine Datei hochladen und der Dienst kurz testen. Dies ist jedoch auf maximal eine Minute begrenzt. Ausführlicher geht dies nur nach einer Anmeldung und der Nutzung der API beziehungsweise eines Kommandozeilenwerkzeugs mit entsprechenden Zugangsdaten und dem Anlegen von Konfigurationsdateien.

Das ist dem testwilligen Kollegen zunächst einfach zu kompliziert. Und mit Blick auf den Einsatz in der gesamten Redaktion gehen wir davon aus, dass wir wohl um eine sehr ausführliche Anleitung oder eben die Programmierung einer eigenen kleinen Anwendung auch bei der Google Cloud nicht drum herumkommen.

Wir stellen etwas ernüchtert fest, dass das Transkribieren von Interviews doch nicht so schnell und einfach umsetzbar ist, wie wir uns das anfangs gedacht haben. Zumindest führt bei den drei großen Cloud-Diensten wohl kein Weg an der Entwicklungsabteilung vorbei. Wir machen uns dennoch an die Auswertung, schauen uns nach Alternativen um und werden dabei überrascht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Speech-to-Text: Hoffnung für den Alltag 
  1. 1
  2. 2
  3.  


bitshift 20. Nov 2020

Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...

Bommeltussi 16. Sep 2020

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...

codinger 16. Sep 2020

Ich nehme an diese app konsumiert die im Artikel genannte API: Ich darf keine links...



Aktuell auf der Startseite von Golem.de
Bald exklusiv bei Disney+
Serien verschwinden aus Abos von Netflix und Prime Video

Acht Serienklassiker gibt es bald nur noch exklusiv bei Disney+ im Abo. Dazu gehören Futurama, Family Guy und 24.
Von Ingo Pakalski

Bald exklusiv bei Disney+: Serien verschwinden aus Abos von Netflix und Prime Video
Artikel
  1. Chorus im Test: Action im All plus galaktische Grafik
    Chorus im Test
    Action im All plus galaktische Grafik

    Schicke Grafik und ein sprechendes Raumschiff: Chorus von Deep Silver entpuppt sich beim Test als düsteres und spannendes Weltraumspiel.
    Von Peter Steinlechner

  2. Mobilfunkexperte: Afghanischer Ex-Minister hat nach Lieferando einen neuen Job
    Mobilfunkexperte
    Afghanischer Ex-Minister hat nach Lieferando einen neuen Job

    Der frühere afghanische Kommunikationsminister Syed Sadaat arbeitet nicht mehr bei Lieferando in Leipzig. Nun wird er Partner bei einem Maskenhersteller.

  3. Edge-Browser: Microsoft will Installation von Chrome verhindern
    Edge-Browser
    Microsoft will Installation von Chrome verhindern

    Microsoft intensiviert sein Vorgehen gegen andere Browser: Vor der Installation von Chrome wird Edge übertrieben gelobt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Saturn-Advent: Toshiba Canvio 6TB 88€ • KFA2 Geforce RTX 3070 OC 8GB 1.019€ • Netgear günstiger (u. a. 5-Port-Switch 16,89€) • Norton 360 Deluxe 2022 18,99€ • Gaming-Monitore zu Bestpreisen (u. a. Samsung G3 27" FHD 144Hz 219€) • Spiele günstiger (u. a. Hades PS5 15,99€) [Werbung]
    •  /