Speech-to-Text: Hoffnung für den Alltag

Wir hatten vor unseren Experimenten mit dem Gedanken gespielt, uns nach den Tests schlicht für das aus unserer Sicht qualitativ beste System zu entscheiden. Immerhin spielt die Preisgestaltung der Anbieter hier zumindest für unseren geringen Umfang an Aufnahmen und Transkriptionen im Monat keine besonders gewichtige Rolle. Und im Vergleich zu den Kosten einer Arbeitsstunde in der Redaktion ist die Cloud-Nutzung wesentlich günstiger.

Sowohl Google als auch AWS verlangen rund 1,40 US-Dollar pro transkribierter Stunde Audioaufnahmen. Bei Google lässt sich der Preis etwas senken, indem dem Unternehmen erlaubt wird, die eigenen Daten zu speichern und weiterzuverwenden. In Microsofts Azure kostet die Transkription pro Stunde 1 US-Dollar. Bei Anpassungen müssen wie bei den Konkurrenten rund 1,40 US-Dollar pro Stunde bezahlt werden.

Beste Ergebnisse in Englisch

Bei dem letztlich generierten Text unterscheiden sich die Ergebnisse der einzelnen Anbieter wie von uns erwartet nur in einigen Details. Dabei fällt die Transkription für English aber zumindest in unseren Tests wesentlich besser aus als für Deutsch. Bei Letzterem enttäuscht vor allem AWS mit Text, der kaum für uns verwendbar ist. Die Azure-Ausgabe unserer Tests ist dagegen brauchbar. Zwar müssten auch hier einige Details angepasst und Fehler behoben werden, als Arbeitsgrundlage ist sie aber durchaus hilfreich und für uns entsprechend die Cognitive Services von Azure wohl der beste Anbieter.

Von diesen Ergebnissen abgesehen zeigt sich, dass keiner der Dienste ohne weiteres durch sämtliche Kollegen genutzt werden könnte. Dafür sind die Zugangsvoraussetzungen und technischen Kenntnisse schlicht zu hoch - selbst in einer technikaffinen Redaktion wie unserer. Denn das von uns erhoffte Nutzungsprinzip aus Datei einfach hochladen und Auswertung kopieren bietet zumindest in der Praxis keiner der Anbieter.

Das Modell der Cloud-Anbieter ist eben kein Endkundengeschäft, sondern klassisches B2B. Das heißt für uns, dass wir dennoch zur einfachen Nutzung auf unsere Entwicklungsabteilung angewiesen sind, sofern wir einen der Cloud-Dienste zur Spracherkennung in unserem Team bereitstellen wollen. Idee und Konzept der Idee ist eben letztlich die Bereitstellung einer API, nicht aber einer Anwendung selbst.

Das muss auch anders gehen

Dem wollen wir uns aber trotzdem noch nicht ganz geschlagen geben und probieren einige der eher wilderen Ideen aus, die wir anfangs verworfen hatten, weil sie zu abwegig erschienen. Denn diese sind eigentlich nicht zum Transkribieren von Interviews oder Sprachaufnahmen gedacht, funktionieren aber ähnlich und könnten dafür genutzt werden. Dazu gehören zum Beispiel die automatisch erzeugten Untertitel auf Youtube.

Unsere Interview-Beispiele sind schnell in ein Format zum Hochladen umcodiert und die Untertitel lassen sich über das Kommandozeilenwerkzeug Youtube-dl herunterladen. Das Ergebnis ist überraschend gut. Neben den vielen Umwegen sind für unser Einsatzszenario eher hinderlich außerdem die Zeitstempel der Untertitel - auch wenn diese wohl schnell mit Hilfe regulärer Ausdrücke entfernt werden könnten.

Eine weitere Idee, die uns aus der Redaktion zugeworfen wird, ist es, einfach die Voicemail-Funktion von Microsoft Teams zu verwenden, uns also einfach selbst anzurufen und das Interview abzuspielen. Ganz ähnlich könnten die Diktierfunktionen von Microsofts Word im Cloud-Angebot oder Google Docs genutzt werden. Das Interview kann vor dem Mikrofon am Rechner abgespielt werden.

Das scheitert zwar nicht an irgendwelchen technischen Hürden, ist aber unserer Meinung nach wenig praktikabel. Zwar schwört einer der Kollegen schon länger auf eben diese Methode und ist von deren Qualität überzeugt, wie sich in den Gesprächen herausstellt. Wir verwerfen die Idee dennoch als nicht besonders gut umsetzbar.

Hoffnungsschimmer Microsoft

Die logische Konsequenz dieser Diktierfunktionen in den Office-Suiten ist eigentlich, direkt eine Transkription einzubauen, was genau unserem Anwendungsfall entspricht. Parallel zu unseren Experimenten hat Microsoft solch eine Funktion angekündigt. Diese steht für alle Microsoft-365-Abonnenten in Word bereit - bisher zwar nur für Englisch, später sollen aber weitere Sprache folgen. Die Technik, die dabei zum Einsatz kommt, sind die Cognitive Services, die Microsoft auch in Azure anbietet und uns durchaus brauchbare Ergebnisse geliefert hat.

Microsoft hat also zufällig während unserer Tests genau jenes Produkt angekündigt, was wir wegen seiner Einfachheit brauchen und eigentlich auch erwartet haben, dass es so ähnlich schon existiert. Immerhin haben dies unsere Experimente und die Rücksprache mit den Kollegen gezeigt, denn das ist die wohl einfachste Lösung zur Transkription und wir können vollständig auf das Programmieren verzichten - unser ursprüngliches Ziel. Bleibt zu hoffen, dass die Konkurrenz hier bald nachzieht. Zumindest Google sollte mit seiner G Suite theoretisch in der Lage dazu sein, Ähnliches zu bieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  1.  
  2. 1
  3. 2


bitshift 20. Nov 2020

Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...

Bommeltussi 16. Sep 2020

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...



Aktuell auf der Startseite von Golem.de
Western Australia
Eine radioaktive Kapsel - irgendwo im australischen Outback

Wie eine radioaktive Kapsel in Australien verlorengehen konnte, ob sie gefährlich ist, warum sie so schwierig zu finden war und wofür solche Kapseln gut sind.
Ein Bericht von Werner Pluta

Western Australia: Eine radioaktive Kapsel - irgendwo im australischen Outback
Artikel
  1. Streaming: Netflix zieht Maßnahmen gegen Konten-Sharing zurück
    Streaming
    Netflix zieht Maßnahmen gegen Konten-Sharing zurück

    Netflix wird vorerst wohl doch nichts unternehmen, wenn ein Netflix-Konto unerlaubterweise mit anderen geteilt wird.

  2. T.I.S.P.-zertifizierter Security Professional werden
     
    T.I.S.P.-zertifizierter Security Professional werden

    Das Zertifikat TeleTrusT Information Security Professional (T.I.S.P.) bescheinigt fundierte Kenntnisse auf dem Gebiet der IT-Sicherheit. Ein fünftägiger Online-Workshop der Golem Karrierewelt bereitet auf die Prüfung vor.
    Sponsored Post von Golem Karrierewelt

  3. Microsoft: Bei Xbox Series X/S kommen Preiserhöhungen
    Microsoft
    Bei Xbox Series X/S kommen Preiserhöhungen

    Die Playstation 5 ist schon teurer geworden, nun erhöht Microsoft den Preis der Xbox Series X/S in Japan - andere Regionen könnten folgen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Bis 77% Rabatt auf Fernseher bei Otto • Roccat Kone Pro -56% • Xbox Series S + Dead Space 299,99€ • PCGH Cyber Week • MindStar: ASRock RX 7900 XT 949€ • AMD CPU kaufen, SW Jedi Survivor gratis dazu • Philips LED TV 65" 120 Hz Ambilight 999€ • KF DDR4-3600 32GB 91,89€ [Werbung]
    •  /