• IT-Karriere:
  • Services:

Speech-to-Text: Hoffnung für den Alltag

Wir hatten vor unseren Experimenten mit dem Gedanken gespielt, uns nach den Tests schlicht für das aus unserer Sicht qualitativ beste System zu entscheiden. Immerhin spielt die Preisgestaltung der Anbieter hier zumindest für unseren geringen Umfang an Aufnahmen und Transkriptionen im Monat keine besonders gewichtige Rolle. Und im Vergleich zu den Kosten einer Arbeitsstunde in der Redaktion ist die Cloud-Nutzung wesentlich günstiger.

Stellenmarkt
  1. Bruno Bader GmbH + Co.KG, Pforzheim
  2. Hottgenroth Software GmbH & Co. KG, Köln

Sowohl Google als auch AWS verlangen rund 1,40 US-Dollar pro transkribierter Stunde Audioaufnahmen. Bei Google lässt sich der Preis etwas senken, indem dem Unternehmen erlaubt wird, die eigenen Daten zu speichern und weiterzuverwenden. In Microsofts Azure kostet die Transkription pro Stunde 1 US-Dollar. Bei Anpassungen müssen wie bei den Konkurrenten rund 1,40 US-Dollar pro Stunde bezahlt werden.

Beste Ergebnisse in Englisch

Bei dem letztlich generierten Text unterscheiden sich die Ergebnisse der einzelnen Anbieter wie von uns erwartet nur in einigen Details. Dabei fällt die Transkription für English aber zumindest in unseren Tests wesentlich besser aus als für Deutsch. Bei Letzterem enttäuscht vor allem AWS mit Text, der kaum für uns verwendbar ist. Die Azure-Ausgabe unserer Tests ist dagegen brauchbar. Zwar müssten auch hier einige Details angepasst und Fehler behoben werden, als Arbeitsgrundlage ist sie aber durchaus hilfreich und für uns entsprechend die Cognitive Services von Azure wohl der beste Anbieter.

Von diesen Ergebnissen abgesehen zeigt sich, dass keiner der Dienste ohne weiteres durch sämtliche Kollegen genutzt werden könnte. Dafür sind die Zugangsvoraussetzungen und technischen Kenntnisse schlicht zu hoch - selbst in einer technikaffinen Redaktion wie unserer. Denn das von uns erhoffte Nutzungsprinzip aus Datei einfach hochladen und Auswertung kopieren bietet zumindest in der Praxis keiner der Anbieter.

Golem Akademie
  1. Terraform mit AWS
    14./15. September 2021, online
  2. OpenShift Installation & Administration
    14.-16. Juni 2021, online
Weitere IT-Trainings

Das Modell der Cloud-Anbieter ist eben kein Endkundengeschäft, sondern klassisches B2B. Das heißt für uns, dass wir dennoch zur einfachen Nutzung auf unsere Entwicklungsabteilung angewiesen sind, sofern wir einen der Cloud-Dienste zur Spracherkennung in unserem Team bereitstellen wollen. Idee und Konzept der Idee ist eben letztlich die Bereitstellung einer API, nicht aber einer Anwendung selbst.

Das muss auch anders gehen

Dem wollen wir uns aber trotzdem noch nicht ganz geschlagen geben und probieren einige der eher wilderen Ideen aus, die wir anfangs verworfen hatten, weil sie zu abwegig erschienen. Denn diese sind eigentlich nicht zum Transkribieren von Interviews oder Sprachaufnahmen gedacht, funktionieren aber ähnlich und könnten dafür genutzt werden. Dazu gehören zum Beispiel die automatisch erzeugten Untertitel auf Youtube.

Unsere Interview-Beispiele sind schnell in ein Format zum Hochladen umcodiert und die Untertitel lassen sich über das Kommandozeilenwerkzeug Youtube-dl herunterladen. Das Ergebnis ist überraschend gut. Neben den vielen Umwegen sind für unser Einsatzszenario eher hinderlich außerdem die Zeitstempel der Untertitel - auch wenn diese wohl schnell mit Hilfe regulärer Ausdrücke entfernt werden könnten.

Eine weitere Idee, die uns aus der Redaktion zugeworfen wird, ist es, einfach die Voicemail-Funktion von Microsoft Teams zu verwenden, uns also einfach selbst anzurufen und das Interview abzuspielen. Ganz ähnlich könnten die Diktierfunktionen von Microsofts Word im Cloud-Angebot oder Google Docs genutzt werden. Das Interview kann vor dem Mikrofon am Rechner abgespielt werden.

Das scheitert zwar nicht an irgendwelchen technischen Hürden, ist aber unserer Meinung nach wenig praktikabel. Zwar schwört einer der Kollegen schon länger auf eben diese Methode und ist von deren Qualität überzeugt, wie sich in den Gesprächen herausstellt. Wir verwerfen die Idee dennoch als nicht besonders gut umsetzbar.

Hoffnungsschimmer Microsoft

Die logische Konsequenz dieser Diktierfunktionen in den Office-Suiten ist eigentlich, direkt eine Transkription einzubauen, was genau unserem Anwendungsfall entspricht. Parallel zu unseren Experimenten hat Microsoft solch eine Funktion angekündigt. Diese steht für alle Microsoft-365-Abonnenten in Word bereit - bisher zwar nur für Englisch, später sollen aber weitere Sprache folgen. Die Technik, die dabei zum Einsatz kommt, sind die Cognitive Services, die Microsoft auch in Azure anbietet und uns durchaus brauchbare Ergebnisse geliefert hat.

Microsoft hat also zufällig während unserer Tests genau jenes Produkt angekündigt, was wir wegen seiner Einfachheit brauchen und eigentlich auch erwartet haben, dass es so ähnlich schon existiert. Immerhin haben dies unsere Experimente und die Rücksprache mit den Kollegen gezeigt, denn das ist die wohl einfachste Lösung zur Transkription und wir können vollständig auf das Programmieren verzichten - unser ursprüngliches Ziel. Bleibt zu hoffen, dass die Konkurrenz hier bald nachzieht. Zumindest Google sollte mit seiner G Suite theoretisch in der Lage dazu sein, Ähnliches zu bieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  1.  
  2. 1
  3. 2


Anzeige
Top-Angebote
  1. (u. a. Alita - Battle Angel + 3D für 21,99€, Le Mans 66: Gegen jede Chance für 19,99€, Der...
  2. 689€ (Bestpreis)
  3. (u. a. WD Elements 10TB für 169€ (inkl. Direktabzug), Toshiba Canvio 4TB für 79€, Roccat Elo...
  4. (u. a. Darksiders 3 für 11,99€, Dirt Rally 2.0 für 4,50€, We Happy Few für 7,99€)

bitshift 20. Nov 2020

Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...

Bommeltussi 16. Sep 2020

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...

codinger 16. Sep 2020

Ich nehme an diese app konsumiert die im Artikel genannte API: Ich darf keine links...


Folgen Sie uns
       


Honda E Probe gefahren

Der Honda E ist ein Elektro-Kleinwagen, dessen Design an alte Honda-Modelle aus den 1970er Jahren erinnert.

Honda E Probe gefahren Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /