Speech-to-Text: Hoffnung für den Alltag

Wir hatten vor unseren Experimenten mit dem Gedanken gespielt, uns nach den Tests schlicht für das aus unserer Sicht qualitativ beste System zu entscheiden. Immerhin spielt die Preisgestaltung der Anbieter hier zumindest für unseren geringen Umfang an Aufnahmen und Transkriptionen im Monat keine besonders gewichtige Rolle. Und im Vergleich zu den Kosten einer Arbeitsstunde in der Redaktion ist die Cloud-Nutzung wesentlich günstiger.

Stellenmarkt
  1. Project Manager & Product Owner MES (m/w/d)
    Dr. August Oetker Nahrungsmittel KG, Bielefeld
  2. Data Engineer (d/m/w)
    NÜRNBERGER Versicherung, Nürnberg
Detailsuche

Sowohl Google als auch AWS verlangen rund 1,40 US-Dollar pro transkribierter Stunde Audioaufnahmen. Bei Google lässt sich der Preis etwas senken, indem dem Unternehmen erlaubt wird, die eigenen Daten zu speichern und weiterzuverwenden. In Microsofts Azure kostet die Transkription pro Stunde 1 US-Dollar. Bei Anpassungen müssen wie bei den Konkurrenten rund 1,40 US-Dollar pro Stunde bezahlt werden.

Beste Ergebnisse in Englisch

Bei dem letztlich generierten Text unterscheiden sich die Ergebnisse der einzelnen Anbieter wie von uns erwartet nur in einigen Details. Dabei fällt die Transkription für English aber zumindest in unseren Tests wesentlich besser aus als für Deutsch. Bei Letzterem enttäuscht vor allem AWS mit Text, der kaum für uns verwendbar ist. Die Azure-Ausgabe unserer Tests ist dagegen brauchbar. Zwar müssten auch hier einige Details angepasst und Fehler behoben werden, als Arbeitsgrundlage ist sie aber durchaus hilfreich und für uns entsprechend die Cognitive Services von Azure wohl der beste Anbieter.

Von diesen Ergebnissen abgesehen zeigt sich, dass keiner der Dienste ohne weiteres durch sämtliche Kollegen genutzt werden könnte. Dafür sind die Zugangsvoraussetzungen und technischen Kenntnisse schlicht zu hoch - selbst in einer technikaffinen Redaktion wie unserer. Denn das von uns erhoffte Nutzungsprinzip aus Datei einfach hochladen und Auswertung kopieren bietet zumindest in der Praxis keiner der Anbieter.

Golem Akademie
  1. AZ-104 Microsoft Azure Administrator: virtueller Vier-Tage-Workshop
    13.–16. Dezember 2021, virtuell
  2. Jira für Systemadministratoren: virtueller Zwei-Tage-Workshop
    9.–10. Dezember 2021, virtuell
Weitere IT-Trainings

Das Modell der Cloud-Anbieter ist eben kein Endkundengeschäft, sondern klassisches B2B. Das heißt für uns, dass wir dennoch zur einfachen Nutzung auf unsere Entwicklungsabteilung angewiesen sind, sofern wir einen der Cloud-Dienste zur Spracherkennung in unserem Team bereitstellen wollen. Idee und Konzept der Idee ist eben letztlich die Bereitstellung einer API, nicht aber einer Anwendung selbst.

Das muss auch anders gehen

Dem wollen wir uns aber trotzdem noch nicht ganz geschlagen geben und probieren einige der eher wilderen Ideen aus, die wir anfangs verworfen hatten, weil sie zu abwegig erschienen. Denn diese sind eigentlich nicht zum Transkribieren von Interviews oder Sprachaufnahmen gedacht, funktionieren aber ähnlich und könnten dafür genutzt werden. Dazu gehören zum Beispiel die automatisch erzeugten Untertitel auf Youtube.

Unsere Interview-Beispiele sind schnell in ein Format zum Hochladen umcodiert und die Untertitel lassen sich über das Kommandozeilenwerkzeug Youtube-dl herunterladen. Das Ergebnis ist überraschend gut. Neben den vielen Umwegen sind für unser Einsatzszenario eher hinderlich außerdem die Zeitstempel der Untertitel - auch wenn diese wohl schnell mit Hilfe regulärer Ausdrücke entfernt werden könnten.

Eine weitere Idee, die uns aus der Redaktion zugeworfen wird, ist es, einfach die Voicemail-Funktion von Microsoft Teams zu verwenden, uns also einfach selbst anzurufen und das Interview abzuspielen. Ganz ähnlich könnten die Diktierfunktionen von Microsofts Word im Cloud-Angebot oder Google Docs genutzt werden. Das Interview kann vor dem Mikrofon am Rechner abgespielt werden.

Das scheitert zwar nicht an irgendwelchen technischen Hürden, ist aber unserer Meinung nach wenig praktikabel. Zwar schwört einer der Kollegen schon länger auf eben diese Methode und ist von deren Qualität überzeugt, wie sich in den Gesprächen herausstellt. Wir verwerfen die Idee dennoch als nicht besonders gut umsetzbar.

Hoffnungsschimmer Microsoft

Die logische Konsequenz dieser Diktierfunktionen in den Office-Suiten ist eigentlich, direkt eine Transkription einzubauen, was genau unserem Anwendungsfall entspricht. Parallel zu unseren Experimenten hat Microsoft solch eine Funktion angekündigt. Diese steht für alle Microsoft-365-Abonnenten in Word bereit - bisher zwar nur für Englisch, später sollen aber weitere Sprache folgen. Die Technik, die dabei zum Einsatz kommt, sind die Cognitive Services, die Microsoft auch in Azure anbietet und uns durchaus brauchbare Ergebnisse geliefert hat.

Microsoft hat also zufällig während unserer Tests genau jenes Produkt angekündigt, was wir wegen seiner Einfachheit brauchen und eigentlich auch erwartet haben, dass es so ähnlich schon existiert. Immerhin haben dies unsere Experimente und die Rücksprache mit den Kollegen gezeigt, denn das ist die wohl einfachste Lösung zur Transkription und wir können vollständig auf das Programmieren verzichten - unser ursprüngliches Ziel. Bleibt zu hoffen, dass die Konkurrenz hier bald nachzieht. Zumindest Google sollte mit seiner G Suite theoretisch in der Lage dazu sein, Ähnliches zu bieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Speech to Text: Das bisschen Sprache kann so schwer nicht sein
  1.  
  2. 1
  3. 2


bitshift 20. Nov 2020

Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...

Bommeltussi 16. Sep 2020

Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...

underlines 16. Sep 2020

Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...

underlines 16. Sep 2020

natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...

codinger 16. Sep 2020

Ich nehme an diese app konsumiert die im Artikel genannte API: Ich darf keine links...



Aktuell auf der Startseite von Golem.de
Feldversuch E-Mobility-Chaussee
So schnell bringen E-Autos das Stromnetz ans Limit

Das Laden von Elektroautos stellt Netzbetreiber auf dem Land vor besondere Herausforderungen. Ein Pilotprojekt hat verschiedene Lösungen getestet.
Ein Bericht von Friedhelm Greis

Feldversuch E-Mobility-Chaussee: So schnell bringen E-Autos das Stromnetz ans Limit
Artikel
  1. Encrochat-Hack: Damit würde man keinen Geschwindigkeitsverstoß verurteilen
    Encrochat-Hack
    "Damit würde man keinen Geschwindigkeitsverstoß verurteilen"

    Der Anwalt Johannes Eisenberg hat sich die Daten aus dem Encrochat-Hack genauer angesehen und viel Merkwürdiges entdeckt.
    Ein Interview von Moritz Tremmel

  2. Geforce Now (RTX 3080) im Test: 1440p120 mit Raytracing aus der Cloud
    Geforce Now (RTX 3080) im Test
    1440p120 mit Raytracing aus der Cloud

    Höhere Auflösung, mehr Bilder pro Sekunde, kürzere Latenzen: Geforce Now mit virtueller Geforce RTX 3080 ist Cloud-Gaming par excellence.
    Ein Test von Marc Sauter

  3. SpaceX: Starlink testet Satelliteninternet in Flugzeugen
    SpaceX
    Starlink testet Satelliteninternet in Flugzeugen

    Bald dürften mehrere Flugesellschaften Starlink-Service anbieten. Laut einem Manager soll es so schnell wie möglich gehen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Gaming-Monitore zu Bestpreisen (u. a. Samsung G9 49" 32:9 Curved QLED 240Hz 1.149€) • Spiele günstiger: PC, PS5, Xbox, Switch • Zurück in die Zukunft Trilogie 4K 31,97€ • be quiet 750W-PC-Netzteil 87,90€ • Cambridge Audio Melomonia Touch 89,95€ • Gaming-Stühle zu Bestpreisen [Werbung]
    •  /