Speech-to-Text: Hoffnung für den Alltag
Wir hatten vor unseren Experimenten mit dem Gedanken gespielt, uns nach den Tests schlicht für das aus unserer Sicht qualitativ beste System zu entscheiden. Immerhin spielt die Preisgestaltung der Anbieter hier zumindest für unseren geringen Umfang an Aufnahmen und Transkriptionen im Monat keine besonders gewichtige Rolle. Und im Vergleich zu den Kosten einer Arbeitsstunde in der Redaktion ist die Cloud-Nutzung wesentlich günstiger.
Sowohl Google als auch AWS verlangen rund 1,40 US-Dollar pro transkribierter Stunde Audioaufnahmen. Bei Google lässt sich der Preis etwas senken, indem dem Unternehmen erlaubt wird, die eigenen Daten zu speichern und weiterzuverwenden. In Microsofts Azure kostet die Transkription pro Stunde 1 US-Dollar. Bei Anpassungen müssen wie bei den Konkurrenten rund 1,40 US-Dollar pro Stunde bezahlt werden.
Beste Ergebnisse in Englisch
Bei dem letztlich generierten Text unterscheiden sich die Ergebnisse der einzelnen Anbieter wie von uns erwartet nur in einigen Details. Dabei fällt die Transkription für English aber zumindest in unseren Tests wesentlich besser aus als für Deutsch. Bei Letzterem enttäuscht vor allem AWS mit Text, der kaum für uns verwendbar ist. Die Azure-Ausgabe unserer Tests ist dagegen brauchbar. Zwar müssten auch hier einige Details angepasst und Fehler behoben werden, als Arbeitsgrundlage ist sie aber durchaus hilfreich und für uns entsprechend die Cognitive Services von Azure wohl der beste Anbieter.
Von diesen Ergebnissen abgesehen zeigt sich, dass keiner der Dienste ohne weiteres durch sämtliche Kollegen genutzt werden könnte. Dafür sind die Zugangsvoraussetzungen und technischen Kenntnisse schlicht zu hoch - selbst in einer technikaffinen Redaktion wie unserer. Denn das von uns erhoffte Nutzungsprinzip aus Datei einfach hochladen und Auswertung kopieren bietet zumindest in der Praxis keiner der Anbieter.
Das Modell der Cloud-Anbieter ist eben kein Endkundengeschäft, sondern klassisches B2B. Das heißt für uns, dass wir dennoch zur einfachen Nutzung auf unsere Entwicklungsabteilung angewiesen sind, sofern wir einen der Cloud-Dienste zur Spracherkennung in unserem Team bereitstellen wollen. Idee und Konzept der Idee ist eben letztlich die Bereitstellung einer API, nicht aber einer Anwendung selbst.
Das muss auch anders gehen
Dem wollen wir uns aber trotzdem noch nicht ganz geschlagen geben und probieren einige der eher wilderen Ideen aus, die wir anfangs verworfen hatten, weil sie zu abwegig erschienen. Denn diese sind eigentlich nicht zum Transkribieren von Interviews oder Sprachaufnahmen gedacht, funktionieren aber ähnlich und könnten dafür genutzt werden. Dazu gehören zum Beispiel die automatisch erzeugten Untertitel auf Youtube.
Unsere Interview-Beispiele sind schnell in ein Format zum Hochladen umcodiert und die Untertitel lassen sich über das Kommandozeilenwerkzeug Youtube-dl herunterladen. Das Ergebnis ist überraschend gut. Neben den vielen Umwegen sind für unser Einsatzszenario eher hinderlich außerdem die Zeitstempel der Untertitel - auch wenn diese wohl schnell mit Hilfe regulärer Ausdrücke entfernt werden könnten.
Eine weitere Idee, die uns aus der Redaktion zugeworfen wird, ist es, einfach die Voicemail-Funktion von Microsoft Teams zu verwenden, uns also einfach selbst anzurufen und das Interview abzuspielen. Ganz ähnlich könnten die Diktierfunktionen von Microsofts Word im Cloud-Angebot oder Google Docs genutzt werden. Das Interview kann vor dem Mikrofon am Rechner abgespielt werden.
Das scheitert zwar nicht an irgendwelchen technischen Hürden, ist aber unserer Meinung nach wenig praktikabel. Zwar schwört einer der Kollegen schon länger auf eben diese Methode und ist von deren Qualität überzeugt, wie sich in den Gesprächen herausstellt. Wir verwerfen die Idee dennoch als nicht besonders gut umsetzbar.
Hoffnungsschimmer Microsoft
Die logische Konsequenz dieser Diktierfunktionen in den Office-Suiten ist eigentlich, direkt eine Transkription einzubauen, was genau unserem Anwendungsfall entspricht. Parallel zu unseren Experimenten hat Microsoft solch eine Funktion angekündigt. Diese steht für alle Microsoft-365-Abonnenten in Word bereit - bisher zwar nur für Englisch, später sollen aber weitere Sprache folgen. Die Technik, die dabei zum Einsatz kommt, sind die Cognitive Services, die Microsoft auch in Azure anbietet und uns durchaus brauchbare Ergebnisse geliefert hat.
Microsoft hat also zufällig während unserer Tests genau jenes Produkt angekündigt, was wir wegen seiner Einfachheit brauchen und eigentlich auch erwartet haben, dass es so ähnlich schon existiert. Immerhin haben dies unsere Experimente und die Rücksprache mit den Kollegen gezeigt, denn das ist die wohl einfachste Lösung zur Transkription und wir können vollständig auf das Programmieren verzichten - unser ursprüngliches Ziel. Bleibt zu hoffen, dass die Konkurrenz hier bald nachzieht. Zumindest Google sollte mit seiner G Suite theoretisch in der Lage dazu sein, Ähnliches zu bieten.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Speech to Text: Das bisschen Sprache kann so schwer nicht sein |
- 1
- 2
Das Thema / der UseCase ist wirklich gar nicht so selten (gerade auch während Studium...
Solange die Dinger keinen Dialekt verstehen ist das eh alles irgendwie nix. Zumindest in...
Google Docs hat eine Transcribe Funktion für alle Sprachen. Anstatt das Mikro für live...
natürlich gibt es diese Lösungen, aber ein Kriterium war ganz klar nicht coden zu müssen...