Abo
  • IT-Karriere:

Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller

Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.

Artikel von veröffentlicht am
Was hat es mit der Superman-Ziege auf sich?
Was hat es mit der Superman-Ziege auf sich? (Bild: Oliver Nickel/Golem.de)

Microsoft hat es sich in Redmond nahe der US-amerikanischen Stadt Seattle gemütlich gemacht: Ein moderner Campus aus etwa 125 Häusern hat Platz für 40.000 Mitarbeiter, einige der Gebäude werden gerade renoviert oder neu gebaut. Das Gelände ist so groß, dass es einen Shuttle-Service zwischen den Standorten gibt. Innen sieht es aufgeräumt und modern aus. In einer Art Zen-Garten können Mitarbeiter Meetings in Baumhäusern abhalten oder sich während der Pause im eigenen Burgerrestaurant sattessen. Und dann gibt es da einen Raum, in dem einige der Ideen für Bühnenpräsentationen entstehen und der irgendwie nicht zum restlichen Bild des Campus passt.

Stellenmarkt
  1. INIT Group, Karlsruhe
  2. Deloitte, Düsseldorf, München

Mitten in einem Labyrinth aus weißen Fluren befindet sich der richtige Nerd-Keller ohne Fenster, in dem Entwickler Projekte konzipieren und besprechen können. "Ihr seht den Raum in seinem ganzen Nach-der-Messe-Glanz", sagt der Führer bei einer Journalistentour. Dort stehen nicht angeschlossene Monitore neben Werkzeugschachteln, Kabel hängen aus der Zwischendecke heraus und führen in einen offenen Netzwerkschrank, dessen Patchkabel kreuz und quer gesteckt sind. Auch einen 3D-Drucker haben die Microsoft-Mitarbeiter in ihrem Raum zur Verfügung. Was es mit der Modellziege im Superman-Kostüm darunter auf sich halt, bleibt wohl erst einmal geheim. "Das ist eine lange und langweilige Geschichte", wird der Besuchergruppe gesagt.

In der Mitte dieses Chaos wurde eine kleine, schlecht beleuchtete Bühne aufgebaut. Der Hintergrund ist allerdings keine teure LCD-Leinwand wie auf der Entwicklerkonferenz Build 2019, sondern Pressspanplatte und Wellblech - und erinnert daher etwas an eine Gartenlaube. Der freie Platz bietet Teams bei Microsoft die Möglichkeit, sich Szenarien auszudenken, die auf der Bühne gezeigt werden sollen. Ein Beispiel ist die Präsentation des Conversation Transcription Services für Azure Speech Service: Auf der Eröffnungsansprache konnte Microsoft eine Art Rap-Battle mit Tech-Sprache vorführen und den Fortschritt der Speech-to-Text-Erkennung zeigen. Die Dialoge wurden zuvor im Keller geprobt, während das Unternehmen laut eigenen Aussagen Wert darauf legt, die Technik an sich nicht in irgendeiner Weise zu verfälschen.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)

Das System basiert auf einem Array aus mehreren Mikrofonen, die vorerst in einem kegelförmigen Gerät installiert wurden, funktioniert aber auch mit weniger spezieller Hardware. Während der kürzlichen Präsentation haben die Entwickler dafür ein Surface Pro benutzt. "Je mehr Mikrofone, desto besser", sagt der Tourführer. Die Software kann zwischen verschiedenen Sprechern unterscheiden, Fachbegriffe in Zusammenhängen erkennen und diese von ähnlich klingenden Wörtern auseinanderhalten - etwa das medizintechnische Wort FHIR und das englische Wort Fire. Um das zu erreichen, wird ein Machine-Learning-Modell mit möglichst vielen Textdaten trainiert. In einem Krankenhaus können das E-Mails zwischen Medizinern und Chatverläufe sein. Auf dieser Basis ordnet die Software Fachbegriffe bestimmten Kontexten zu und wendet das Gelernte auf das Transkribieren von Sprache in Text an. Das klappt auf der Bühne auch ganz gut.

Ehrlich hinter der Bühne

"Das System hat natürlich Probleme, wenn ein Fachbegriff nur wenige Male verwendet wird. Je mehr Daten, desto genauer ist die Software", sagt James Olson. An einem kleinen Konferenztisch in der Ecke des Raumes sitzen zwei weitere Entwickler des Projekts: Heiko Rahmel und Yusaf Sajid. Sie zeigen das Programm in einer erneuten Präsentation. Diesmal läuft es ohne Skript ab und Besucher sehen den Azure Speech Service in einer dem Alltag nahen Situation. Dabei stellen sich die Entwickler noch einmal kurz vor - jeder mit eigenem Akzent und Sprechgeschwindigkeit.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)

Und siehe da: Satzzeichen werden falsch oder gar nicht gesetzt und Füllwörter wie "Ähm" oder "Uhm" verfälschen das Ergebnis. Auch mehrere Personen werden nicht immer richtig erkannt. Das ist den Entwicklern bewusst und sie sprechen ehrlich darüber, wenn sie nicht vor Tausenden Fachbesuchern stehen. Olsons Team wird weiter am Azure Speech Service arbeiten. Möglicherweise sehen wir im nächsten Jahr eine bessere Version, die auf Smartphones oder anderen Geräten läuft.

Offenlegung: Golem.de hat auf Einladung von Microsoft an der Entwicklerkonferenz Build 2019 teilgenommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.



Anzeige
Hardware-Angebote
  1. 114,99€ (Release am 5. Dezember)
  2. 274,00€
  3. 259€ + Versand oder kostenlose Marktabholung

Insomnia88 20. Mai 2019

Jetzt weißt du Bescheid, dass du hättest klagen können

Potrimpo 10. Mai 2019

Artikel nicht gelesen, aber ablästern, weil man das böse Wort Microsoft gelesen hat.


Folgen Sie uns
       


Honor 20 Pro - Hands on

Das Honor 20 Pro ist das neue Oberklasse-Smartphone der Huawei-Tochter. Als Besonderheit gibt es eine Vierfachkamera, um für möglichst viele Objektivsituationen gewappnet zu sein. Hinweis vom Hersteller: "Bei den gezeigten Geräten der Honor-20-Serie handelt es sich um Demoversionen, die sich in Aussehen und Funktion von der finalen Version unterscheiden können."

Honor 20 Pro - Hands on Video aufrufen
Kickstarter: Scheitern in aller Öffentlichkeit
Kickstarter
Scheitern in aller Öffentlichkeit

Kickstarter ermöglicht es kleinen Indie-Teams, die Entwicklung ihres Spiels zu finanzieren. Doch Geld allein ist nicht genug, um alle Probleme der Spieleentwicklung zu lösen. Und was, wenn das Geld ausgeht?
Ein Bericht von Daniel Ziegener

  1. Killerwhale Games Verdacht auf Betrug beim Kickstarter-Erfolgsspiel Raw
  2. The Farm 51 Chernobylite braucht Geld für akkurates Atomkraftwerk
  3. E-Pad Neues Android-Tablet mit E-Paper-Display und Stift

Erasure Coding: Das Ende von Raid kommt durch Mathematik
Erasure Coding
Das Ende von Raid kommt durch Mathematik

In vielen Anwendungsszenarien sind Raid-Systeme mittlerweile nicht mehr die optimale Lösung. Zu langsam und starr sind sie. Abhilfe schaffen können mathematische Verfahren wie Erasure Coding. Noch existieren für beide Techniken Anwendungsgebiete. Am Ende wird Raid aber wohl verschwinden.
Eine Analyse von Oliver Nickel

  1. Agentur für Cybersicherheit Cyberwaffen-Entwicklung zieht in den Osten Deutschlands
  2. Yahoo Richterin lässt Vergleich zu Datenleck platzen

LEDs: Schlimmes Flimmern
LEDs
Schlimmes Flimmern

LED-Licht zu Hause oder im Auto leuchtet nur selten völlig konstant. Je nach Frequenz und Intensität kann das Flimmern der Leuchtmittel problematisch sein, für manche Menschen sogar gesundheitsschädlich.
Von Wolfgang Messer

  1. Wissenschaft Schadet LED-Licht unseren Augen?
  2. Straßenbeleuchtung Detroit kämpft mit LED-Ausfällen und der Hersteller schweigt
  3. ULED Ubiquitis Netzwerkleuchten bieten Wechselstromversorgung

    •  /