Abo
  • IT-Karriere:

Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller

Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.

Artikel von veröffentlicht am
Was hat es mit der Superman-Ziege auf sich?
Was hat es mit der Superman-Ziege auf sich? (Bild: Oliver Nickel/Golem.de)

Microsoft hat es sich in Redmond nahe der US-amerikanischen Stadt Seattle gemütlich gemacht: Ein moderner Campus aus etwa 125 Häusern hat Platz für 40.000 Mitarbeiter, einige der Gebäude werden gerade renoviert oder neu gebaut. Das Gelände ist so groß, dass es einen Shuttle-Service zwischen den Standorten gibt. Innen sieht es aufgeräumt und modern aus. In einer Art Zen-Garten können Mitarbeiter Meetings in Baumhäusern abhalten oder sich während der Pause im eigenen Burgerrestaurant sattessen. Und dann gibt es da einen Raum, in dem einige der Ideen für Bühnenpräsentationen entstehen und der irgendwie nicht zum restlichen Bild des Campus passt.

Stellenmarkt
  1. WERTGARANTIE Group, Hannover
  2. Hasso-Plattner-Institut für Digital Engineering gGmbH, Potsdam

Mitten in einem Labyrinth aus weißen Fluren befindet sich der richtige Nerd-Keller ohne Fenster, in dem Entwickler Projekte konzipieren und besprechen können. "Ihr seht den Raum in seinem ganzen Nach-der-Messe-Glanz", sagt der Führer bei einer Journalistentour. Dort stehen nicht angeschlossene Monitore neben Werkzeugschachteln, Kabel hängen aus der Zwischendecke heraus und führen in einen offenen Netzwerkschrank, dessen Patchkabel kreuz und quer gesteckt sind. Auch einen 3D-Drucker haben die Microsoft-Mitarbeiter in ihrem Raum zur Verfügung. Was es mit der Modellziege im Superman-Kostüm darunter auf sich halt, bleibt wohl erst einmal geheim. "Das ist eine lange und langweilige Geschichte", wird der Besuchergruppe gesagt.

In der Mitte dieses Chaos wurde eine kleine, schlecht beleuchtete Bühne aufgebaut. Der Hintergrund ist allerdings keine teure LCD-Leinwand wie auf der Entwicklerkonferenz Build 2019, sondern Pressspanplatte und Wellblech - und erinnert daher etwas an eine Gartenlaube. Der freie Platz bietet Teams bei Microsoft die Möglichkeit, sich Szenarien auszudenken, die auf der Bühne gezeigt werden sollen. Ein Beispiel ist die Präsentation des Conversation Transcription Services für Azure Speech Service: Auf der Eröffnungsansprache konnte Microsoft eine Art Rap-Battle mit Tech-Sprache vorführen und den Fortschritt der Speech-to-Text-Erkennung zeigen. Die Dialoge wurden zuvor im Keller geprobt, während das Unternehmen laut eigenen Aussagen Wert darauf legt, die Technik an sich nicht in irgendeiner Weise zu verfälschen.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)

Das System basiert auf einem Array aus mehreren Mikrofonen, die vorerst in einem kegelförmigen Gerät installiert wurden, funktioniert aber auch mit weniger spezieller Hardware. Während der kürzlichen Präsentation haben die Entwickler dafür ein Surface Pro benutzt. "Je mehr Mikrofone, desto besser", sagt der Tourführer. Die Software kann zwischen verschiedenen Sprechern unterscheiden, Fachbegriffe in Zusammenhängen erkennen und diese von ähnlich klingenden Wörtern auseinanderhalten - etwa das medizintechnische Wort FHIR und das englische Wort Fire. Um das zu erreichen, wird ein Machine-Learning-Modell mit möglichst vielen Textdaten trainiert. In einem Krankenhaus können das E-Mails zwischen Medizinern und Chatverläufe sein. Auf dieser Basis ordnet die Software Fachbegriffe bestimmten Kontexten zu und wendet das Gelernte auf das Transkribieren von Sprache in Text an. Das klappt auf der Bühne auch ganz gut.

Ehrlich hinter der Bühne

"Das System hat natürlich Probleme, wenn ein Fachbegriff nur wenige Male verwendet wird. Je mehr Daten, desto genauer ist die Software", sagt James Olson. An einem kleinen Konferenztisch in der Ecke des Raumes sitzen zwei weitere Entwickler des Projekts: Heiko Rahmel und Yusaf Sajid. Sie zeigen das Programm in einer erneuten Präsentation. Diesmal läuft es ohne Skript ab und Besucher sehen den Azure Speech Service in einer dem Alltag nahen Situation. Dabei stellen sich die Entwickler noch einmal kurz vor - jeder mit eigenem Akzent und Sprechgeschwindigkeit.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)

Und siehe da: Satzzeichen werden falsch oder gar nicht gesetzt und Füllwörter wie "Ähm" oder "Uhm" verfälschen das Ergebnis. Auch mehrere Personen werden nicht immer richtig erkannt. Das ist den Entwicklern bewusst und sie sprechen ehrlich darüber, wenn sie nicht vor Tausenden Fachbesuchern stehen. Olsons Team wird weiter am Azure Speech Service arbeiten. Möglicherweise sehen wir im nächsten Jahr eine bessere Version, die auf Smartphones oder anderen Geräten läuft.

Offenlegung: Golem.de hat auf Einladung von Microsoft an der Entwicklerkonferenz Build 2019 teilgenommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.



Anzeige
Top-Angebote
  1. mit Rabatt auf Monitore, SSDs, Gehäuse und mehr
  2. (u. a. The Legend of Zelda, Super Smash Bros. Ultimate)
  3. 9,90€ (Release am 22. Juli)
  4. 9,99€ (Release am 24. Juni)

devman 14. Mai 2019 / Themenstart

Also ich habe 3 Jahre in einem schwäbischen Konzern gearbeitet und auch im Keller...

Potrimpo 10. Mai 2019 / Themenstart

Artikel nicht gelesen, aber ablästern, weil man das böse Wort Microsoft gelesen hat.

Kommentieren


Folgen Sie uns
       


Probefahrt mit dem e.Go Life

Der e.Go Life ist ein elektrisch angetriebener Kleinwagen des neuen Aachener Automobilherstellers e.Go Mobile. Wir haben eine Probefahrt gemacht.

Probefahrt mit dem e.Go Life Video aufrufen
Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller
Azure Speech Service
Microsofts Demos entstehen im fensterlosen Nerd-Keller

Build 2019 Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.
Von Oliver Nickel

  1. Beta Writer Algorithmus schreibt wissenschaftliches Buch
  2. Google Neuer KI-Rat soll Googles ethische Richtlinien umsetzen
  3. Affectiva KI erkennt die Gefühle von Autofahrern

Das andere How-to: Deutsch lernen für Programmierer
Das andere How-to
Deutsch lernen für Programmierer

Programmierer schlagen sich ständig mit der Syntax und Semantik von Programmiersprachen herum. Der US-Amerikaner Mike Stipicevic hat aus der Not eine Tugend gemacht und nutzt sein Wissen über obskure Grammatiken, um Deutsch zu lernen.
Von Mike Stipicevic

  1. Programmiersprachen, Pakete, IDEs So steigen Entwickler in Machine Learning ein
  2. Software-Entwickler Welche Programmiersprache soll ich lernen?

Mordhau angespielt: Die mit dem Schwertknauf zuschlagen
Mordhau angespielt
Die mit dem Schwertknauf zuschlagen

Ein herausfordernd-komplexes Kampfsystem, trotzdem schnelle Action mit Anleihen bei Chivalry und For Honor: Das vom Entwicklerstudio Triternion produzierte Mordhau schickt Spieler in mittelalterlich anmutende Multiplayergefechte mit klirrenden Schwertern und hohem Spaßfaktor.
Von Peter Steinlechner

  1. Bus Simulator angespielt Zwischen Bodenschwelle und Haltestelle
  2. Bright Memory angespielt Brachialer PC-Shooter aus China

    •  /