Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller

Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.

Artikel von veröffentlicht am
Was hat es mit der Superman-Ziege auf sich?
Was hat es mit der Superman-Ziege auf sich? (Bild: Oliver Nickel/Golem.de)

Microsoft hat es sich in Redmond nahe der US-amerikanischen Stadt Seattle gemütlich gemacht: Ein moderner Campus aus etwa 125 Häusern hat Platz für 40.000 Mitarbeiter, einige der Gebäude werden gerade renoviert oder neu gebaut. Das Gelände ist so groß, dass es einen Shuttle-Service zwischen den Standorten gibt. Innen sieht es aufgeräumt und modern aus. In einer Art Zen-Garten können Mitarbeiter Meetings in Baumhäusern abhalten oder sich während der Pause im eigenen Burgerrestaurant sattessen. Und dann gibt es da einen Raum, in dem einige der Ideen für Bühnenpräsentationen entstehen und der irgendwie nicht zum restlichen Bild des Campus passt.

Stellenmarkt
  1. Java Backend Engineering (f/m/d)
    Skribble Deutschland GmbH, Karlsruhe, Zürich (Schweiz)
  2. Projektmanager / Lead Product Owner ERP (m/w/d)
    über Hays AG, Landshut
Detailsuche

Mitten in einem Labyrinth aus weißen Fluren befindet sich der richtige Nerd-Keller ohne Fenster, in dem Entwickler Projekte konzipieren und besprechen können. "Ihr seht den Raum in seinem ganzen Nach-der-Messe-Glanz", sagt der Führer bei einer Journalistentour. Dort stehen nicht angeschlossene Monitore neben Werkzeugschachteln, Kabel hängen aus der Zwischendecke heraus und führen in einen offenen Netzwerkschrank, dessen Patchkabel kreuz und quer gesteckt sind. Auch einen 3D-Drucker haben die Microsoft-Mitarbeiter in ihrem Raum zur Verfügung. Was es mit der Modellziege im Superman-Kostüm darunter auf sich halt, bleibt wohl erst einmal geheim. "Das ist eine lange und langweilige Geschichte", wird der Besuchergruppe gesagt.

In der Mitte dieses Chaos wurde eine kleine, schlecht beleuchtete Bühne aufgebaut. Der Hintergrund ist allerdings keine teure LCD-Leinwand wie auf der Entwicklerkonferenz Build 2019, sondern Pressspanplatte und Wellblech - und erinnert daher etwas an eine Gartenlaube. Der freie Platz bietet Teams bei Microsoft die Möglichkeit, sich Szenarien auszudenken, die auf der Bühne gezeigt werden sollen. Ein Beispiel ist die Präsentation des Conversation Transcription Services für Azure Speech Service: Auf der Eröffnungsansprache konnte Microsoft eine Art Rap-Battle mit Tech-Sprache vorführen und den Fortschritt der Speech-to-Text-Erkennung zeigen. Die Dialoge wurden zuvor im Keller geprobt, während das Unternehmen laut eigenen Aussagen Wert darauf legt, die Technik an sich nicht in irgendeiner Weise zu verfälschen.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)

Das System basiert auf einem Array aus mehreren Mikrofonen, die vorerst in einem kegelförmigen Gerät installiert wurden, funktioniert aber auch mit weniger spezieller Hardware. Während der kürzlichen Präsentation haben die Entwickler dafür ein Surface Pro benutzt. "Je mehr Mikrofone, desto besser", sagt der Tourführer. Die Software kann zwischen verschiedenen Sprechern unterscheiden, Fachbegriffe in Zusammenhängen erkennen und diese von ähnlich klingenden Wörtern auseinanderhalten - etwa das medizintechnische Wort FHIR und das englische Wort Fire. Um das zu erreichen, wird ein Machine-Learning-Modell mit möglichst vielen Textdaten trainiert. In einem Krankenhaus können das E-Mails zwischen Medizinern und Chatverläufe sein. Auf dieser Basis ordnet die Software Fachbegriffe bestimmten Kontexten zu und wendet das Gelernte auf das Transkribieren von Sprache in Text an. Das klappt auf der Bühne auch ganz gut.

Ehrlich hinter der Bühne

Golem Akademie
  1. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    24.–25. Januar 2022, virtuell
  2. Einführung in Unity: virtueller Ein-Tages-Workshop
    17. Februar 2022, Virtuell
Weitere IT-Trainings

"Das System hat natürlich Probleme, wenn ein Fachbegriff nur wenige Male verwendet wird. Je mehr Daten, desto genauer ist die Software", sagt James Olson. An einem kleinen Konferenztisch in der Ecke des Raumes sitzen zwei weitere Entwickler des Projekts: Heiko Rahmel und Yusaf Sajid. Sie zeigen das Programm in einer erneuten Präsentation. Diesmal läuft es ohne Skript ab und Besucher sehen den Azure Speech Service in einer dem Alltag nahen Situation. Dabei stellen sich die Entwickler noch einmal kurz vor - jeder mit eigenem Akzent und Sprechgeschwindigkeit.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)

Und siehe da: Satzzeichen werden falsch oder gar nicht gesetzt und Füllwörter wie "Ähm" oder "Uhm" verfälschen das Ergebnis. Auch mehrere Personen werden nicht immer richtig erkannt. Das ist den Entwicklern bewusst und sie sprechen ehrlich darüber, wenn sie nicht vor Tausenden Fachbesuchern stehen. Olsons Team wird weiter am Azure Speech Service arbeiten. Möglicherweise sehen wir im nächsten Jahr eine bessere Version, die auf Smartphones oder anderen Geräten läuft.

Offenlegung: Golem.de hat auf Einladung von Microsoft an der Entwicklerkonferenz Build 2019 teilgenommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Sam Zeloof
Student baut Chip mit 1.200 Transistoren

In seiner Garage hat Sam Zeloof den Z2 fertiggestellt und merkt scherzhaft an, Moore's Law schneller umgesetzt zu haben als Intel selbst.

Sam Zeloof: Student baut Chip mit 1.200 Transistoren
Artikel
  1. Elektrotransporter: Volkswagen zeigt künftigen ID. Buzz
    Elektrotransporter
    Volkswagen zeigt künftigen ID. Buzz

    Volkswagens Elektrobus ID.Buzz wird im März 2022 vorgestellt, doch einen ersten Blick gewährt VW schon jetzt.

  2. Corona-Pandemie: Baden-Württemberg hört Kritiker zur Luca-App an
    Corona-Pandemie
    Baden-Württemberg hört Kritiker zur Luca-App an

    Bevor Baden-Württemberg entscheidet, ob die Luca-App im Vorgehen gegen Corona weiter eingesetzt wird, kommen Kritiker und Betreiber zu Wort.

  3. Softwarefehler: iPhone 13 mit rosa eingefärbten Displays
    Softwarefehler
    iPhone 13 mit rosa eingefärbten Displays

    Einige Besitzer des Apple iPhone 13 berichten von einem rosafarbenen Bildschirm. Apple spricht von einem Softwarefehler, der behoben werde.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Intel i9 3,7-5,3 Ghz 441,41€ • MindStar (u.a. Intel i7 3,8-5,1 Ghz 279€) • Corsair Vengeance RGB RT 16-GB-Kit DDR4-4000 114,90€ • Alternate (u.a. DeepCool AS500 Plus 61,89€) • Acer XV282K UHD/144 Hz 724,61€ [Werbung]
    •  /