Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller

Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.

Artikel von veröffentlicht am
Was hat es mit der Superman-Ziege auf sich?
Was hat es mit der Superman-Ziege auf sich? (Bild: Oliver Nickel/Golem.de)

Microsoft hat es sich in Redmond nahe der US-amerikanischen Stadt Seattle gemütlich gemacht: Ein moderner Campus aus etwa 125 Häusern hat Platz für 40.000 Mitarbeiter, einige der Gebäude werden gerade renoviert oder neu gebaut. Das Gelände ist so groß, dass es einen Shuttle-Service zwischen den Standorten gibt. Innen sieht es aufgeräumt und modern aus. In einer Art Zen-Garten können Mitarbeiter Meetings in Baumhäusern abhalten oder sich während der Pause im eigenen Burgerrestaurant sattessen. Und dann gibt es da einen Raum, in dem einige der Ideen für Bühnenpräsentationen entstehen und der irgendwie nicht zum restlichen Bild des Campus passt.

Stellenmarkt
  1. Wissenschaftlicher Mitarbeiter (m/w/d) für den Bereich Künstliche Intelligenz in der zivilen Sicherheitsforschung
    Präsidium der Bayerischen Bereitschaftspolizei, Rosenheim
  2. Systems Engineer (m/w/d) - Microsoft SQL Server
    OEDIV KG, Bielefeld
Detailsuche

Mitten in einem Labyrinth aus weißen Fluren befindet sich der richtige Nerd-Keller ohne Fenster, in dem Entwickler Projekte konzipieren und besprechen können. "Ihr seht den Raum in seinem ganzen Nach-der-Messe-Glanz", sagt der Führer bei einer Journalistentour. Dort stehen nicht angeschlossene Monitore neben Werkzeugschachteln, Kabel hängen aus der Zwischendecke heraus und führen in einen offenen Netzwerkschrank, dessen Patchkabel kreuz und quer gesteckt sind. Auch einen 3D-Drucker haben die Microsoft-Mitarbeiter in ihrem Raum zur Verfügung. Was es mit der Modellziege im Superman-Kostüm darunter auf sich halt, bleibt wohl erst einmal geheim. "Das ist eine lange und langweilige Geschichte", wird der Besuchergruppe gesagt.

In der Mitte dieses Chaos wurde eine kleine, schlecht beleuchtete Bühne aufgebaut. Der Hintergrund ist allerdings keine teure LCD-Leinwand wie auf der Entwicklerkonferenz Build 2019, sondern Pressspanplatte und Wellblech - und erinnert daher etwas an eine Gartenlaube. Der freie Platz bietet Teams bei Microsoft die Möglichkeit, sich Szenarien auszudenken, die auf der Bühne gezeigt werden sollen. Ein Beispiel ist die Präsentation des Conversation Transcription Services für Azure Speech Service: Auf der Eröffnungsansprache konnte Microsoft eine Art Rap-Battle mit Tech-Sprache vorführen und den Fortschritt der Speech-to-Text-Erkennung zeigen. Die Dialoge wurden zuvor im Keller geprobt, während das Unternehmen laut eigenen Aussagen Wert darauf legt, die Technik an sich nicht in irgendeiner Weise zu verfälschen.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)

Das System basiert auf einem Array aus mehreren Mikrofonen, die vorerst in einem kegelförmigen Gerät installiert wurden, funktioniert aber auch mit weniger spezieller Hardware. Während der kürzlichen Präsentation haben die Entwickler dafür ein Surface Pro benutzt. "Je mehr Mikrofone, desto besser", sagt der Tourführer. Die Software kann zwischen verschiedenen Sprechern unterscheiden, Fachbegriffe in Zusammenhängen erkennen und diese von ähnlich klingenden Wörtern auseinanderhalten - etwa das medizintechnische Wort FHIR und das englische Wort Fire. Um das zu erreichen, wird ein Machine-Learning-Modell mit möglichst vielen Textdaten trainiert. In einem Krankenhaus können das E-Mails zwischen Medizinern und Chatverläufe sein. Auf dieser Basis ordnet die Software Fachbegriffe bestimmten Kontexten zu und wendet das Gelernte auf das Transkribieren von Sprache in Text an. Das klappt auf der Bühne auch ganz gut.

Ehrlich hinter der Bühne

Golem Akademie
  1. Microsoft 365 Security Workshop
    9.-11. Juni 2021, Online
  2. Terraform mit AWS
    14./15. September 2021, online
Weitere IT-Trainings

"Das System hat natürlich Probleme, wenn ein Fachbegriff nur wenige Male verwendet wird. Je mehr Daten, desto genauer ist die Software", sagt James Olson. An einem kleinen Konferenztisch in der Ecke des Raumes sitzen zwei weitere Entwickler des Projekts: Heiko Rahmel und Yusaf Sajid. Sie zeigen das Programm in einer erneuten Präsentation. Diesmal läuft es ohne Skript ab und Besucher sehen den Azure Speech Service in einer dem Alltag nahen Situation. Dabei stellen sich die Entwickler noch einmal kurz vor - jeder mit eigenem Akzent und Sprechgeschwindigkeit.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)

Und siehe da: Satzzeichen werden falsch oder gar nicht gesetzt und Füllwörter wie "Ähm" oder "Uhm" verfälschen das Ergebnis. Auch mehrere Personen werden nicht immer richtig erkannt. Das ist den Entwicklern bewusst und sie sprechen ehrlich darüber, wenn sie nicht vor Tausenden Fachbesuchern stehen. Olsons Team wird weiter am Azure Speech Service arbeiten. Möglicherweise sehen wir im nächsten Jahr eine bessere Version, die auf Smartphones oder anderen Geräten läuft.

Offenlegung: Golem.de hat auf Einladung von Microsoft an der Entwicklerkonferenz Build 2019 teilgenommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Netflix
Warum so viele Serien nur zwei Staffeln lang laufen

Die Superhelden-Serie Jupiter's Legacy war bei ihrem Start ein Erfolg bei Netflix. Jetzt wurde sie eingestellt. Wie entscheidet Netflix, ob eine Serie verlängert wird?
Von Peter Osteried

Netflix: Warum so viele Serien nur zwei Staffeln lang laufen
Artikel
  1. Livewire One: Erste Details zu Harleys neuem Elektromotorrad
    Livewire One
    Erste Details zu Harleys neuem Elektromotorrad

    Im Mai hat Harley-Davidson eine eigene Elektromarke vorgestellt. Deren erstes Elektromotorrad soll bald kommen.

  2. Model S Plaid: Teslas Knight Rider-Lenkrad könnte ergonomischer Krampf sein
    Model S Plaid
    Teslas Knight Rider-Lenkrad könnte ergonomischer Krampf sein

    Das D-förmige Lenkrad im neuen Tesla Model S sorgt für Kontroversen. Erste Fahrer haben es ausprobiert und sind nicht glücklich damit.

  3. Nach Aukey und Mpow: Amazon verbannt Hersteller Ravpower aus seinem Angebot
    Nach Aukey und Mpow
    Amazon verbannt Hersteller Ravpower aus seinem Angebot

    Amazon verbannt mit Ravpower einen weiteren chinesischen Hersteller von seinem Marktplatz. Grund scheint erneut Betrug mit Fake-Reviews zu sein.

Insomnia88 20. Mai 2019

Jetzt weißt du Bescheid, dass du hättest klagen können

Potrimpo 10. Mai 2019

Artikel nicht gelesen, aber ablästern, weil man das böse Wort Microsoft gelesen hat.


Folgen Sie uns
       


  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • PS5 bei o2 mit Mobilfunkvertrag bestellbar • Xbox Series X bei MM bestellbar 499,99€ • Breaking Deals bei MM (u. a. LG 75" Nanocell 8K 2.699€) • Corsair 32GB DDR4-3600 Kit 182,90€ • PCGH Gaming-PC i7 RX 6800 XT 2.500€ • Rabatte auf Geschenkkarten bei Amazon [Werbung]
    •  /