Abo
  • IT-Karriere:

Azure Speech Service: Microsofts Demos entstehen im fensterlosen Nerd-Keller

Moderne Architektur, große Fenster, ein Zen-Garten: Microsofts Campus wirkt außen modern und aufgeräumt. Präsentationen entstehen trotzdem in einem fensterlosen Raum, in dem sich Hardware und Werkzeug stapeln. Microsoft zeigt dort auch eine ungeskriptete Version seiner Spracherkennungssoftware.

Artikel von veröffentlicht am
Was hat es mit der Superman-Ziege auf sich?
Was hat es mit der Superman-Ziege auf sich? (Bild: Oliver Nickel/Golem.de)

Microsoft hat es sich in Redmond nahe der US-amerikanischen Stadt Seattle gemütlich gemacht: Ein moderner Campus aus etwa 125 Häusern hat Platz für 40.000 Mitarbeiter, einige der Gebäude werden gerade renoviert oder neu gebaut. Das Gelände ist so groß, dass es einen Shuttle-Service zwischen den Standorten gibt. Innen sieht es aufgeräumt und modern aus. In einer Art Zen-Garten können Mitarbeiter Meetings in Baumhäusern abhalten oder sich während der Pause im eigenen Burgerrestaurant sattessen. Und dann gibt es da einen Raum, in dem einige der Ideen für Bühnenpräsentationen entstehen und der irgendwie nicht zum restlichen Bild des Campus passt.

Stellenmarkt
  1. Landeshauptstadt München, München
  2. Bayern Facility Management GmbH, München

Mitten in einem Labyrinth aus weißen Fluren befindet sich der richtige Nerd-Keller ohne Fenster, in dem Entwickler Projekte konzipieren und besprechen können. "Ihr seht den Raum in seinem ganzen Nach-der-Messe-Glanz", sagt der Führer bei einer Journalistentour. Dort stehen nicht angeschlossene Monitore neben Werkzeugschachteln, Kabel hängen aus der Zwischendecke heraus und führen in einen offenen Netzwerkschrank, dessen Patchkabel kreuz und quer gesteckt sind. Auch einen 3D-Drucker haben die Microsoft-Mitarbeiter in ihrem Raum zur Verfügung. Was es mit der Modellziege im Superman-Kostüm darunter auf sich halt, bleibt wohl erst einmal geheim. "Das ist eine lange und langweilige Geschichte", wird der Besuchergruppe gesagt.

In der Mitte dieses Chaos wurde eine kleine, schlecht beleuchtete Bühne aufgebaut. Der Hintergrund ist allerdings keine teure LCD-Leinwand wie auf der Entwicklerkonferenz Build 2019, sondern Pressspanplatte und Wellblech - und erinnert daher etwas an eine Gartenlaube. Der freie Platz bietet Teams bei Microsoft die Möglichkeit, sich Szenarien auszudenken, die auf der Bühne gezeigt werden sollen. Ein Beispiel ist die Präsentation des Conversation Transcription Services für Azure Speech Service: Auf der Eröffnungsansprache konnte Microsoft eine Art Rap-Battle mit Tech-Sprache vorführen und den Fortschritt der Speech-to-Text-Erkennung zeigen. Die Dialoge wurden zuvor im Keller geprobt, während das Unternehmen laut eigenen Aussagen Wert darauf legt, die Technik an sich nicht in irgendeiner Weise zu verfälschen.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)

Das System basiert auf einem Array aus mehreren Mikrofonen, die vorerst in einem kegelförmigen Gerät installiert wurden, funktioniert aber auch mit weniger spezieller Hardware. Während der kürzlichen Präsentation haben die Entwickler dafür ein Surface Pro benutzt. "Je mehr Mikrofone, desto besser", sagt der Tourführer. Die Software kann zwischen verschiedenen Sprechern unterscheiden, Fachbegriffe in Zusammenhängen erkennen und diese von ähnlich klingenden Wörtern auseinanderhalten - etwa das medizintechnische Wort FHIR und das englische Wort Fire. Um das zu erreichen, wird ein Machine-Learning-Modell mit möglichst vielen Textdaten trainiert. In einem Krankenhaus können das E-Mails zwischen Medizinern und Chatverläufe sein. Auf dieser Basis ordnet die Software Fachbegriffe bestimmten Kontexten zu und wendet das Gelernte auf das Transkribieren von Sprache in Text an. Das klappt auf der Bühne auch ganz gut.

Ehrlich hinter der Bühne

"Das System hat natürlich Probleme, wenn ein Fachbegriff nur wenige Male verwendet wird. Je mehr Daten, desto genauer ist die Software", sagt James Olson. An einem kleinen Konferenztisch in der Ecke des Raumes sitzen zwei weitere Entwickler des Projekts: Heiko Rahmel und Yusaf Sajid. Sie zeigen das Programm in einer erneuten Präsentation. Diesmal läuft es ohne Skript ab und Besucher sehen den Azure Speech Service in einer dem Alltag nahen Situation. Dabei stellen sich die Entwickler noch einmal kurz vor - jeder mit eigenem Akzent und Sprechgeschwindigkeit.

  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Hier können auch Online-Präsentationen gebrobt werden. (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Serverschrank mit offener Tür (Bild: Oliver Nickel/Golem.de)
  • Bühnendemos werden erst auf solchen improvisierten Flächen geübt. (Bild: Oliver Nickel/Golem.de)
  • Ein Plotter mit professioneller Verkabelung ... (Bild: Oliver Nickel/Golem.de)
  • Abstruses Bild: 3D-Drucker und Superman-Ziege (Bild: Oliver Nickel/Golem.de)
  • Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)
  • Patchkabel kreuz und quer - Hauptsache, es funktioniert! (Bild: Oliver Nickel/Golem.de)
  • Da war jemand beschäftigt. (Bild: Oliver Nickel/Golem.de)
Microsoft zeigt eine nicht geprobte Demo seiner Spracherkennung. (Bild: Oliver Nickel/Golem.de)

Und siehe da: Satzzeichen werden falsch oder gar nicht gesetzt und Füllwörter wie "Ähm" oder "Uhm" verfälschen das Ergebnis. Auch mehrere Personen werden nicht immer richtig erkannt. Das ist den Entwicklern bewusst und sie sprechen ehrlich darüber, wenn sie nicht vor Tausenden Fachbesuchern stehen. Olsons Team wird weiter am Azure Speech Service arbeiten. Möglicherweise sehen wir im nächsten Jahr eine bessere Version, die auf Smartphones oder anderen Geräten läuft.

Offenlegung: Golem.de hat auf Einladung von Microsoft an der Entwicklerkonferenz Build 2019 teilgenommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.



Anzeige
Spiele-Angebote
  1. (-78%) 11,00€
  2. (-12%) 52,99€
  3. 3,99€
  4. (-80%) 6,99€

Insomnia88 20. Mai 2019

Jetzt weißt du Bescheid, dass du hättest klagen können

Potrimpo 10. Mai 2019

Artikel nicht gelesen, aber ablästern, weil man das böse Wort Microsoft gelesen hat.


Folgen Sie uns
       


Asus Zephyrus G GA502 - Test

Sparsamer Sprinter mit dunklem Display: das Zephyrus G GA502 im Test.

Asus Zephyrus G GA502 - Test Video aufrufen
E-Auto: Byton zeigt die Produktionsversion des M-Byte
E-Auto
Byton zeigt die Produktionsversion des M-Byte

IAA 2019 Die Premiere von Byton in Frankfurt ist überraschend. Da der M-Byte im kommenden Jahr in China startet, ist die Vorstellung des produktionsreifen Elektroautos in Deutschland etwas Besonderes.
Ein Bericht von Dirk Kunde


    Recruiting: Wenn das eigene Wachstum zur Herausforderung wird
    Recruiting
    Wenn das eigene Wachstum zur Herausforderung wird

    Gerade im IT-Bereich können Unternehmen sehr schnell wachsen. Dabei können der Fachkräftemangel und das schnelle Onboarding von neuen Mitarbeitern zum Problem werden. Wir haben uns bei kleinen Startups und Großkonzernen umgehört, wie sie in so einer Situation mit den Herausforderungen umgehen.
    Von Robert Meyer

    1. Recruiting Alle Einstellungsprozesse sind fehlerhaft
    2. LoL Was ein E-Sport-Trainer können muss
    3. IT-Arbeit Was fürs Auge

    Manipulierte Zustimmung: Datenschützer halten die meisten Cookie-Banner für illegal
    Manipulierte Zustimmung
    Datenschützer halten die meisten Cookie-Banner für illegal

    Nur die wenigsten Cookie-Banner entsprechen den Vorschriften der DSGVO, wie eine Studie feststellt. Die Datenschutzbehörden halten sich mit Sanktionen aber noch zurück.
    Ein Bericht von Christiane Schulzki-Haddouti

    1. Chrome & Privacy Google möchte uns in Zukunft anders tracken
    2. Tracking Google und Facebook tracken auch auf vielen Pornoseiten
    3. Android Apps kommen auch ohne Berechtigung an Trackingdaten

      •  /