Azure: Microsofts Texterkennung versteht künftig auch Deutsch
Cognitive Services können aus Bildern nicht mehr nur Englisch-Texte extrahieren. Außerdem gibt es eine KI, die bei der Aussprache hilft.

Entwicklerteams, die Azure Cognitive Services nutzen, können sich demnächst neue Funktionen anschauen. Microsoft veröffentlicht zur Build 2020 etwa eine Betonungsunterstützung und Sprechererkennung. Ersteres soll die Stimmlage und Betonung von Vortragenden analysieren und Tipps für eine bessere und klarere Aussprache geben. Zweitere Funktion erkennt sprechende Personen innerhalb von Meetingräumen anhand der Richtung des Audiosignals. Das könnte etwa dabei helfen, ein Konferenzsystem mit automatischer Sprechererkennung zu entwickeln.
Einige andere Funktionen wurden in der Vollversion und nicht als Preview angekündigt. Für deutschsprachige Personen interessant sein könnte, dass der Computer-Vision-Dienst Read 3.0 in Zukunft auch in der Lage ist, in Deutsch geschriebene Texte aus Bildern in bearbeitbare Texte umzuwandeln, etwa Überschriften und Bezeichnungen auf gescannten Seiten und Fotos. Read 3.0 versteht zudem Französisch, Portugiesisch, Italienisch und Niederländisch. Englisch und Spanisch waren die ersten unterstützten Sprachen.
Genaueres Text-to-Speech in Azure
Der Speech-to-Text-Dienst soll in einiger Zeit für 27 neue Sprachen erscheinen. Das System soll laut Microsoft als Audiomaterial vorhandene gesprochene Sätze zu 30 Prozent genauer in schriftliche Texte umwandeln können. Verbesserungen gibt es auch bei Neural Text-to-Speech. Dieses versucht, in verschiedenen Stimmlagen und in natürlicher Betonung zu sprechen. Es gibt 15 neue Stimmen in 11 zusätzlichen Sprachen. Dabei soll die Fehlerrate um etwa 50 Prozent bei 13 Sprachen sinken. Zu den von Microsoft unterstützten Sprachen zählen neben Englisch etwa auch Italienisch, Mandarin oder Deutsch.
Cognitive Services sollen sich künftig besser in virtualisierten Umgebungen wie Containern integrieren und trainieren lassen. Zunächst wird dies für die Dienste Language Understanding und Text Analytics verfügbar sein. Ersterer teilt gesprochene Sätze in zusammenhängende Wortgruppen auf, die später von einem Bot für die Kontexterkennung genutzt werden können. Zweiterer Dienst kann Informationen aus unstrukturiertem Text herausfiltern.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed