• IT-Karriere:
  • Services:

Microsoft Azure Cognitive Services: Großes Leistungsspektrum

Zu den Stärken der Computer-Vision-Dienste von Microsoft zählt das große Leistungsspektrum, inklusive spezieller Anwendungsfälle wie Formularerkennung. Außerdem ist die Dokumentation besonders gut und es werden mehrere Programmiersprachen beziehungsweise SDKs unterstützt.

Stellenmarkt
  1. TenneT TSO GmbH, Bayreuth
  2. XENIOS AG, Reutlingen

Die allgemeine Bildanalyse von Microsoft erkennt Objekte und Menschen auf Bildern. Das Ergebnis ist eine Liste von Objekten und Tags mit Wahrscheinlichkeitswerten zwischen 0 und 1 für die korrekte Erkennung. Bei Personen werden oft auch das geschätzte Alter und Geschlecht ermittelt.

Außerdem wird eine Beschreibung geliefert, die einen Satz enthält, der das Bild kurz zu erklären versucht. Des Weiteren wird angegeben, mit welchen Wahrscheinlichkeiten das Bild nicht jugendfrei beziehungsweise freizügig ist. Die Ergebnisse werden in der Regel im JSON-Format zur Verfügung gestellt.

Die Software kann auch Texte in Bildern erkennen, und zwar sowohl bei gedruckten als auch bei handschriftlichen Texten. Sie funktioniert bei vielen Handschriften relativ gut, bei schwer zu entziffernden Schriften (zum Beispiel bei Ärzten) allerdings weniger. Die Qualität der Texterkennung hängt außer von der Handschrift auch von der Auflösung des Bildes ab. Wenn möglich, sollte eine geringe Auflösungen vermieden werden.

Golem Akademie
  1. Terraform mit AWS
    14./15. September 2021, online
  2. OpenShift Installation & Administration
    14.-16. Juni 2021, online
Weitere IT-Trainings

Etwas spezieller ist die Erkennung von Marken, Personen und Orientierungspunkten. Laut Microsoft können aktuell 1.500 weltweit bekannte Marken und Logos, eine Million Prominente und 9.000 Natur- und Kulturdenkmäler in Bildern erkannt werden. Hierbei wird nicht nur die Person oder das Objekt identifiziert, sondern man erhält weitere Informationen etwa über die Kleidung der Person, ob sie eine Brille trägt und ob das Foto drinnen oder draußen aufgenommen wurde.

Microsoft analysiert auch Videos

Microsoft bietet nicht nur die Analyse von Bildern, sondern auch von Videos an. Hierbei werden Frames nahezu in Echtzeit untersucht. Wer die Computer Vision der Microsoft Cognitive Services ausprobieren möchte, kann dies ohne Registrierung auf der Azure-Computer-Vision-Webseite tun. Die Fotos für die Bildanalyse werden dort einfach hochgeladen oder eine Bild-URL angegeben. Die Bilder im JPEG-, PNG-, GIF- oder BMP-Format müssen eine Auflösung zwischen 50 x 50 und 10.000 x 10.000 Pixel haben und dürfen nicht größer als 4 Megabyte (MB) sein.

Speziell für die Gesichtserkennung gibt es die Cognitive Services Face Recognition. Neben dem Erkennen der Gesichter von Personen werden auch andere Funktionen wie die Gruppierung von Gesichtern anhand visueller Merkmale wie Geschlecht und Alter angeboten. Hochinteressant ist die Emotionserkennung, mit der Gefühle wie Angst, Freude, Staunen oder Traurigkeit mit Wahrscheinlichkeitswerten bewertet werden. Natürlich erkennt die Emotion Recognition nicht die wahren Gefühle einer Person, sondern nur jene, die sie mit ihrem Gesichtsausdruck zeigt (oder vortäuscht).

Des Weiteren bietet Microsoft den Ink-Recognizer-Service, eine Erkennung von digitalen Handschriften und gängigen Formen in Skizzen. Auch er kann ohne Registrierung ausprobiert werden.

Microsofts Dienst kann trainiert werden

Doch was, wenn man spezielle Objekte erkennen möchte, auf die die Cognitive Services bisher nicht trainiert wurden? Hierfür gibt es den Custom Vision Service. Mit ihm kann man eigene Bilder hochladen, mit entsprechenden Kennzeichnungen (Labels) beschriften und so den Custom Vision Service trainieren, spezielle Objekte zu erkennen. Beispielsweise könnte man Aufnahmen von Pizzasorten machen, sie mit entsprechenden Pizzasorten-Namen kennzeichnen und so die Custom Vision Services trainieren, die Sorten zu erkennen.

Der Vorteil der Custom Vision Services ist, dass man das Deep Learning Neural Network ohne Programmierkenntnisse trainieren kann. Der Nachteil ist, dass das von Microsoft zur Verfügung gestellte DLNN-Modell verwendet werden muss. Das Modell kann nicht optimiert werden, indem zum Beispiel die Anzahl der Layer oder Neuronen verändert wird.

Etwas ganz Neues ist die Formularerkennung. Mit ihr können Informationen aus Dokumenten gezogen werden, also aus Texten, Schlüssel-Wert-Paaren und Tabellen. Das kann für Unternehmen interessant sein, um etwa automatisch Bestellungen auf eingescannten Papierformularen zu analysieren. Die Formularerkennung ist in der Preview-Phase, das heißt sie ist zurzeit bezüglich Features, Qualität und Verfügbarkeit in geographischen Azure-Cloud-Regionen nur eingeschränkt einsatzbereit.

Microsoft bietet Programmierbeispiele in mehreren Skript- und Programmiersprachen sowie SDKs für C# (.NET), Go, Python, Java und Node.js an. Mit der Unterstützung von Multi-Platform-Programmiersprachen wie Python und Java zeigt Microsoft auch, dass die Machine Learning Services von Azure nicht nur Entwickler von Windows-Anwendungen als Zielgruppe haben.

Die technische Dokumentation findet sich unter diesem Link.

Microsoft gehört zu den aufstrebenden Anbietern von KI-Services in der Cloud, doch welche Computer-Vision-Dienste bietet der Cloud-Pionier Amazon in seiner AWS-Cloud an - und was ist daran besonders?

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wie funktioniert maschinelles Sehen?Amazon Rekognition und Textract: Kein Testen ohne Registrierung 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Spiele-Angebote
  1. 2,99€
  2. 2,79€
  3. 17,99
  4. (aktuell u. a. The Long Journey Home für 2,50€, Transport Fever für 7,50€, Shenmue 3 für 15...

cran 09. Jan 2020

Es ist vermutlich viel zu billig. Das darf man nicht passieren lassen. Einigen wenigen...

jg (Golem.de) 07. Jan 2020

Vielen Dank und wir haben den Begriff im Artikel geändert!

WalterSobchak 07. Jan 2020

Das Problem bei all den genannten Services ist für alle DSGVO konform arbeitenden...

möpmöp123 06. Jan 2020

+1


Folgen Sie uns
       


Peloton - Fazit

Im Video stellt Golem.de-Redakteur Peter Steinlechner das Bike+ von Peloton vor. Mit dem Spinning-Rad können Sportler fast schon ein eigenes Fitnessstudio in ihrer Wohnung einrichten.

Peloton - Fazit Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /