• IT-Karriere:
  • Services:

Microsoft Azure Cognitive Services: Großes Leistungsspektrum

Zu den Stärken der Computer-Vision-Dienste von Microsoft zählt das große Leistungsspektrum, inklusive spezieller Anwendungsfälle wie Formularerkennung. Außerdem ist die Dokumentation besonders gut und es werden mehrere Programmiersprachen beziehungsweise SDKs unterstützt.

Stellenmarkt
  1. BAM Bundesanstalt für Materialforschung und -prüfung, Berlin-Steglitz
  2. Deutsches Krebsforschungszentrum (DKFZ), Heidelberg

Die allgemeine Bildanalyse von Microsoft erkennt Objekte und Menschen auf Bildern. Das Ergebnis ist eine Liste von Objekten und Tags mit Wahrscheinlichkeitswerten zwischen 0 und 1 für die korrekte Erkennung. Bei Personen werden oft auch das geschätzte Alter und Geschlecht ermittelt.

Außerdem wird eine Beschreibung geliefert, die einen Satz enthält, der das Bild kurz zu erklären versucht. Des Weiteren wird angegeben, mit welchen Wahrscheinlichkeiten das Bild nicht jugendfrei beziehungsweise freizügig ist. Die Ergebnisse werden in der Regel im JSON-Format zur Verfügung gestellt.

Die Software kann auch Texte in Bildern erkennen, und zwar sowohl bei gedruckten als auch bei handschriftlichen Texten. Sie funktioniert bei vielen Handschriften relativ gut, bei schwer zu entziffernden Schriften (zum Beispiel bei Ärzten) allerdings weniger. Die Qualität der Texterkennung hängt außer von der Handschrift auch von der Auflösung des Bildes ab. Wenn möglich, sollte eine geringe Auflösungen vermieden werden.

Etwas spezieller ist die Erkennung von Marken, Personen und Orientierungspunkten. Laut Microsoft können aktuell 1.500 weltweit bekannte Marken und Logos, eine Million Prominente und 9.000 Natur- und Kulturdenkmäler in Bildern erkannt werden. Hierbei wird nicht nur die Person oder das Objekt identifiziert, sondern man erhält weitere Informationen etwa über die Kleidung der Person, ob sie eine Brille trägt und ob das Foto drinnen oder draußen aufgenommen wurde.

Microsoft analysiert auch Videos

Microsoft bietet nicht nur die Analyse von Bildern, sondern auch von Videos an. Hierbei werden Frames nahezu in Echtzeit untersucht. Wer die Computer Vision der Microsoft Cognitive Services ausprobieren möchte, kann dies ohne Registrierung auf der Azure-Computer-Vision-Webseite tun. Die Fotos für die Bildanalyse werden dort einfach hochgeladen oder eine Bild-URL angegeben. Die Bilder im JPEG-, PNG-, GIF- oder BMP-Format müssen eine Auflösung zwischen 50 x 50 und 10.000 x 10.000 Pixel haben und dürfen nicht größer als 4 Megabyte (MB) sein.

Speziell für die Gesichtserkennung gibt es die Cognitive Services Face Recognition. Neben dem Erkennen der Gesichter von Personen werden auch andere Funktionen wie die Gruppierung von Gesichtern anhand visueller Merkmale wie Geschlecht und Alter angeboten. Hochinteressant ist die Emotionserkennung, mit der Gefühle wie Angst, Freude, Staunen oder Traurigkeit mit Wahrscheinlichkeitswerten bewertet werden. Natürlich erkennt die Emotion Recognition nicht die wahren Gefühle einer Person, sondern nur jene, die sie mit ihrem Gesichtsausdruck zeigt (oder vortäuscht).

Des Weiteren bietet Microsoft den Ink-Recognizer-Service, eine Erkennung von digitalen Handschriften und gängigen Formen in Skizzen. Auch er kann ohne Registrierung ausprobiert werden.

Microsofts Dienst kann trainiert werden

Doch was, wenn man spezielle Objekte erkennen möchte, auf die die Cognitive Services bisher nicht trainiert wurden? Hierfür gibt es den Custom Vision Service. Mit ihm kann man eigene Bilder hochladen, mit entsprechenden Kennzeichnungen (Labels) beschriften und so den Custom Vision Service trainieren, spezielle Objekte zu erkennen. Beispielsweise könnte man Aufnahmen von Pizzasorten machen, sie mit entsprechenden Pizzasorten-Namen kennzeichnen und so die Custom Vision Services trainieren, die Sorten zu erkennen.

Der Vorteil der Custom Vision Services ist, dass man das Deep Learning Neural Network ohne Programmierkenntnisse trainieren kann. Der Nachteil ist, dass das von Microsoft zur Verfügung gestellte DLNN-Modell verwendet werden muss. Das Modell kann nicht optimiert werden, indem zum Beispiel die Anzahl der Layer oder Neuronen verändert wird.

Etwas ganz Neues ist die Formularerkennung. Mit ihr können Informationen aus Dokumenten gezogen werden, also aus Texten, Schlüssel-Wert-Paaren und Tabellen. Das kann für Unternehmen interessant sein, um etwa automatisch Bestellungen auf eingescannten Papierformularen zu analysieren. Die Formularerkennung ist in der Preview-Phase, das heißt sie ist zurzeit bezüglich Features, Qualität und Verfügbarkeit in geographischen Azure-Cloud-Regionen nur eingeschränkt einsatzbereit.

Microsoft bietet Programmierbeispiele in mehreren Skript- und Programmiersprachen sowie SDKs für C# (.NET), Go, Python, Java und Node.js an. Mit der Unterstützung von Multi-Platform-Programmiersprachen wie Python und Java zeigt Microsoft auch, dass die Machine Learning Services von Azure nicht nur Entwickler von Windows-Anwendungen als Zielgruppe haben.

Die technische Dokumentation findet sich unter diesem Link.

Microsoft gehört zu den aufstrebenden Anbietern von KI-Services in der Cloud, doch welche Computer-Vision-Dienste bietet der Cloud-Pionier Amazon in seiner AWS-Cloud an - und was ist daran besonders?

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wie funktioniert maschinelles Sehen?Amazon Rekognition und Textract: Kein Testen ohne Registrierung 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Top-Angebote
  1. 1.789€
  2. (u. a. PNY GeForce RTX3090 XLR8 Gaming EPIC-X RGB P 24 GB Enthusiast für 1.899€)
  3. (u. a. Gigabyte Geforce RTX 3090 Eagle OC 24G 24.576 MB GDDR6X für 1.499€, Zotac Gaming GeForce...

cran 09. Jan 2020

Es ist vermutlich viel zu billig. Das darf man nicht passieren lassen. Einigen wenigen...

jg (Golem.de) 07. Jan 2020

Vielen Dank und wir haben den Begriff im Artikel geändert!

WalterSobchak 07. Jan 2020

Das Problem bei all den genannten Services ist für alle DSGVO konform arbeitenden...

möpmöp123 06. Jan 2020

+1


Folgen Sie uns
       


IT-Jobs: Feedback für Freelancer
IT-Jobs
Feedback für Freelancer

Gutes Feedback ist vor allem für Freelancer rar. Wenn nach einem IT-Projekt die Rückblende hintenüberfällt, ist das aber eine verschenkte Chance.
Ein Bericht von Louisa Schmidt

  1. IT-Freelancer Der kürzeste Pfad zum nächsten Projekt
  2. Selbstständiger Sysadmin "Jetzt fehlen nur noch die Aufträge"

Core i7-1185G7 (Tiger Lake) im Test: Gut gebrüllt, Intel
Core i7-1185G7 (Tiger Lake) im Test
Gut gebrüllt, Intel

Dank vier äußerst schneller CPU-Kerne und überraschend flotter iGPU gibt Tiger Lake verglichen zu AMDs Ryzen 4000 eine gute Figur ab.
Ein Test von Marc Sauter

  1. Tiger Lake Überblick zu Intels 11th-Gen-Laptops
  2. Project Athena 2.0 Evo-Ultrabooks gibt es nur mit Windows 10
  3. Ultrabook-Chip Das kann Intels Tiger Lake

Verkehrswende: Zaubertechnologie statt Citybahn
Verkehrswende
Zaubertechnologie statt Citybahn

In Wiesbaden wird um den Bau einer Straßenbahn gestritten, eine Bürgerinitiative kämpft mit sehr kuriosen Argumenten dagegen.
Eine Recherche von Hanno Böck

  1. Fernbus Roadjet mit zwei WLANs und Maskenerkennung gegen Flixbus
  2. Mobilität Wie sinnvoll sind synthetische Kraftstoffe?

    •  /