Microsoft Azure Cognitive Services: Großes Leistungsspektrum

Zu den Stärken der Computer-Vision-Dienste von Microsoft zählt das große Leistungsspektrum, inklusive spezieller Anwendungsfälle wie Formularerkennung. Außerdem ist die Dokumentation besonders gut und es werden mehrere Programmiersprachen beziehungsweise SDKs unterstützt.

Stellenmarkt
  1. IT Support- und Digitalisierungsmanager(in) (w/m/d)
    Krone gebäudemanagment und technologie gmbh, Berlin
  2. Operations Manager (m/w/d)
    Gunnar Kühne Executive Search GmbH, Frankfurt am Main
Detailsuche

Die allgemeine Bildanalyse von Microsoft erkennt Objekte und Menschen auf Bildern. Das Ergebnis ist eine Liste von Objekten und Tags mit Wahrscheinlichkeitswerten zwischen 0 und 1 für die korrekte Erkennung. Bei Personen werden oft auch das geschätzte Alter und Geschlecht ermittelt.

Außerdem wird eine Beschreibung geliefert, die einen Satz enthält, der das Bild kurz zu erklären versucht. Des Weiteren wird angegeben, mit welchen Wahrscheinlichkeiten das Bild nicht jugendfrei beziehungsweise freizügig ist. Die Ergebnisse werden in der Regel im JSON-Format zur Verfügung gestellt.

Die Software kann auch Texte in Bildern erkennen, und zwar sowohl bei gedruckten als auch bei handschriftlichen Texten. Sie funktioniert bei vielen Handschriften relativ gut, bei schwer zu entziffernden Schriften (zum Beispiel bei Ärzten) allerdings weniger. Die Qualität der Texterkennung hängt außer von der Handschrift auch von der Auflösung des Bildes ab. Wenn möglich, sollte eine geringe Auflösungen vermieden werden.

Golem Akademie
  1. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    26.–28. Oktober 2021, Virtuell
  2. Kotlin für Java-Entwickler: virtueller Zwei-Tage-Workshop
    14.–15. Oktober 2021, Virtuell
Weitere IT-Trainings

Etwas spezieller ist die Erkennung von Marken, Personen und Orientierungspunkten. Laut Microsoft können aktuell 1.500 weltweit bekannte Marken und Logos, eine Million Prominente und 9.000 Natur- und Kulturdenkmäler in Bildern erkannt werden. Hierbei wird nicht nur die Person oder das Objekt identifiziert, sondern man erhält weitere Informationen etwa über die Kleidung der Person, ob sie eine Brille trägt und ob das Foto drinnen oder draußen aufgenommen wurde.

Microsoft analysiert auch Videos

Microsoft bietet nicht nur die Analyse von Bildern, sondern auch von Videos an. Hierbei werden Frames nahezu in Echtzeit untersucht. Wer die Computer Vision der Microsoft Cognitive Services ausprobieren möchte, kann dies ohne Registrierung auf der Azure-Computer-Vision-Webseite tun. Die Fotos für die Bildanalyse werden dort einfach hochgeladen oder eine Bild-URL angegeben. Die Bilder im JPEG-, PNG-, GIF- oder BMP-Format müssen eine Auflösung zwischen 50 x 50 und 10.000 x 10.000 Pixel haben und dürfen nicht größer als 4 Megabyte (MB) sein.

Speziell für die Gesichtserkennung gibt es die Cognitive Services Face Recognition. Neben dem Erkennen der Gesichter von Personen werden auch andere Funktionen wie die Gruppierung von Gesichtern anhand visueller Merkmale wie Geschlecht und Alter angeboten. Hochinteressant ist die Emotionserkennung, mit der Gefühle wie Angst, Freude, Staunen oder Traurigkeit mit Wahrscheinlichkeitswerten bewertet werden. Natürlich erkennt die Emotion Recognition nicht die wahren Gefühle einer Person, sondern nur jene, die sie mit ihrem Gesichtsausdruck zeigt (oder vortäuscht).

Des Weiteren bietet Microsoft den Ink-Recognizer-Service, eine Erkennung von digitalen Handschriften und gängigen Formen in Skizzen. Auch er kann ohne Registrierung ausprobiert werden.

Microsofts Dienst kann trainiert werden

Doch was, wenn man spezielle Objekte erkennen möchte, auf die die Cognitive Services bisher nicht trainiert wurden? Hierfür gibt es den Custom Vision Service. Mit ihm kann man eigene Bilder hochladen, mit entsprechenden Kennzeichnungen (Labels) beschriften und so den Custom Vision Service trainieren, spezielle Objekte zu erkennen. Beispielsweise könnte man Aufnahmen von Pizzasorten machen, sie mit entsprechenden Pizzasorten-Namen kennzeichnen und so die Custom Vision Services trainieren, die Sorten zu erkennen.

Der Vorteil der Custom Vision Services ist, dass man das Deep Learning Neural Network ohne Programmierkenntnisse trainieren kann. Der Nachteil ist, dass das von Microsoft zur Verfügung gestellte DLNN-Modell verwendet werden muss. Das Modell kann nicht optimiert werden, indem zum Beispiel die Anzahl der Layer oder Neuronen verändert wird.

Etwas ganz Neues ist die Formularerkennung. Mit ihr können Informationen aus Dokumenten gezogen werden, also aus Texten, Schlüssel-Wert-Paaren und Tabellen. Das kann für Unternehmen interessant sein, um etwa automatisch Bestellungen auf eingescannten Papierformularen zu analysieren. Die Formularerkennung ist in der Preview-Phase, das heißt sie ist zurzeit bezüglich Features, Qualität und Verfügbarkeit in geographischen Azure-Cloud-Regionen nur eingeschränkt einsatzbereit.

Microsoft bietet Programmierbeispiele in mehreren Skript- und Programmiersprachen sowie SDKs für C# (.NET), Go, Python, Java und Node.js an. Mit der Unterstützung von Multi-Platform-Programmiersprachen wie Python und Java zeigt Microsoft auch, dass die Machine Learning Services von Azure nicht nur Entwickler von Windows-Anwendungen als Zielgruppe haben.

Die technische Dokumentation findet sich unter diesem Link.

Microsoft gehört zu den aufstrebenden Anbietern von KI-Services in der Cloud, doch welche Computer-Vision-Dienste bietet der Cloud-Pionier Amazon in seiner AWS-Cloud an - und was ist daran besonders?

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wie funktioniert maschinelles Sehen?Amazon Rekognition und Textract: Kein Testen ohne Registrierung 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Aktuell auf der Startseite von Golem.de
Blender Foundation
Blender 3.0 ist da

Die freie 3D-Software Blender bekommt ein Update - wir haben es uns angesehen.

Blender Foundation: Blender 3.0 ist da
Artikel
  1. Bald exklusiv bei Disney+: Serien verschwinden aus Abos von Netflix und Prime Video
    Bald exklusiv bei Disney+
    Serien verschwinden aus Abos von Netflix und Prime Video

    Acht Serienklassiker gibt es bald nur noch exklusiv bei Disney+ im Abo. Dazu gehören Futurama, Family Guy und 24.
    Von Ingo Pakalski

  2. Chorus im Test: Action im All plus galaktische Grafik
    Chorus im Test
    Action im All plus galaktische Grafik

    Schicke Grafik und ein sprechendes Raumschiff: Chorus von Deep Silver entpuppt sich beim Test als düsteres und spannendes Weltraumspiel.
    Von Peter Steinlechner

  3. Edge-Browser: Microsoft will Installation von Chrome verhindern
    Edge-Browser
    Microsoft will Installation von Chrome verhindern

    Microsoft intensiviert sein Vorgehen gegen andere Browser: Vor der Installation von Chrome wird Edge übertrieben gelobt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Saturn-Advent: Toshiba Canvio 6TB 88€ • KFA2 Geforce RTX 3070 OC 8GB 1.019€ • Netgear günstiger (u. a. 5-Port-Switch 16,89€) • Norton 360 Deluxe 2022 18,99€ • Gaming-Monitore zu Bestpreisen (u. a. Samsung G3 27" FHD 144Hz 219€) • Spiele günstiger (u. a. Hades PS5 15,99€) [Werbung]
    •  /