• IT-Karriere:
  • Services:

Computer Vision: Mehr Durchblick beim maschinellen Sehen

Mit den Services von Amazon, IBM, Microsoft und Google kann jeder recht einfach Bilder analysieren, ohne die genauen Mechanismen dahinter zu kennen. Die Anwendungen unterscheiden sich aber stark - vor allem im Funktionsumfang.

Artikel von Miroslav Stimac veröffentlicht am
Besser Sehen, hier ohne maschinelle Unterstützung.
Besser Sehen, hier ohne maschinelle Unterstützung. (Bild: Fox Photos/Getty Images)

Maschinelles Sehen ist vor allem im wachsenden Internet of Things (IoT) ein Thema: Vom Haushaltsroboter, der die Kaffeetasse vom Teller unterscheiden muss, über die Überwachungskamera, die Dieb und Wohnungsbesitzer auseinanderhalten muss, bis hin zur automatischen Verarbeitung handschriftlich ausgefüllter Formulare im betrieblichen Umfeld - überall wird maschinelles Sehen gebraucht.

Bis vor kurzem war die Umsetzung Profis vorbehalten, die wissen, wie Computer lernen und wie man ihnen das beibringt. Genauer gesagt müssen es Menschen sein, die mit speziellen Bibliotheken für maschinelles Lernen programmieren können und ein tiefes Verständnis für die entsprechenden Algorithmen haben.

Inzwischen gibt es aber diverse Dienste, mit denen das auch jemand ohne diese speziellen Kenntnisse umsetzen kann. Solche Out-of-the-Box-Services bieten Schnittstellen (APIs beziehungsweise Web-Services), mit denen man Bilder zum Analysieren übermitteln kann und eine Bildbeschreibung als Ergebnis bekommt. Wie genau der Service intern arbeitet, ist für den Anwender nicht ersichtlich.

Zielgruppe dieser Out-of-the-Box-Services sind unter anderen Entwickler klassischer Desktop-Anwendungen sowie Entwickler von Webanwendungen oder Smartphone-Apps, die allgemeine Cloud-Dienste für maschinelles Sehen von ihren Programmen aus aufrufen und konsumieren wollen. Zum Beispiel für eine App, mit der automatisch alle Fotos auf einem Smartphone mit Keywords versehen werden.

Für App- und Machine-Learning-Entwickler

Stellenmarkt
  1. Hays AG, Berlin
  2. Hasso-Plattner-Institut für Digital Engineering gGmbH, Potsdam

Aber auch Machine-Learning-Entwickler können die Cloud-Dienste einsetzen: Denn in einigen Anwendungsfällen liefern sie bereits so zufriedenstellende Ergebnisse, dass der Aufwand für die Entwicklung und das Training eigener Machine-Learning-Modelle nicht gerechtfertigt wären.

Denkbar ist auch, die Out-of-the-Box-Dienste nur teilweise zu nutzen: zum Beispiel für eine Anwendung, die den Preis von Computern einschätzt - also, ob ein Angebot eines Händlers günstig oder teuer ist. Das Machine-Learning-Modell dafür muss der ML-Entwickler selbst entwerfen und trainieren, oft mit Python und diversen ML-Libraries. Damit der Nutzer der App die Preise, Komponenten und Ausstattungsmerkmale der Computer aber nicht alle eintippen muss, könnte sich der Entwickler überlegen, die Liste der Hardwarekomponenten und die Preise der Computer aus fotografierten Angebotsblättern der Händler auslesen zu lassen. Diese Texterkennung könnte einem entsprechenden, schon vorab trainierten Computer-Vision-Cloud-Dienst überlassen werden.

Wir haben uns die Services von Amazon (ASW), IBM (Watson), Microsoft (Azure) und Google (Vision API) angesehen. Neben der allgemeinen Erkennung von Objekten in Bildern haben sie spezielle Funktionen wie die Texterkennung von gedruckten und handschriftlichen Texten, die Klassifizierung von Personen anhand ihres Alters, Geschlechts, der Kleidung und so weiter, das Erkennen von Emotionen anhand von Gesichtsausdrücken und das Erkennen von bekannten Personen des öffentlichen Lebens.

Die Angebote unterscheiden sich teils erheblich im Funktionsumfang. Bei der Entscheidung, welches man verwenden will, stellt sich insbesondere folgende Frage: Will ich schon vorab trainierte Modelle nutzen, die sofort eine Vielzahl allgemeiner Objekte erkennen? Oder will ich selbst Modelle trainieren, um spezielle Objekte zu erkennen?

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Wofür wird maschinelles Sehen gebraucht? 
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9.  


Anzeige
Spiele-Angebote
  1. (-75%) 22,50€
  2. 17,99€
  3. (-73%) 15,99€

cran 09. Jan 2020

Es ist vermutlich viel zu billig. Das darf man nicht passieren lassen. Einigen wenigen...

jg (Golem.de) 07. Jan 2020

Vielen Dank und wir haben den Begriff im Artikel geändert!

WalterSobchak 07. Jan 2020

Das Problem bei all den genannten Services ist für alle DSGVO konform arbeitenden...

möpmöp123 06. Jan 2020

+1


Folgen Sie uns
       


Looking Glass Holo-Display angesehen (CES 2020)

Der Looking Glass 8K ist ein Monitor, der mittels Lichtfeldtechnologie 3D-Inhalte als Hologramm anzeigen kann. Golem.de hat sich das Display auf der CES 2020 genauer angeschaut.

Looking Glass Holo-Display angesehen (CES 2020) Video aufrufen
    •  /