Computer Vision: Mehr Durchblick beim maschinellen Sehen

Mit den Services von Amazon, IBM, Microsoft und Google kann jeder recht einfach Bilder analysieren, ohne die genauen Mechanismen dahinter zu kennen. Die Anwendungen unterscheiden sich aber stark - vor allem im Funktionsumfang.

Artikel von Miroslav Stimac veröffentlicht am
Besser Sehen, hier ohne maschinelle Unterstützung.
Besser Sehen, hier ohne maschinelle Unterstützung. (Bild: Fox Photos/Getty Images)

Maschinelles Sehen ist vor allem im wachsenden Internet of Things (IoT) ein Thema: Vom Haushaltsroboter, der die Kaffeetasse vom Teller unterscheiden muss, über die Überwachungskamera, die Dieb und Wohnungsbesitzer auseinanderhalten muss, bis hin zur automatischen Verarbeitung handschriftlich ausgefüllter Formulare im betrieblichen Umfeld - überall wird maschinelles Sehen gebraucht.

Bis vor kurzem war die Umsetzung Profis vorbehalten, die wissen, wie Computer lernen und wie man ihnen das beibringt. Genauer gesagt müssen es Menschen sein, die mit speziellen Bibliotheken für maschinelles Lernen programmieren können und ein tiefes Verständnis für die entsprechenden Algorithmen haben.

Inzwischen gibt es aber diverse Dienste, mit denen das auch jemand ohne diese speziellen Kenntnisse umsetzen kann. Solche Out-of-the-Box-Services bieten Schnittstellen (APIs beziehungsweise Web-Services), mit denen man Bilder zum Analysieren übermitteln kann und eine Bildbeschreibung als Ergebnis bekommt. Wie genau der Service intern arbeitet, ist für den Anwender nicht ersichtlich.

Zielgruppe dieser Out-of-the-Box-Services sind unter anderen Entwickler klassischer Desktop-Anwendungen sowie Entwickler von Webanwendungen oder Smartphone-Apps, die allgemeine Cloud-Dienste für maschinelles Sehen von ihren Programmen aus aufrufen und konsumieren wollen. Zum Beispiel für eine App, mit der automatisch alle Fotos auf einem Smartphone mit Keywords versehen werden.

Für App- und Machine-Learning-Entwickler

Stellenmarkt
  1. IT-Security Spezialist Kommunikation (m/w/d)
    Helios IT Service GmbH, Berlin-Buch
  2. Full Stack Java Software Developer (m/w/d)
    NOVENTI Health SE, Lübeck (Home-Office möglich)
Detailsuche

Aber auch Machine-Learning-Entwickler können die Cloud-Dienste einsetzen: Denn in einigen Anwendungsfällen liefern sie bereits so zufriedenstellende Ergebnisse, dass der Aufwand für die Entwicklung und das Training eigener Machine-Learning-Modelle nicht gerechtfertigt wären.

Denkbar ist auch, die Out-of-the-Box-Dienste nur teilweise zu nutzen: zum Beispiel für eine Anwendung, die den Preis von Computern einschätzt - also, ob ein Angebot eines Händlers günstig oder teuer ist. Das Machine-Learning-Modell dafür muss der ML-Entwickler selbst entwerfen und trainieren, oft mit Python und diversen ML-Libraries. Damit der Nutzer der App die Preise, Komponenten und Ausstattungsmerkmale der Computer aber nicht alle eintippen muss, könnte sich der Entwickler überlegen, die Liste der Hardwarekomponenten und die Preise der Computer aus fotografierten Angebotsblättern der Händler auslesen zu lassen. Diese Texterkennung könnte einem entsprechenden, schon vorab trainierten Computer-Vision-Cloud-Dienst überlassen werden.

Wir haben uns die Services von Amazon (ASW), IBM (Watson), Microsoft (Azure) und Google (Vision API) angesehen. Neben der allgemeinen Erkennung von Objekten in Bildern haben sie spezielle Funktionen wie die Texterkennung von gedruckten und handschriftlichen Texten, die Klassifizierung von Personen anhand ihres Alters, Geschlechts, der Kleidung und so weiter, das Erkennen von Emotionen anhand von Gesichtsausdrücken und das Erkennen von bekannten Personen des öffentlichen Lebens.

Die Angebote unterscheiden sich teils erheblich im Funktionsumfang. Bei der Entscheidung, welches man verwenden will, stellt sich insbesondere folgende Frage: Will ich schon vorab trainierte Modelle nutzen, die sofort eine Vielzahl allgemeiner Objekte erkennen? Oder will ich selbst Modelle trainieren, um spezielle Objekte zu erkennen?

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Wofür wird maschinelles Sehen gebraucht? 
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9.  


Aktuell auf der Startseite von Golem.de
Bildbearbeitungstool bei Github
Triangula und die Schönheit der Mathematik

Helferlein Triangula ist ein gelungenes Tool, um Bilder kunstvoll in Polygone zu zerlegen. Mit einem weiteren Tool können sie als Platzhalter auf Webseiten eingesetzt werden.
Von Kristof Zerbe

Bildbearbeitungstool bei Github: Triangula und die Schönheit der Mathematik
Artikel
  1. Giga Factory Berlin: Warum Tesla auf über eine Milliarde Euro verzichten musste
    Giga Factory Berlin
    Warum Tesla auf über eine Milliarde Euro verzichten musste

    Tesla kann die Milliarde Euro Förderung für die Akkufabrik Grünheide nicht beantragen - weil es sonst zu Verzögerungen beim Einsatz neuer Technik käme.

  2. Abonnenten verärgert: Spotify entfernt speziellen Automodus
    Abonnenten verärgert
    Spotify entfernt speziellen Automodus

    Durch den Wegfall von Car View wird die Nutzung von Spotify für Autofahrer im Fahrzeug gefährlicher.

  3. Doppelbildschirm: Kickstarterprojekt Slide brauchte 6 Jahre bis zum Erfolg
    Doppelbildschirm
    Kickstarterprojekt Slide brauchte 6 Jahre bis zum Erfolg

    Das Kickstarter-Projekt Slidenjoy kann nach 6 Jahren seinen Doppelbildschirm Slide für Notebooks ausliefern.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Heute ist Cyber Monday • AMD-CPUs zu Bestpreisen (u. a. Ryzen 7 5800X 348€) • WD Blue SN550 2 TB ab 149€ • LG UltraGear 34GP950G-B 999€ • SanDisk Ultra 3D 500 GB M.2 44€ • Boxsets (u. a. Game of Thrones Blu-ray 79,97€) • Samsung Galaxy S21 128GB 777€ [Werbung]
    •  /