• IT-Karriere:
  • Services:

Wofür wird maschinelles Sehen gebraucht?

Die Möglichkeiten, die maschinelles Sehen (auch: Computer Vision) bietet, sind groß. Häufig wird es im Zusammenhang mit IoT genannt, etwa mit Robotern, Überwachungskameras oder Smartphones. Ein humanoider Roboter könnte zum Beispiel Computer-Vision-Services nutzen, um alltägliche Objekte zu erkennen. Er würde Einzelbilder von seiner Kamera zu einem Service senden und als Antwort die Liste der erkannten Objekte mit jeweiligen Trefferwahrscheinlichkeiten erhalten. Dank seiner Programmierung könnte er entscheiden, was mit einem Objekt gemacht werden kann.

Stellenmarkt
  1. Technische Universität Berlin, Berlin
  2. VIVASECUR GmbH, Leinfelden-Echterdingen

Die begrenzte Speicher- und Rechenleistung des Roboters müsste dann keine Ressourcen für eine aufwendige Bilderkennung verschwenden, sondern würde für Prozesse zur Entscheidungsfindung und für Steuerungsprogramme eingesetzt. Das würde nicht nur die Hardwarekosten senken, sondern könnte auch den Stromverbrauch verringern, weil das maschinelle Sehen in die Cloud ausgelagert wird.

Auch bei Smartphones sind viele Apps denkbar, die Computer Vision nutzen - zum Beispiel solche, die eine Texterkennung sowohl in gedruckten Zeitungen als auch bei handschriftlichen Texten durchführen und die Texte dann übersetzen.

Manche Cloud-Anbieter bieten zudem Services an, die sich selbst trainieren lassen, um spezielle Objekte erkennen zu können.

KI-Training ist komplex und zeitaufwendig

Das Entwickeln und Trainieren von Computer-Vision-Modellen ist aufwendig. Normalerweise sind dafür spezielle Kenntnisse in Statistik, Computer-Vision-Algorithmen und bestimmten Bibliotheken sowie Programmiersprachen nötig - bei den Services mancher Cloud-Anbieter gilt das aber nicht mehr. Sie stellen ergonomische Benutzeroberflächen zur Verfügung, so dass zum Beispiel auch ein Vogelexperte, der zwar Namen von Vogelunterarten Fotos zuordnen kann, aber keine Programmiersprache beherrscht, Computer-Vision-Services trainieren könnte. Er benötigt lediglich Programmierkenntnisse, um den Service mittels APIs beziehungsweise Webservices an die eigenen Anwendungen anzubinden.

Um ein Modell zu trainieren, sind Fotos nötig und die zugehörigen Kennzeichnungen (Labeling). Außerdem braucht man weitere Fotos, um zu testen, ob und wie gut der Computer gelernt hat und mit welcher Trefferrate er die Objekte richtig erkennt.

Beispielsweise ließen sich Fotos von optisch sichtbaren Schäden an mechanischen Bauteilen verwenden, um Erosion, Brüche, Risse oder Durchbrenner zu klassifizieren. Menschliche Gutachter könnten entlastet werden, indem der Computer die erste Bewertung vornimmt. Prinzipiell dienen trainierbare Computer-Vision-Services dazu, spezielle Objekte zu erkennen. Zum Beispiel gibt es wahrscheinlich kaum einen fertigen Service, der spezielle Unterarten von Vögeln bestimmen kann. Ihn müsste der Nutzer trainieren, ihm also beibringen, wie er diese Arten erkennen kann. Je mehr Fotos dazu verwendet werden, desto wahrscheinlicher ist es, dass die Vögel erkannt werden.

Es gibt einen großen Unterschied zu den meist deterministischen, klassischen Algorithmen, die Programmierer kennen und von denen sie eindeutige Ergebnisse erwarten. Denn das Ergebnis eines Trainings führt nie zu Trefferraten von 100 Prozent.

Bevor wir zum Vergleich der einzelnen Anbieter kommen, kurz ein paar Grundlagen zum maschinellen Sehen. Man muss sie nicht im Detail verstehen, sie sind jedoch wichtig, um einige zentrale Aspekte von Computer Vision einordnen zu können. So ist es zum Beispiel wichtig zu wissen, was in Dokumentationen und Anwenderoberflächen häufig auftauchende Begriffe wie Trainieren, Muster (Patterns), Deep Learning, CNNs und Wahrscheinlichkeit bedeuten. Auch bei der Einschätzung, welchen Aufwand ein eigenes Modell und das Training des Modells bedeuten können, sollen die Grundlagen helfen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Computer Vision: Mehr Durchblick beim maschinellen SehenWie funktioniert maschinelles Sehen? 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Anzeige
Top-Angebote
  1. (u. a. Viewsonic M1+ Ultramobiler Beamer LED WVGA 125 Lumen für 269,77€ (Deal des Tages...
  2. 86,51€ (Vergleichspreis 98,62€)
  3. (u. a. Anker-Produkte reduziert (u. a. Anker PowerCore Speed 20000 mAh für 31,99€), bis zu 50...
  4. ab 751,90€ auf Geizhals

cran 09. Jan 2020

Es ist vermutlich viel zu billig. Das darf man nicht passieren lassen. Einigen wenigen...

jg (Golem.de) 07. Jan 2020

Vielen Dank und wir haben den Begriff im Artikel geändert!

WalterSobchak 07. Jan 2020

Das Problem bei all den genannten Services ist für alle DSGVO konform arbeitenden...

möpmöp123 06. Jan 2020

+1


Folgen Sie uns
       


    •  /