Wofür wird maschinelles Sehen gebraucht?

Die Möglichkeiten, die maschinelles Sehen (auch: Computer Vision) bietet, sind groß. Häufig wird es im Zusammenhang mit IoT genannt, etwa mit Robotern, Überwachungskameras oder Smartphones. Ein humanoider Roboter könnte zum Beispiel Computer-Vision-Services nutzen, um alltägliche Objekte zu erkennen. Er würde Einzelbilder von seiner Kamera zu einem Service senden und als Antwort die Liste der erkannten Objekte mit jeweiligen Trefferwahrscheinlichkeiten erhalten. Dank seiner Programmierung könnte er entscheiden, was mit einem Objekt gemacht werden kann.

Stellenmarkt
  1. Field Support Engineer L3 (m/w/d)
    NTT Germany AG & Co. KG, München, Teltow
  2. Domänenarchitekt (w/m/d) Komposit
    W&W Informatik GmbH, Ludwigsburg
Detailsuche

Die begrenzte Speicher- und Rechenleistung des Roboters müsste dann keine Ressourcen für eine aufwendige Bilderkennung verschwenden, sondern würde für Prozesse zur Entscheidungsfindung und für Steuerungsprogramme eingesetzt. Das würde nicht nur die Hardwarekosten senken, sondern könnte auch den Stromverbrauch verringern, weil das maschinelle Sehen in die Cloud ausgelagert wird.

Auch bei Smartphones sind viele Apps denkbar, die Computer Vision nutzen - zum Beispiel solche, die eine Texterkennung sowohl in gedruckten Zeitungen als auch bei handschriftlichen Texten durchführen und die Texte dann übersetzen.

Manche Cloud-Anbieter bieten zudem Services an, die sich selbst trainieren lassen, um spezielle Objekte erkennen zu können.

KI-Training ist komplex und zeitaufwendig

Golem Akademie
  1. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    16.–17. Dezember 2021, virtuell
  2. Netzwerktechnik Kompaktkurs: virtueller Fünf-Tage-Workshop
    6.–10. Dezember 2021, virtuell
Weitere IT-Trainings

Das Entwickeln und Trainieren von Computer-Vision-Modellen ist aufwendig. Normalerweise sind dafür spezielle Kenntnisse in Statistik, Computer-Vision-Algorithmen und bestimmten Bibliotheken sowie Programmiersprachen nötig - bei den Services mancher Cloud-Anbieter gilt das aber nicht mehr. Sie stellen ergonomische Benutzeroberflächen zur Verfügung, so dass zum Beispiel auch ein Vogelexperte, der zwar Namen von Vogelunterarten Fotos zuordnen kann, aber keine Programmiersprache beherrscht, Computer-Vision-Services trainieren könnte. Er benötigt lediglich Programmierkenntnisse, um den Service mittels APIs beziehungsweise Webservices an die eigenen Anwendungen anzubinden.

Um ein Modell zu trainieren, sind Fotos nötig und die zugehörigen Kennzeichnungen (Labeling). Außerdem braucht man weitere Fotos, um zu testen, ob und wie gut der Computer gelernt hat und mit welcher Trefferrate er die Objekte richtig erkennt.

Beispielsweise ließen sich Fotos von optisch sichtbaren Schäden an mechanischen Bauteilen verwenden, um Erosion, Brüche, Risse oder Durchbrenner zu klassifizieren. Menschliche Gutachter könnten entlastet werden, indem der Computer die erste Bewertung vornimmt. Prinzipiell dienen trainierbare Computer-Vision-Services dazu, spezielle Objekte zu erkennen. Zum Beispiel gibt es wahrscheinlich kaum einen fertigen Service, der spezielle Unterarten von Vögeln bestimmen kann. Ihn müsste der Nutzer trainieren, ihm also beibringen, wie er diese Arten erkennen kann. Je mehr Fotos dazu verwendet werden, desto wahrscheinlicher ist es, dass die Vögel erkannt werden.

Es gibt einen großen Unterschied zu den meist deterministischen, klassischen Algorithmen, die Programmierer kennen und von denen sie eindeutige Ergebnisse erwarten. Denn das Ergebnis eines Trainings führt nie zu Trefferraten von 100 Prozent.

Bevor wir zum Vergleich der einzelnen Anbieter kommen, kurz ein paar Grundlagen zum maschinellen Sehen. Man muss sie nicht im Detail verstehen, sie sind jedoch wichtig, um einige zentrale Aspekte von Computer Vision einordnen zu können. So ist es zum Beispiel wichtig zu wissen, was in Dokumentationen und Anwenderoberflächen häufig auftauchende Begriffe wie Trainieren, Muster (Patterns), Deep Learning, CNNs und Wahrscheinlichkeit bedeuten. Auch bei der Einschätzung, welchen Aufwand ein eigenes Modell und das Training des Modells bedeuten können, sollen die Grundlagen helfen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Computer Vision: Mehr Durchblick beim maschinellen SehenWie funktioniert maschinelles Sehen? 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8. 7
  9. 8
  10.  


Aktuell auf der Startseite von Golem.de
Kanadische Polizei
Diebe nutzen Apples Airtags zum Tracking von Luxuswagen

Autodiebe in Kanada nutzen offenbar Apples Airtags, um Fahrzeuge heimlich zu orten.

Kanadische Polizei: Diebe nutzen Apples Airtags zum Tracking von Luxuswagen
Artikel
  1. Blender Foundation: Blender 3.0 ist da
    Blender Foundation
    Blender 3.0 ist da

    Die freie 3D-Software Blender bekommt ein Update - wir haben es uns angesehen.
    Von Martin Wolf

  2. 4 Motoren und 4-Rad-Lenkung: Tesla aktualisiert Cybertruck
    4 Motoren und 4-Rad-Lenkung
    Tesla aktualisiert Cybertruck

    Tesla-Chef Elon Musk hat einige Änderungen am Cybertruck angekündigt. Der elektrische Pick-up-Truck wird mit vier Motoren ausgerüstet.

  3. DSIRF: Hackerbehörde Zitis prüft österreichischen Staatstrojaner
    DSIRF
    Hackerbehörde Zitis prüft österreichischen Staatstrojaner

    Deutsche Behörden sind mit mehreren Staatstrojaner-Herstellern im Gespräch. Nun ist ein weiterer mit Sitz in Wien bekanntgeworden.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Saturn-Advent: SanDisk Ultra 3D 1 TB 77€ • KFA2 Geforce RTX 3070 OC 8GB 1.019€ • Alternate (u. a. AKRacing Core SX 269,98€) • Sharkoon PureWriter RGB 44,90€ • Corsair K70 RGB MK.2 139,99€ • 2x Canton Plus GX.3 49€ • Gaming-Monitore günstiger (u. a. Samsung G3 27" 144Hz 219€) [Werbung]
    •  /