Machine Learning: KI von Meta kann Bilder komplett segmentieren
Die automatische Erkennung einzelner Objekte in Bildern gerät schnell an Grenzen. Ein KI-Modell von Meta soll das revolutionieren.

Das KI-Forschungsteam des Meta-Konzerns hat das Segment Anything Model (SAM) vorgestellt. Damit soll es möglich sein, Bilder vollständig in ihre Einzelteile zu zerlegen und damit sämtliche darin enthaltenen Objekte erkennen zu können. Zusätzlich zu dem Modell stellt das Unternehmen auch einen annotierten Datensatz zum Training bereit.
Das Team schreibt in der Ankündigung: "Die Segmentierung – die Identifizierung von Bildpixeln, die zu einem Objekt gehören – ist eine Kernaufgabe der Bilderkennung (...). Die Erstellung eines präzisen Segmentierungsmodells für bestimmte Aufgaben erfordert jedoch in der Regel hochspezialisierte Arbeit von technischen Experten mit Zugang zu einer KI-Trainingsinfrastruktur und großen Mengen sorgfältig kommentierter Daten aus dem betreffenden Bereich."
Mit Segment Anything sollen diese spezialisierten Aufgabenbereiche jedoch überwunden werden können. Dazu heißt es: "Die Verringerung des Bedarfs an aufgabenspezifischem Modellierungs-Know-how, an Trainingscomputern und an benutzerdefinierten Datenkommentaren für die Bildsegmentierung ist das Kernstück des Segment Anything Projekts." Die von Meta genutzten Daten sollen entsprechend breite Bereiche abbilden und das generalisierte Modell soll sich dennoch für spezifische Aufgaben eignen.
Grundlage dafür sei, dass das Modell die Grundidee davon gelernt habe, was einzelne Objekte sind und dafür entsprechende Masken erzeugen könne. Das gelte sowohl für Bilder als auch für Videos und vor allem für Objekte, die das Modell noch nicht aus seinen Trainingsdaten kennt. SAM soll also generell einsetzbar sein, ohne neu trainiert werden zu müssen. Sinnvoll sei das nicht nur für die Bearbeitung von Bildern wie etwa dem Ausschneiden. Vielmehr könnte das Modell die Grundlage für ein multimodales Modell werden, das mehrere Aufgaben verknüpfen und so Bilder und Texte einer Webseite verstehen könne, heißt es.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Pinguin? Pinguinflügel? Pinguinschnabel? Pinguinauge? etc.
Kommentieren