Zum Hauptinhalt Zur Navigation

Machine Learning: KI von Meta kann Bilder komplett segmentieren

Die automatische Erkennung einzelner Objekte in Bildern gerät schnell an Grenzen. Ein KI-Modell von Meta soll das revolutionieren.
/ Sebastian Grüner
1 Kommentare News folgen (öffnet im neuen Fenster)
Das KI-Modell SAM von Meta soll Objekte in Bildern erkennen können. (Bild: Meta)
Das KI-Modell SAM von Meta soll Objekte in Bildern erkennen können. Bild: Meta

Das KI-Forschungsteam des Meta-Konzerns hat das Segment Anything Model (SAM) vorgestellt. Damit soll es möglich sein, Bilder vollständig in ihre Einzelteile zu zerlegen und damit sämtliche darin enthaltenen Objekte erkennen zu können. Zusätzlich zu dem Modell stellt das Unternehmen auch einen annotierten Datensatz zum Training bereit.

Das Team schreibt in der Ankündigung(öffnet im neuen Fenster) : "Die Segmentierung – die Identifizierung von Bildpixeln, die zu einem Objekt gehören – ist eine Kernaufgabe der Bilderkennung (...). Die Erstellung eines präzisen Segmentierungsmodells für bestimmte Aufgaben erfordert jedoch in der Regel hochspezialisierte Arbeit von technischen Experten mit Zugang zu einer KI-Trainingsinfrastruktur und großen Mengen sorgfältig kommentierter Daten aus dem betreffenden Bereich."

Mit Segment Anything sollen diese spezialisierten Aufgabenbereiche jedoch überwunden werden können. Dazu heißt es: "Die Verringerung des Bedarfs an aufgabenspezifischem Modellierungs-Know-how, an Trainingscomputern und an benutzerdefinierten Datenkommentaren für die Bildsegmentierung ist das Kernstück des Segment Anything Projekts." Die von Meta genutzten Daten sollen entsprechend breite Bereiche abbilden und das generalisierte Modell soll sich dennoch für spezifische Aufgaben eignen.

Grundlage dafür sei, dass das Modell die Grundidee davon gelernt habe, was einzelne Objekte sind und dafür entsprechende Masken erzeugen könne. Das gelte sowohl für Bilder als auch für Videos und vor allem für Objekte, die das Modell noch nicht aus seinen Trainingsdaten kennt. SAM soll also generell einsetzbar sein, ohne neu trainiert werden zu müssen. Sinnvoll sei das nicht nur für die Bearbeitung von Bildern wie etwa dem Ausschneiden. Vielmehr könnte das Modell die Grundlage für ein multimodales Modell werden, das mehrere Aufgaben verknüpfen und so Bilder und Texte einer Webseite verstehen könne, heißt es.


Relevante Themen