Machine Learning: KI von Meta kann Bilder komplett segmentieren

Die automatische Erkennung einzelner Objekte in Bildern gerät schnell an Grenzen. Ein KI-Modell von Meta soll das revolutionieren.

Artikel veröffentlicht am ,
Das KI-Modell SAM von Meta soll Objekte in Bildern erkennen können.
Das KI-Modell SAM von Meta soll Objekte in Bildern erkennen können. (Bild: Meta)

Das KI-Forschungsteam des Meta-Konzerns hat das Segment Anything Model (SAM) vorgestellt. Damit soll es möglich sein, Bilder vollständig in ihre Einzelteile zu zerlegen und damit sämtliche darin enthaltenen Objekte erkennen zu können. Zusätzlich zu dem Modell stellt das Unternehmen auch einen annotierten Datensatz zum Training bereit.

Das Team schreibt in der Ankündigung: "Die Segmentierung – die Identifizierung von Bildpixeln, die zu einem Objekt gehören – ist eine Kernaufgabe der Bilderkennung (...). Die Erstellung eines präzisen Segmentierungsmodells für bestimmte Aufgaben erfordert jedoch in der Regel hochspezialisierte Arbeit von technischen Experten mit Zugang zu einer KI-Trainingsinfrastruktur und großen Mengen sorgfältig kommentierter Daten aus dem betreffenden Bereich."

Mit Segment Anything sollen diese spezialisierten Aufgabenbereiche jedoch überwunden werden können. Dazu heißt es: "Die Verringerung des Bedarfs an aufgabenspezifischem Modellierungs-Know-how, an Trainingscomputern und an benutzerdefinierten Datenkommentaren für die Bildsegmentierung ist das Kernstück des Segment Anything Projekts." Die von Meta genutzten Daten sollen entsprechend breite Bereiche abbilden und das generalisierte Modell soll sich dennoch für spezifische Aufgaben eignen.

Grundlage dafür sei, dass das Modell die Grundidee davon gelernt habe, was einzelne Objekte sind und dafür entsprechende Masken erzeugen könne. Das gelte sowohl für Bilder als auch für Videos und vor allem für Objekte, die das Modell noch nicht aus seinen Trainingsdaten kennt. SAM soll also generell einsetzbar sein, ohne neu trainiert werden zu müssen. Sinnvoll sei das nicht nur für die Bearbeitung von Bildern wie etwa dem Ausschneiden. Vielmehr könnte das Modell die Grundlage für ein multimodales Modell werden, das mehrere Aufgaben verknüpfen und so Bilder und Texte einer Webseite verstehen könne, heißt es.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Magnetohydrodynamischer Antrieb
US-Militär lässt lautlosen U-Boot-Antrieb entwickeln

Bislang war magnetohydrodynamischer Antrieb der Fiktion vorbehalten. Dank Fortschritten in der Akku- und Fusionstechnik soll sich das ändern.

Magnetohydrodynamischer Antrieb: US-Militär lässt lautlosen U-Boot-Antrieb entwickeln
Artikel
  1. KI-Bildgenerator: Diese Kamera generiert, statt zu fotografieren
    KI-Bildgenerator
    Diese Kamera generiert, statt zu fotografieren

    Ein Bastler hat eine KI-Kamera ohne Objektiv gebaut. Paragraphica erzeugt Schnappschüsse mit einem Raspberry Pi und Stable Diffusion.

  2. Disney und Videostreaming: Über 100 Eigenproduktionen aus Abo von Disney+ entfernt
    Disney und Videostreaming
    Über 100 Eigenproduktionen aus Abo von Disney+ entfernt

    Eigentlich wollte Disney nur etwas mehr als 50 Eigenproduktionen aus Disney+ verschwinden lassen. Nun fehlen deutlich mehr Filme und Serien.

  3. Seekabel: Colt bietet eine europäische Verbindung in die USA
    Seekabel
    Colt bietet eine europäische Verbindung in die USA

    Colt bringt eine neue Seekabelverbindung von Europa in die USA, die stärker in europäischer Hand ist. Statt in New York landet man in New Jersey. Doch Google und Facebook sind dabei.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Roccat bis -50% • AVM Modems & Repeater bis -36% • MindStar: 13 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ [Werbung]
    •  /