Multimodal: Microsofts KI-Modell Kosmos-1 versteht Bilder und Texte

Microsoft zeigt Kosmos-1, ein KI-Modell, das visuelle Rätsel lösen sowie Bilder analysieren und natürlichsprachliche Anweisungen verstehen kann.

Artikel veröffentlicht am ,
Futuristischer Roboter mit Gesicht (Symbolbild)
Futuristischer Roboter mit Gesicht (Symbolbild) (Bild: Envato)

Forscher von Microsoft haben mit Kosmos-1 ein multimodales KI-Modell vorgestellt, das laut einem Bericht von Ars Technica Bilder und Texte erkennt und natürlichsprachliche Anweisungen versteht. Die Forscher sind der Ansicht, dass multimodale KI verschiedene Eingabemethoden wie Text, Audio, Bilder und Video integrieren müsse. Das sei ein wichtiger Schritt zum Aufbau künstlicher allgemeiner Intelligenz (AGI), die allgemeine Aufgaben auf dem Niveau von Menschen ausführen könne. Auch OpenAI verfolgt diesen Ansatz.

"Als grundlegender Bestandteil der Intelligenz ist die multimodale Wahrnehmung eine Notwendigkeit, um eine künstliche allgemeine Intelligenz zu erreichen, und zwar im Hinblick auf den Wissenserwerb und den Bezug zur realen Welt", schreiben die Forscher in ihrem wissenschaftlichen Papier Language Is Not All You Need: Aligning Perception with Language Models.

Beispiele aus dem Kosmos-1-Papier zeigen das Modell bei der Analyse von Bildern und der Beantwortung von Fragen dazu, beim Lesen von Text aus einem Bild, beim Generieren von Bildunterschriften und bei der Durchführung eines bildbasierten IQ-Tests.

Kosmos-1 ist nach Informationen von Ars Technica ein Microsoft-Projekt und hat nichts mit OpenAI zu tun. An OpenAI ist Microsoft beteiligt.

Die Forscher nennen das System ein multimodales großes Sprachmodell (MLLM). Trainiert wurde Kosmos-1 mit Daten aus dem Internet, darunter Auszüge aus The Pile, einem 800 GByte großen englischen Text und der Textsammlung Common Crawl. Nach dem Training wurden die Fähigkeiten von Kosmos-1 in verschiedenen Tests evaluiert. In vielen dieser Tests übertraf Kosmos-1 laut Microsoft die aktuellen State-of-the-Art-Modelle.

Künftig könnten KI-Modelle jede Form von Medien wahrnehmen und darauf reagieren, was ihre Fähigkeiten deutlich erhöhe, erklärten die Forscher. Microsoft plant, Kosmos-1 für Entwickler verfügbar zu machen. Die Github-Seite, auf die das Papier verweist, enthält dazu noch nichts.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
O.MG Cable im Test
Außen USB-Kabel, innen Hackertool

Das O.MG Cable kommt wie ein Standard-USB-Kabel daher. Dass es auch ein Hackertool ist, mit dem sich gruselige Dinge anstellen lassen, sieht man ihm nicht an. Obendrein ist es auch noch leicht zu bedienen.
Ein Test von Moritz Tremmel

O.MG Cable im Test: Außen USB-Kabel, innen Hackertool
Artikel
  1. Entlassungen: Vodafone Deutschland will nicht mehr giga sein
    Entlassungen
    Vodafone Deutschland will nicht mehr giga sein

    Vodafone hat den Stellenabbau in Deutschland bestätigt. Ziel sei ein Unternehmen, dem man wieder vertrauen könne, sagt der neue Chef.

  2. ChatGPT: AI-Chatbots als Hardware-Kaufberater
    ChatGPT
    AI-Chatbots als Hardware-Kaufberater

    Kann uns ChatGPT beim PC-Kauf helfen? Die kurze Antwort: Jein. Wir zeigen Möglichkeiten und Grenzen des Chatbots und geben Tipps, wie man ihn am besten nutzt.
    Eine Anleitung von Martin Böckmann

  3. Fit werden für die Cloud - mit Kubernetes und Ansible
     
    Fit werden für die Cloud - mit Kubernetes und Ansible

    Kaum ein Unternehmen kommt künftig ohne Cloud aus. In drei Onlinekursen der Golem Akademie erfahren Teilnehmer die Grundlagen klassischer Cloudthemen.
    Sponsored Post von Golem Karrierewelt

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Nur noch heute: Amazon Frühlingsangebote • MindStar: MSI RTX 4080 1.249€, Powercolor RX 7900 XTX OC 999€ • Fernseher Samsung & Co. bis -43% • Monitore bis -50% • Bosch Prof. bis -59% • Windows Week • Logitech bis -49% • Alexa-Sale bei Amazon • 3 Spiele kaufen, 2 zahlen [Werbung]
    •  /