Multimodal: Microsofts KI-Modell Kosmos-1 versteht Bilder und Texte
Microsoft zeigt Kosmos-1, ein KI-Modell, das visuelle Rätsel lösen sowie Bilder analysieren und natürlichsprachliche Anweisungen verstehen kann.

Forscher von Microsoft haben mit Kosmos-1 ein multimodales KI-Modell vorgestellt, das laut einem Bericht von Ars Technica Bilder und Texte erkennt und natürlichsprachliche Anweisungen versteht. Die Forscher sind der Ansicht, dass multimodale KI verschiedene Eingabemethoden wie Text, Audio, Bilder und Video integrieren müsse. Das sei ein wichtiger Schritt zum Aufbau künstlicher allgemeiner Intelligenz (AGI), die allgemeine Aufgaben auf dem Niveau von Menschen ausführen könne. Auch OpenAI verfolgt diesen Ansatz.
"Als grundlegender Bestandteil der Intelligenz ist die multimodale Wahrnehmung eine Notwendigkeit, um eine künstliche allgemeine Intelligenz zu erreichen, und zwar im Hinblick auf den Wissenserwerb und den Bezug zur realen Welt", schreiben die Forscher in ihrem wissenschaftlichen Papier Language Is Not All You Need: Aligning Perception with Language Models.
Beispiele aus dem Kosmos-1-Papier zeigen das Modell bei der Analyse von Bildern und der Beantwortung von Fragen dazu, beim Lesen von Text aus einem Bild, beim Generieren von Bildunterschriften und bei der Durchführung eines bildbasierten IQ-Tests.
Kosmos-1 ist nach Informationen von Ars Technica ein Microsoft-Projekt und hat nichts mit OpenAI zu tun. An OpenAI ist Microsoft beteiligt.
Die Forscher nennen das System ein multimodales großes Sprachmodell (MLLM). Trainiert wurde Kosmos-1 mit Daten aus dem Internet, darunter Auszüge aus The Pile, einem 800 GByte großen englischen Text und der Textsammlung Common Crawl. Nach dem Training wurden die Fähigkeiten von Kosmos-1 in verschiedenen Tests evaluiert. In vielen dieser Tests übertraf Kosmos-1 laut Microsoft die aktuellen State-of-the-Art-Modelle.
Künftig könnten KI-Modelle jede Form von Medien wahrnehmen und darauf reagieren, was ihre Fähigkeiten deutlich erhöhe, erklärten die Forscher. Microsoft plant, Kosmos-1 für Entwickler verfügbar zu machen. Die Github-Seite, auf die das Papier verweist, enthält dazu noch nichts.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
ist also bald auch obsolet?
Kommentieren