LLMs waren gestern, jetzt kommen LMMs: Forscher von Microsoft haben untersucht, was das multimodale KI -Modell GPT-4V von OpenAI kann. Die Ergebnisse sind beeindruckend.
Das KI-Modell GPT-4V ergänzt ChatGPT um die Fähigkeit zu sehen.Bild:
PublicDomainPictures / Pixabay License
Große Sprachmodelle - auf Englisch Large Language Models oder LLMs genannt - waren einer der wichtigsten Trends des Jahres 2023. Nun sieht es so aus, als würde sich die Welt schon bald an ein neues Akronym gewöhnen müssen: Large Multimodal Models oder LMMs sind Algorithmen der künstlichen Intelligenz, die auf Mischungen aus Texten, Bildern, Videos, Sprache, Musik oder anderen Arten von Daten trainiert wurden. Wie mächtig diese sind, aber auch welche Limitationen es noch gibt, zeigen Microsoft-Forscher in einer kürzlich erschienenen Veröffentlichung zu GPT-4V (PDF)(öffnet im neuen Fenster) .
Das multimodale Modell GPT-4V wurde jüngst von OpenAI veröffentlicht(öffnet im neuen Fenster) . Das V steht dabei für Vision, denn das Modell hat anhand eines enormen Datensatzes aus Texten und Bildern gelernt, visuelle und sprachliche Informationen zu kombinieren. Es handelt sich um einen Nachfolger des reinen Sprachmodells GPT-3.5, besser bekannt unter dem Namen ChatGPT(öffnet im neuen Fenster) . Wie sein Vorgänger kann GPT-4V Aufgaben nur durch Erzeugung von Texten lösen; es kann nicht eigenständig Bilder oder Grafiken erstellen.
Momentan können Nutzer mit kostenpflichtigem ChatGPT-Plus-Abo das multimodale Modell in der ChatGPT-Smartphone-App oder auf der OpenAI-Internetseite verwenden. Analog zu bisherigen Veröffentlichungen neuer OpenAI-Modelle darf man davon ausgehen, dass in den kommenden Monaten auch eine Enterprise-Version mit API-Zugriff verfügbar sein wird, um GPT-4V in eigene Softwareanwendungen einzubinden.
Ein Spross der ChatGPT-Familie
Laut der von OpenAI veröffentlichten sogenannten System Card wurde das Training von GPT-4V bereits im Jahr 2022 abgeschlossen. Die Technologie entspricht der des schon im März 2023 veröffentlichten reinen Sprachmodells GPT-4. Auch bei GPT-4V handelt es sich also um ein Transformer-Modell, dessen grundlegende Funktionsweise wir Anfang des Jahres in einem Deep Dive erklärt haben.
Eine faszinierende Eigenschaft der Transformer-Architektur besteht darin, dass sich mit ihrer Hilfe sehr mächtige Modelle sowohl für Textdaten als auch für Bilder erzeugen lassen. Wie man Bilder zusammen mit Text in ein solches Modell einfließen lassen kann, haben wir in diesem Artikel zum Thema Bildgeneratoren beschrieben.
In ihrer neuen Veröffentlichung(öffnet im neuen Fenster) demonstrieren KI-Experten von Microsoft die Fähigkeiten von GPT-4V anhand unterschiedlicher Beispiele, beschreiben einige Limitationen und untersuchen verschiedene Prompting-Strategien. Als Prompts bezeichnet man die Nutzeranfragen an ein Sprachmodell und ihre genaue Formulierung kann großen Einfluss auf die Qualität der Ergebnisse haben.
Ähnlich wie das im März von Microsoft Research publizierte Paper Sparks of AGI(öffnet im neuen Fenster) erscheint die aktuelle Veröffentlichung zwar im Stile eines wissenschaftlichen Fachartikels, erklärt aber nicht die technische Funktionsweise des Algorithmus und bewertet dessen Leistungsfähigkeit auch eher anekdotisch als systematisch.
Dieses Vorgehen bietet durchaus Anlass zur Kritik, kann man doch den Autoren die Tarnung von Marketinginhalten mit dem Deckmantel der Wissenschaft vorwerfen. Allerdings sind die vorgestellten Ergebnisse größtenteils leicht überprüfbar und von so hoher praktischer Relevanz, dass sie Beachtung verdienen.
Microsoft zeigt Anwendungsbeispiele
Die grundlegende Eigenschaft von GPT-4V ist sein umfangreiches Verständnis von Texten und Bildern zusammen mit der Fähigkeit, Aufgaben durch eine Kombination beider Domänen zu lösen. Neben sprachlichen Leistungen, wie sie von ChatGPT bekannt sind, ist GPT-4V in der Lage, visuelle Szenen zu verarbeiten und darin unterschiedlichste Objekte, Personen, Symbole oder Schriften zu erkennen. Dies zeigt es am klarsten, wenn es äußerst detailreiche und differenzierte Beschreibungen zu Bildern schreibt (siehe Bild 1).
Sprache und Bilder gehen Hand in Hand
Sprachliche und visuelle Fähigkeiten greifen dabei nahtlos ineinander und werden vom Modell flexibel kombiniert. So lässt sich der Inhalt eines Bildes problemlos in unterschiedlichen Sprachen oder Stilen beschreiben. Pfeile, Umrandungen oder andere Markierungen werden von GPT-4V normalerweise gut erkannt und sinnvoll interpretiert.
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Auch Schrift, die in einem Bild zu sehen ist, wird von GPT-4V wie ein Text verstanden, und das Modell löst auch Aufgaben, die nur in Form eines Bildes mit darin eingebetteten Texten präsentiert werden. Ein Foto einer Mathematikaufgabe aus einem Schulbuch reicht zum Beispiel aus, um von GPT-4V einen Lösungsvorschlag zu bekommen (siehe Bilder 2 und 3).
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Nutzer können dabei in ihrer Eingabe mehrere Textblöcke und Bilder beliebig miteinander kombinieren. GPT-4V verbindet die Informationen darin auf sinnvolle Weise, um eine gestellte Aufgabe zu lösen. In einem Beispiel aus dem Microsoft-Paper werden dem Modell zwei Fotos gegeben, von denen das erste einen Tisch mit Bierflaschen und das zweite eine Speisekarte zeigt. GPT-4V ist in der Lage, daraus den Gesamtpreis für die Bewirtung zu berechnen (siehe Bild 4). Ebenso ist es möglich, dem Modell im Prompt mehrere Personen mit je einem Porträtfoto vorzustellen und diese dann in einem anderen Foto erkennen zu lassen.
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Erstaunlich ist die Kapazität des multimodalen Modells, auch große Textpassagen aus Grafikdateien zu entnehmen und inhaltlich zu verarbeiten. So gelingt es zum Beispiel, aus fünf hochgeladenen Seiten eines wissenschaftlichen Fachartikels eine Zusammenfassung mit nur wenigen Ungenauigkeiten zu erstellen.
Emotionale Wirkung von Bildern
Die Microsoft-Forscher untersuchen in ihrer Arbeit auch an verschiedenen Beispielen, wie gut GPT-4V Aufgaben mit emotionalem Bezug löst. Sie zeigen, dass die von ihnen getestete Version des Modells den Gemütszustand von Personen anhand eines Porträtfotos einschätzen kann (siehe Bild 5). Die aktuell bei OpenAI öffentlich zugängliche Version des Modells weigert sich allerdings, derartige Informationen über Einzelpersonen zu erzeugen, um einer möglichen Gefährdung von Persönlichkeitsrechten vorzubeugen.
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Umgekehrt ist GPT-4V auch in der Lage abzuschätzen, welche Gefühle ein Bild bei Menschen vermutlich auslösen würde. Ein Foto von einem Sonnenuntergang am Strand wird als beruhigend oder inspirierend beschrieben. Die dunklen Schatten eines Treppengeländers in einem alten Haus rufen laut dem Modell hingegen Gefühle von Furcht, Grusel und vielleicht Neugier hervor.
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Auch die ästhetischen Qualitäten eines Bildes kann GPT-4V einschätzen. Es erkennt zum Beispiel, dass manche Häuser von den meisten Menschen als schöner empfunden werden als andere, und es kann differenziert erklären, warum bestimmte Perspektiven auf die Hochhäuser einer Großstadt einen besonderen Reiz haben. Bei allen beeindruckenden Leistungen des multimodalen GPT-Modells zeigen sich natürlich auch gewisse Limitationen.
KI ist, wenn man trotzdem lacht
Menschlichen Humor zu verstehen, ist für künstliche Intelligenz eine ganz besondere Herausforderung. Selbst für Menschen ist es ja nicht leicht zu erklären, was genau an einer Situation, einem Text oder einem Bild komisch ist, und das Verständnis von Humor unterscheidet sich stark von einer Person zur anderen.
Bittet man GPT-4V, die Komik eines lustigen Bildes oder Memes zu erläutern, erhält man meistens eine recht genaue Beschreibung des Bildinhaltes und eine zumindest einigermaßen plausible Erklärung der Pointe, auch wenn das Bild nachweislich nicht in den Trainingsdaten enthalten war. Allerdings treffen die Beschreibungen der Komik selten genau ins Schwarze, falls man zum Verständnis des Witzes ein wenig um die Ecke denken muss (siehe Bild 6).
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Schwierigkeiten mit räumlichen Zusammenhängen
Eine weitere Limitation zeigt sich bei räumlichen Zusammenhängen. So erkennt und beschreibt es zwar Objekte sehr zuverlässig, tut sich jedoch häufig schwer damit, die räumliche Beziehung zwischen ihnen zu verstehen.
Diese Einschränkung zieht sich wie ein roter Faden durch unterschiedliche Anwendungsbeispiele: So fällt es GPT-4V überraschend schwer, die Position einer Tachometer-Nadel korrekt abzulesen (siehe Bild 7). Auch bei etwas komplexeren geometrischen Figuren irrt sich das Modell häufig in der Beziehung zwischen den Objekten: In Bild 3 verwechselt es die Diagonale des Quadrats mit der markierten Linie und in Bild 6 will es bei mehreren Versuchen zwei Schleifen an den Wellenlinien erkannt haben, obwohl es dort offensichtlich nur eine gibt.
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Ein weiteres Beispiel, an dem sich diese Einschränkung deutlich zeigt, ist die mangelhafte Fähigkeit von GPT-4V, Grafiken korrekt wiederzugeben. In dem Paper Sparks of AGI(öffnet im neuen Fenster) hatte Microsoft Research ja gezeigt, dass das reine Textmodell GPT-4 überraschenderweise über eine Art "visuelles Vorstellungsvermögen" verfügt. Dies demonstrierten die Forscher unter anderem dadurch, dass sie das Sprachmodell ein Skript-Programm erzeugen ließen, das bei Ausführung in einem Latex-Compiler ein einfaches Einhorn zeichnet. Übergibt man nun GPT-4V eine Grafikdatei mit ebendiesem Einhorn und fordert es auf, den entsprechenden Latex-Code zu erzeugen, dann ist das Ergebnis eher ernüchternd (siehe Bild 8).
Bild 1/8: GPT-4V kann Szenen beeindruckend detailliert interpretieren und beschreiben. Kleinere Fehler sind dabei allerdings nicht ungewöhnlich. (Bild: Helmut Linde)
Bild 2/8: GPT-4V kann eine Aufgabe direkt aus einem Bild ableiten, erkennt dabei auch Handgeschriebenes zuverlässig und versteht Markierungen wie Pfeile oder Umrandungen. (Bild: Helmut Linde)
Bild 3/8: Beim Verarbeiten räumlicher Zusammenhänge unterlaufen dem Modell häufig Fehler. Die hier dargestellte relativ einfache Geometrie-Aufgabe wird nicht korrekt gelöst. (Bild: Helmut Linde)
Bild 4/8: GPT-4V verbindet Informationen aus mehreren Bildern, um Aufgaben zu lösen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 5/8: Die von Microsoft getestete Version von GPT-4V erkennt Mimik und Emotionen. In der veröffentlichten Version sind diese und ähnliche Funktionen gesperrt. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 6/8: GPT-4V kann Erklärungen zu bislang unveröffentlichten Memes erzeugen, trifft die Pointe des Witzes aber nicht immer ganz genau. Im Beispiel erkennt das Modell zwar, dass zwei quantenmechanische Teilchen als sogenannte Feynman-Diagramme dargestellt sind, merkt aber nicht, dass sich das linke Photon kurzzeitig in ein virtuelles Paar aus Elektron und Positron verwandelt hatte und ihm damit etwas Komisches passiert ist. (Bild: Helmut Linde)
Bild 7/8: GPT-4V tut sich überraschend schwer damit, einen Tachometer korrekt abzulesen. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
Bild 8/8: GPT-4V ist nicht in der Lage, ein Bild zu reproduzieren, das ursprünglich von dem Sprachmodell GPT-4 selbst erzeugt wude. (Bild: Microsoft Corporation: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision))
"Du bist nun Graf Zahl!"
In dieselbe Richtung geht die Beobachtung, dass sich GPT-4V mit dem Zählen von Objekten schwer tut. Schon bei einer einstelligen Anzahl gut erkennbarer Objekte verzählt sich das Modell gelegentlich. Kurioserweise lässt sich dieses Problem abmildern, wenn man dem Modell im Prompt eine Ermutigung wie "Du bist ein Experte im Zählen von Gegenständen" mitgibt.
Generell weisen die Autoren des Microsoft-Papiers darauf hin, dass sich die genannten Limitationen des Modells oft durch geschicktes Prompting umgehen lassen. Dies zeigen sie u.a. an mehreren Beispielen, bei denen das Modell am sogenannten zero-shot Learning - also dem Ausführen einer direkten Arbeitsanweisung ohne Kontext - scheitert. Stellt man der Aufgabenstellung jedoch ein oder zwei ähnliche Beispiele mit entsprechenden Musterlösungen voraus - sogenanntes one-shot bzw. two-shot Learning - verbessern sich die Ergebnisse spürbar.
Viele neue Anwendungsmöglichkeiten
Es ist absehbar, dass die vielen neuen Fähigkeiten multimodaler KI-Modelle eine große Zahl innovativer Anwendungen ermöglichen werden. Einige Beispiele, die im Paper demonstriert werden, sind die automatische Schadensbeurteilung für Autoversicherungen, optische Abrechnung an der Supermarktkasse oder die KI-basierte Warnung vor Qualitäts- oder Sicherheitsproblemen in der Produktion.
Neben solch inkrementellen Verbesserungen existierender Geschäftsprozesse könnten multimodale Modelle aber auch neuen, disruptiven Technologien zum Durchbruch verhelfen. In ihrem Artikel zeigen die Microsoft-Forscher, wie GPT-4V anhand einer Sequenz von Fotos den Kühlschrank in einer Wohnung findet. Das KI-Modell schätzt dabei auf jedem Foto aus einem unbekannten Haus ab, wo die Küche bzw. der Kühlschrank wohl zu finden sein könnte, und gibt ein entsprechendes Bewegungskommando zurück. So lässt sich erahnen, wie flexibel und leistungsfähig ein von GPT-4V (oder dessen Nachfolgern) gesteuerter Haushaltsroboter in Zukunft werden könnte.
In Summe setzt sich also der große Trend des Jahres 2023 fort, dass die Lücke zwischen dem technisch Machbaren und dem praktisch Umgesetzten immer weiter auseinanderklafft. Wir dürfen daher vielen neuen Anwendungen gespannt entgegensehen, wenn in den nächsten Jahren die Möglichkeiten der KI zunehmend auch in der Praxis genutzt werden.
Helmut Linde(öffnet im neuen Fenster) leitete verschiedene Data-Science-Teams in deutschen Konzernen und ist nun bei seinem Arbeitgeber für die Digitalisierung von Forschung und Entwicklung verantwortlich. Als Mathematiker und Physiker ist er fasziniert von naturwissenschaftlichen Themen sowie der Anwendung und der Zukunft der künstlichen Intelligenz.