Multimodal: MiniGPT-4 verbindet KI mit Bild und Sprache
Die KI MiniGPT-4 ist in der Lage, komplexe visuell-sprachliche Aufgaben zu erfüllen. Eine kostenlose Demo steht zum Testen bereit.

MiniGPT-4 ist nicht mit ChatGPT zu verwechseln: Das Open-Source-Modell kann detaillierte Beschreibungen aus Bilduploads erstellen, Rezepte auf Basis von Fotos entwickeln und soll sogar Webseiten aus handgemalten Skizzen erstellen. Bilder generieren kann es nicht.
MiniGPT-4 füllt derzeit noch eine Lücke aus, denn andere Large Language Models (LLMs) verarbeiten bisher keine Bilder und Sprache, auch wenn OpenAI ein multimodales Modell für ChatGPT-4 angekündigt hat.
Insofern zeigt MiniGPT-4 schon einmal, was möglich wird, wenn Chatbots auch sehen können. Die Forscher, die MiniGPT-4 vorstellten, nutzten Vicuna als Sprachdecoder und das BLIP-2 Vision Language Model als visuellen Decoder.
Vicuna-13B LLM basiert auf dem Large Language Model LLaMA von Meta AI, das allerdings nicht Open Source ist. Insofern ist es etwas übertrieben, von einem frei verfügbaren oder gar kommerziell nutzbaren System zu sprechen. Im Hintergrund wurde die GPT-4-API zum Trainieren genutzt.
MiniGPT-4 erklärt Witze
In einem kurzen Test von Golem.de zeigte sich, dass MiniGPT-4 enorm leistungsfähig ist, sogar Bildwitze und Memes interpretieren und erklären kann, auf Basis von Fotos zubereiteter Mahlzeiten gelegentlich sogar ein passendes Basisrezept erstellen kann und einige Möglichkeiten bietet, besser mit Webdesignern zusammenzuarbeiten. Richtigen HTML- und CSS-Code konnten wir dem System aber bislang nicht entlocken.
MiniGPT-4 erstellte auch sehr detaillierte Bildbeschreibungen, mit denen beispielsweise neue Bilder innerhalb einer generativen KI wie Midjourney erzeugt werden können. Sicherlich wird eine multimodale KI auch gute Dienste bei Alternativtexten für Bilder beim Webdesign liefern können.
Das Forscherteam veröffentlichte den Code und zahlreiche Demos sowie die Trainingsanleitung auf Github und will auch eine Version des Modells anbieten, für die eine einzelne Nvidia-3090-Grafikkarte benötigt wird.
Besonders interessant ist die Demo von MiniGPT-4, die kostenlos ausprobiert werden kann.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
So wie alle gerade dabei sind (multimodale) LLMs in ihre Produkte zu implementieren habe...
Kleine Korrektur: miniGPT4 ist nicht das einzige oder erste verfügbare multimodale text...
Kommentieren