Multimodal: MiniGPT-4 verbindet KI mit Bild und Sprache

Die KI MiniGPT-4 ist in der Lage, komplexe visuell-sprachliche Aufgaben zu erfüllen. Eine kostenlose Demo steht zum Testen bereit.

Artikel veröffentlicht am ,
KI schreibt ein Gedicht über ein Bild.
KI schreibt ein Gedicht über ein Bild. (Bild: MiniGPT-4/Golem.de)

MiniGPT-4 ist nicht mit ChatGPT zu verwechseln: Das Open-Source-Modell kann detaillierte Beschreibungen aus Bilduploads erstellen, Rezepte auf Basis von Fotos entwickeln und soll sogar Webseiten aus handgemalten Skizzen erstellen. Bilder generieren kann es nicht.

MiniGPT-4 füllt derzeit noch eine Lücke aus, denn andere Large Language Models (LLMs) verarbeiten bisher keine Bilder und Sprache, auch wenn OpenAI ein multimodales Modell für ChatGPT-4 angekündigt hat.

Insofern zeigt MiniGPT-4 schon einmal, was möglich wird, wenn Chatbots auch sehen können. Die Forscher, die MiniGPT-4 vorstellten, nutzten Vicuna als Sprachdecoder und das BLIP-2 Vision Language Model als visuellen Decoder.

Vicuna-13B LLM basiert auf dem Large Language Model LLaMA von Meta AI, das allerdings nicht Open Source ist. Insofern ist es etwas übertrieben, von einem frei verfügbaren oder gar kommerziell nutzbaren System zu sprechen. Im Hintergrund wurde die GPT-4-API zum Trainieren genutzt.

MiniGPT-4 erklärt Witze

In einem kurzen Test von Golem.de zeigte sich, dass MiniGPT-4 enorm leistungsfähig ist, sogar Bildwitze und Memes interpretieren und erklären kann, auf Basis von Fotos zubereiteter Mahlzeiten gelegentlich sogar ein passendes Basisrezept erstellen kann und einige Möglichkeiten bietet, besser mit Webdesignern zusammenzuarbeiten. Richtigen HTML- und CSS-Code konnten wir dem System aber bislang nicht entlocken.

MiniGPT-4 erstellte auch sehr detaillierte Bildbeschreibungen, mit denen beispielsweise neue Bilder innerhalb einer generativen KI wie Midjourney erzeugt werden können. Sicherlich wird eine multimodale KI auch gute Dienste bei Alternativtexten für Bilder beim Webdesign liefern können.

Das Forscherteam veröffentlichte den Code und zahlreiche Demos sowie die Trainingsanleitung auf Github und will auch eine Version des Modells anbieten, für die eine einzelne Nvidia-3090-Grafikkarte benötigt wird.

Besonders interessant ist die Demo von MiniGPT-4, die kostenlos ausprobiert werden kann.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Künstliche Intelligenz
So funktionieren KI-Bildgeneratoren

Im Netz wimmelt es mittlerweile von künstlich erzeugten Bildern reitender Astronauten, skateboardfahrender Teddys oder stylish gekleideter Päpste. Aber wie machen Dall-E, Stable Diffusion & Co. das eigentlich?
Von Helmut Linde

Künstliche Intelligenz: So funktionieren KI-Bildgeneratoren
Artikel
  1. Anga Com: Von der Kabelmesse zum spannenden Glasfaser-Branchentreff
    Anga Com
    Von der Kabelmesse zum spannenden Glasfaser-Branchentreff

    Anga Com Die deutsche Kabelnetzbranche will sich nicht zu Docsis 4.0 positionieren. Glasfaser ist das Hauptthema auf der Anga Com gewesen.
    Ein Bericht von Achim Sawall

  2. Apple: iPhone 15 soll mit USB-C und neuem Mute-Button kommen
    Apple
    iPhone 15 soll mit USB-C und neuem Mute-Button kommen

    Erste Dummys der kommenden iPhone-15-Reihe verraten bereits ein paar interessante kleinere Details - der Mute-Button etwa wird ersetzt.

  3. DIY: Bastler entwickelt kleine Makro-Tastatur für unter 3 Euro
    DIY
    Bastler entwickelt kleine Makro-Tastatur für unter 3 Euro

    Maker verteilen gerne Visitenkarten aus Platinen, die beispielsweise leuchten. Toby Chui hat eine preiswerten Makro-Tastatur im Kartenformat entwickelt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: 14 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • Amazon-Geräte für Alexa bis -50% • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ • HyperX Cloud II Headset 62,99€ [Werbung]
    •  /