Zum Hauptinhalt Zur Navigation

OpenAI: API von GPT-4 Turbo um Vision-Fähigkeiten erweitert

OpenAI hat sein GPT-4 -Turbo-Modell mit Vision-Fähigkeiten nun allgemein über seine API zur Verfügung gestellt.
/ Michael Linden
Kommentare News folgen (öffnet im neuen Fenster)
GPT-4 Turbo mit API zum Sehen (Bild: KI-generiert mit Dall-E/Golem.de)
GPT-4 Turbo mit API zum Sehen Bild: KI-generiert mit Dall-E/Golem.de

Die API von OpenAI für GPT-4 Turbo ist um die Vision-Fähigkeiten erweitert worden. So können Entwickler die KI nutzen, um Bilder zu erkennen und zu klassifizieren, wie Venture Beat berichtet.(öffnet im neuen Fenster)

Das GPT-4-Turbo-Modell, das erstmals im November 2023 auf der OpenAI-Entwicklerkonferenz vorgestellt wurde, zeichnet sich durch Merkmale wie schnellere Verarbeitungsgeschwindigkeiten, größere Eingabekontextfenster (bis zu 128.000 Token) und niedrigere Kosten aus. Mit der Hinzufügung der Bilderkennungsfunktion Vision(öffnet im neuen Fenster) , die zusammen mit dem Hochladen von Audiodaten im September 2023 angekündigt wurde, kann das Modell nun Bilder analysieren und daraus Schlussfolgerungen ziehen(öffnet im neuen Fenster) .

Bisher mussten Entwickler getrennte Modelle für Text und Bilder verwenden, doch mit dem neuesten Update kann das Modell mit einem einzigen API-Aufruf beide Modalitäten nahtlos verarbeiten.

Darüber hinaus können Anfragen zur Nutzung der Bilderkennungs- und Analysefähigkeiten des Modells jetzt über das JSON-Format und den Funktionsaufruf erfolgen. Letzteres generiert ein JSON-Code-Snippet, das Entwickler verwenden können, um Aktionen innerhalb ihrer angeschlossenen Anwendungen zu automatisieren, z.B. das Senden von E-Mails, das Posten von Inhalten im Internet oder das Tätigen von Einkäufen. OpenAI empfiehlt jedoch dringend die Implementierung von Bestätigungsabläufen durch den Benutzer, bevor Aktionen in der echten Welt durchgeführt werden.

Anwendungsbeispiele von GPT-4 Turbo mit Vision

Mehrere OpenAI-Kunden nutzen bereits GPT-4 Turbo mit Vision in ihren Anwendungen. Healthify, eine Gesundheits- und Fitness-App, verwendet die Technologie, um Ernährungsanalysen und -empfehlungen auf der Grundlage von Fotos der Mahlzeiten der Nutzer zu erstellen. TLDraw, ein britisches Start-up-Unternehmen, nutzt GPT-4 Turbo mit Vision, um sein virtuelles Whiteboard zu betreiben und die Zeichnungen der Nutzer in Webseiten-Prototypen zu verwandeln.


Relevante Themen