LLMs: Meta stellt Llama 3.2 mit Text- und Bildverarbeitung vor

Meta hat ein Update für seine LLM-Familie Llama(öffnet im neuen Fenster) vorgestellt. Die Llama 3.2-Reihe umfasst 11B- und 90B-Vision-Modelle, die sowohl Text als auch Bilder verarbeiten können. Diese Modelle sollen mit Closed-Source-Alternativen bei der Bilderkennung und beim visuellen Verständnis konkurrieren können, behauptet Meta.
Diese LLMs ermöglichen, Texte zu erkennen, Diagramme zu analysieren, Karten zu interpretieren oder beschreibende Texte für Bilder zu generieren.
Für Entwickler, die sich auf textbasierte Anwendungen konzentrieren, hat Meta 1B- und 3B-Modelle eingeführt, die eine Kontextlänge von 128K-Token unterstützen und auch auf Mobilgeräten laufen können. Meta hat mit Hardware-Partnern wie Qualcomm, MediaTek und Arm zusammengearbeitet, um die Modelle für mobile System-on-Chip zu optimieren.
Auch die leichtgewichtigen 1B- und 3B-Modelle sollen es erlauben, mehrsprachige Text zu generieren. Sie sollen Grundlage für KI-Assistenten bilden, die Nachrichten zusammenfassen, Bildschirm-Elemente erkennen und mit Kalenderanwendungen interagieren können, wobei die Daten auf dem Gerät des Benutzers verbleiben.
Erweiterung der KI-Fähigkeiten und des KI-Ökosystems
Zusätzlich zu den neuen Modellen führt Meta den Llama Stack(öffnet im neuen Fenster) ein, eine Reihe von Tools und APIs, die den Entwicklungsprozess für KI-Anwendungen vereinfachen sollen. Dazu gehören Distributionen für verschiedene Umgebungen. Meta hat sich nach eigenen Angaben mit AWS, Databricks und Dell zusammengetan, um Llama Stack-Distributionen für Unternehmenskunden zu erstellen.
Wer auf Nummer sicher gehen will, dass die Nutzer die KIs nicht mit problematischen Bildern und Texten konfrontieren, soll nach Ansicht von Meta die speziell dafür entwickelte Llama Guard 3 11B Vision verwenden. Es soll problematische Text- und Bildeingaben oder -ausgaben erkennen und filtern. Auch ein kleineres Llama Guard 3 1B-Modell für den Einsatz in mobilen Umgebungen wurde präsentiert.
Alle Llama 3.2-Modelle werden auf Meta(öffnet im neuen Fenster) und Hugging Face(öffnet im neuen Fenster) sowie über verschiedene Partnerplattformen zum Download zur Verfügung stehen.



