Klein und leistungsfähig: Microsofts freies Phi 3.5 überholt andere KI-Modelle
Mit Phi 3 hat Microsoft im April 2024 ein großes Sprachmodell (Large Language Model, LLM) vorgestellt, dessen Miniversion mit 3,8 Milliarden Parametern deutlich kompakter ist als andere aktuelle Modelle wie Llama 3 (8 Milliarden Parameter) oder die Kompaktversionen von Gemini und GPT-4o. Mit Phi 3.5 Mini wurde nun eine verbesserte Version veröffentlicht. Dafür wurde das bisherige Modell nachtrainiert.
Verbessert hat sich Phi insbesondere bei mathematischen Aufgaben sowie beim Sprachverständnis. Hier zeigen von Microsoft veröffentlichte Daten eine teils deutlich gestiegene Leistung für Arabisch, Chinesisch, Niederländisch und Russisch. Auch eine Reihe von Programmiersprachen beherrscht Phi. Aufgrund der geringen Parameteranzahl bietet sich das Modell für mobile Geräte an – Microsoft demonstrierte eine quantisierte (g+) Version bereits auf einem iPhone.
Gegen kommerzielle Modelle wie Gemini 1.5 Flash oder OpenAIs GPT-4o mini kann sich Phi 3.5 allerdings nur in wenigen Benchmarks, wie beim Zusammenfassen von Texten, behaupten. Hier profitiert Microsofts Modell von einem mit 128k Tokens verhältnismäßig großen Kontext. Der Vorteil der beiden kommerziellen Modelle dürfte im Training liegen: Beide wurden mittels sogenannter Wissensdestillation (Knowledge Destillation)(öffnet im neuen Fenster) aus komplexeren Modellen abgeleitet.
Neue Variante mit 16 Experten
Microsoft stellt das trainierte Modell kostenfrei unter einer modifizierten MIT-Lizenz bereit. Es kann damit kommerziell genutzt werden und auf eigener Hardware laufen. Möglichkeiten zur Anpassung an eigene Bedürfnisse durch Nachtrainieren bieten OpenAI und Google für ihre Modelle ebenfalls an.
Neben der Basisversion Mini Instruct(öffnet im neuen Fenster) bietet Microsoft über Huggingface, Ollama und Azure noch eine Multiexperten-(öffnet im neuen Fenster) ( Mixture-of-Experts(öffnet im neuen Fenster) , MoE) und Vision-Variante(öffnet im neuen Fenster) an.
Die MoE-Variante kommt mit Phi 3.5 neu hinzu, sie besteht aus 16 separaten Phi-3.5-Mini-Instanzen. Die sind jeweils für spezifische Aufgaben trainiert, was die Rechenleistung im Vergleich zu einem einzigen großen Modell deutlich reduzieren soll. Sie kann sich in den gezeigten Benchmarks allerdings kaum von der Basisversion absetzen – trotz fast 50 Prozent mehr Trainings-Tokens und mehr als doppelt so langer Trainingsdauer. Die Vision-Variante kann Einzelbilder und Videos verarbeiten und ist mit 4,15 Milliarden Parametern etwas komplexer.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



