Zum Hauptinhalt Zur Navigation

LLMs: Neuer Ansatz soll KI wesentlich energieeffizienter machen

Das KI -Modell eines Forschungsteams verzichtet auf rechenintensive Matrix-Multiplikationen. So soll sehr viel Energie gespart werden.
/ Oliver Nickel
5 Kommentare News folgen (öffnet im neuen Fenster)
Wenn KI effizienter rechnen kann, dann sinkt auch der Energiebedarf. (Bild: KI-generiert durch Copilot Designer/Dall-E)
Wenn KI effizienter rechnen kann, dann sinkt auch der Energiebedarf. Bild: KI-generiert durch Copilot Designer/Dall-E

Viele Largue Language Models (LLMs) wie GPT-4, Llama, Gemini und Co. verwenden auf dem Basislevel Matrix-Multiplikationen(öffnet im neuen Fenster) . Sie spielen bei wichtigen KI-Teilen, dem Transformieren von Daten, dem Verteilen von Gewichtungen und dem Berechnen von Wahrscheinlichkeitswerten, eine essenzielle Rolle. Das Problem: Die Operationen können rechnerisch aufwendig sein und sind ein Grund für den hohen Energiebedarf von KI-Modellen ( via Ars Technica(öffnet im neuen Fenster) ).

Ein Forschungsteam hat es sich deshalb zur Aufgabe gemacht, ein LLM möglichst ohne Matrix-Multiplikationen zu erstellen. Sie stellen dazu einen einfacheren Self-Attention-Mechanismus vor, der ohne diese rechnerisch aufwendigen Operationen auskommt. Die Matmul-free Linear Gated Recurrent Uni (MRGLU) nutzt stattdessen einfache arithmetische Operationen. "Matmul-freie LMs stellen eine vielversprechende Richtung für die Erstellung von Modellen dar, die sowohl effektiv als auch ressourceneffizient sind." , heißt es im Paper (PDF)(öffnet im neuen Fenster) .

Außerdem hat das Team dieses neue LLM erstellt, das ausschließlich ein Dreiwertesystem bestehend aus -1, 0 und 1 nutzt. So sollen aufwendigere Fließkommazahlen vermieden und das gesamte System effizienter gemacht werden. Das scheint zu funktionieren: Ein erstes Modell konnten die Forscher auf einem speziellen FPGA mit einer Leistungsaufnahme von 13 Watt laufen lassen.

Rechnerisch effizienter

In Benchmarks erreichen die drei erstellten experimentellen Modelle mit 370 Millionen, 1,3 Millarden und 2,7 Milliarden Parametern akzeptable Benchmarkwerte. Allerdings scheint der Ansatz noch nicht an anderen Arbeiten in diesem Bereich vorbeizuziehen - im konkreten Beispiel Matmul-free RWKV-4 und Transformer++. Generell sei das neue Modell ohne Matrix-Multiplikationen in der Latenz, beim Speicherbedarf, beim Training und beim Inferencing effizienter.

Das Forschungsteam gibt zu: Bisher wurde der neue Ansatz noch nicht bei sehr großen LLMs mit mehr als 100 Milliarden Parametern getestet. Es dürfte noch etwas dauern, bis es mit führenden LLMs von OpenAI, Meta und anderen Konzernen konkurrieren kann.


Relevante Themen