Web-LLM: Chatbot und Sprachmodell können lokal im Browser laufen
Große KI-Sprachmodelle brauchen oft extrem viele Cloudressourcen. Forscher zeigen mit Web-LLM, dass das nicht unbedingt notwendig ist.

Das Projekt Web-LLM soll es ermöglichen, ein bereits trainiertes Sprachmodell (Large Language Modell, LLM) lokal im Browser auszuführen. Damit lässt sich ein Chatbot ähnlich ChatGPT umsetzen, der aber eben ohne eine Cloud-Anbindung auskommt und dank der WebGPU-Schnittstelle im Browser von der lokalen GPU beschleunigt wird. Die dafür verantwortliche Forschungsgruppe erstellte zuvor schon auf ähnliche Art und Weise Web Stable Diffusion und schreibt: "Dies eröffnet eine Menge interessanter Möglichkeiten, KI-Assistenten für jedermann zu entwickeln und die Privatsphäre zu schützen."
Die Verwendung der riesigen Sprachmodelle, die als Grundlage für Dienste wie ChatGPT oder ähnliche dienen, ist derzeit fast ausschließlich an Serverfarmen gebunden. Meist werden diese deshalb nur über einen inzwischen oft kostenpflichtigen API-Zugriff oder innerhalb einer Dienstleistung durch wenige Firmen angeboten. Initiativen wie Hugging-Face ermöglichen es darüber hinaus, die Modelle selbst auf Server-Kapazitäten auszuführen.
Insbesondere aber, seit das Llama-Modell von Meta vor einigen Wochen geleakt wurde, gibt es zahlreiche Open-Source-Projekte wie Llama.cpp, die die Idee verfolgen, die Modell auch lokal auf handelsüblicher Hardware für Endanwender ausführen zu können. Für Web-LLM greift das Team auf Apache TVM zurück, das unter anderem dazu gedacht ist, Modelle universell kompilieren zu können. Mittels Optimierungen und dem Komprimieren des Modells kann dieses schließlich in einer Laufzeitumgebung für das Web ausgeführt werden. Für Letztere wiederum nutzt das Team Emscripten und Webassembly im Browser. Um diesen Unterbau herum lässt sich dann ein Chatbot erstellen, der als lokale Web-App läuft.
Getestet werden kann die Arbeit des Teams mit einem Chat-Bot auf der Demo-Webseite, wofür allerdings WebGPU im Browser bereitstehen muss. Der Code für Web-LLM findet sich auf Github. Genutzt wird bisher das Vicuna-Modell, wobei es sich um eine Ableitung von Llama handelt, die auf Grundlage von Chats aus ShareGPT trainiert worden ist. Künftig soll die Anbindung an weitere Sprachmodelle folgen. Dank dem komplett freien Modell Dolly könnte die Idee bald sogar ohne größere Einschränkungen genutzt werden.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
In der Tat kann man auch das 65B Modell von LLaMA auf dem PC laufen lassen, die 4bit...
Kommentieren