Web-LLM: Chatbot und Sprachmodell können lokal im Browser laufen

Das Projekt Web-LLM(öffnet im neuen Fenster) soll es ermöglichen, ein bereits trainiertes Sprachmodell (Large Language Modell, LLM) lokal im Browser auszuführen. Damit lässt sich ein Chatbot ähnlich ChatGPT umsetzen, der aber eben ohne eine Cloud-Anbindung auskommt und dank der WebGPU-Schnittstelle im Browser von der lokalen GPU beschleunigt wird. Die dafür verantwortliche Forschungsgruppe erstellte zuvor schon auf ähnliche Art und Weise Web Stable Diffusion(öffnet im neuen Fenster) und schreibt: "Dies eröffnet eine Menge interessanter Möglichkeiten, KI-Assistenten für jedermann zu entwickeln und die Privatsphäre zu schützen."
Die Verwendung der riesigen Sprachmodelle, die als Grundlage für Dienste wie ChatGPT oder ähnliche dienen, ist derzeit fast ausschließlich an Serverfarmen gebunden. Meist werden diese deshalb nur über einen inzwischen oft kostenpflichtigen API-Zugriff oder innerhalb einer Dienstleistung durch wenige Firmen angeboten. Initiativen wie Hugging-Face ermöglichen es darüber hinaus, die Modelle selbst auf Server-Kapazitäten auszuführen.
Insbesondere aber, seit das Llama-Modell von Meta vor einigen Wochen geleakt wurde, gibt es zahlreiche Open-Source-Projekte wie Llama.cpp(öffnet im neuen Fenster) , die die Idee verfolgen, die Modell auch lokal auf handelsüblicher Hardware für Endanwender ausführen zu können. Für Web-LLM greift das Team auf Apache TVM(öffnet im neuen Fenster) zurück, das unter anderem dazu gedacht ist, Modelle universell kompilieren zu können. Mittels Optimierungen und dem Komprimieren des Modells kann dieses schließlich in einer Laufzeitumgebung für das Web ausgeführt werden. Für Letztere wiederum nutzt das Team Emscripten und Webassembly im Browser. Um diesen Unterbau herum lässt sich dann ein Chatbot erstellen, der als lokale Web-App läuft.
Getestet werden kann die Arbeit des Teams mit einem Chat-Bot auf der Demo-Webseite(öffnet im neuen Fenster) , wofür allerdings WebGPU im Browser bereitstehen muss. Der Code für Web-LLM(öffnet im neuen Fenster) findet sich auf Github. Genutzt wird bisher das Vicuna-Modell(öffnet im neuen Fenster) , wobei es sich um eine Ableitung von Llama handelt, die auf Grundlage von Chats aus ShareGPT trainiert worden ist. Künftig soll die Anbindung an weitere Sprachmodelle folgen. Dank dem komplett freien Modell Dolly könnte die Idee bald sogar ohne größere Einschränkungen genutzt werden.