Web-LLM: Chatbot und Sprachmodell können lokal im Browser laufen

Große KI-Sprachmodelle brauchen oft extrem viele Cloudressourcen. Forscher zeigen mit Web-LLM, dass das nicht unbedingt notwendig ist.

Artikel veröffentlicht am ,
KI-Modelle wie Llama und Ableitungen davon können auch im Browser laufen.
KI-Modelle wie Llama und Ableitungen davon können auch im Browser laufen. (Bild: Pixabay)

Das Projekt Web-LLM soll es ermöglichen, ein bereits trainiertes Sprachmodell (Large Language Modell, LLM) lokal im Browser auszuführen. Damit lässt sich ein Chatbot ähnlich ChatGPT umsetzen, der aber eben ohne eine Cloud-Anbindung auskommt und dank der WebGPU-Schnittstelle im Browser von der lokalen GPU beschleunigt wird. Die dafür verantwortliche Forschungsgruppe erstellte zuvor schon auf ähnliche Art und Weise Web Stable Diffusion und schreibt: "Dies eröffnet eine Menge interessanter Möglichkeiten, KI-Assistenten für jedermann zu entwickeln und die Privatsphäre zu schützen."

Die Verwendung der riesigen Sprachmodelle, die als Grundlage für Dienste wie ChatGPT oder ähnliche dienen, ist derzeit fast ausschließlich an Serverfarmen gebunden. Meist werden diese deshalb nur über einen inzwischen oft kostenpflichtigen API-Zugriff oder innerhalb einer Dienstleistung durch wenige Firmen angeboten. Initiativen wie Hugging-Face ermöglichen es darüber hinaus, die Modelle selbst auf Server-Kapazitäten auszuführen.

Insbesondere aber, seit das Llama-Modell von Meta vor einigen Wochen geleakt wurde, gibt es zahlreiche Open-Source-Projekte wie Llama.cpp, die die Idee verfolgen, die Modell auch lokal auf handelsüblicher Hardware für Endanwender ausführen zu können. Für Web-LLM greift das Team auf Apache TVM zurück, das unter anderem dazu gedacht ist, Modelle universell kompilieren zu können. Mittels Optimierungen und dem Komprimieren des Modells kann dieses schließlich in einer Laufzeitumgebung für das Web ausgeführt werden. Für Letztere wiederum nutzt das Team Emscripten und Webassembly im Browser. Um diesen Unterbau herum lässt sich dann ein Chatbot erstellen, der als lokale Web-App läuft.

Getestet werden kann die Arbeit des Teams mit einem Chat-Bot auf der Demo-Webseite, wofür allerdings WebGPU im Browser bereitstehen muss. Der Code für Web-LLM findet sich auf Github. Genutzt wird bisher das Vicuna-Modell, wobei es sich um eine Ableitung von Llama handelt, die auf Grundlage von Chats aus ShareGPT trainiert worden ist. Künftig soll die Anbindung an weitere Sprachmodelle folgen. Dank dem komplett freien Modell Dolly könnte die Idee bald sogar ohne größere Einschränkungen genutzt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Grace Hopper Superchip
Nvidia zeigt den DGX GH200 AI-Supercomputer

Die Kombination aus Grace Hopper, Bluefield 3 und NVLink ergibt funktional eine riesige GPU mit der Rechenkapazität eines Supercomputers und 144 TByte Grafikspeicher.

Grace Hopper Superchip: Nvidia zeigt den DGX GH200 AI-Supercomputer
Artikel
  1. Reiner Haseloff: Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag
    Reiner Haseloff
    Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag

    Zwei Jahre soll der Rundfunkbeitrag eingefroren werden, die Zukunftskommission derweil Reformideen vorlegen, schlägt Sachsen-Anhalts Ministerpräsident vor.

  2. System Shock Remake angespielt: Die Kult-KI Shodan kämpft frisch entfesselt
    System Shock Remake angespielt
    Die Kult-KI Shodan kämpft frisch entfesselt

    System Shock gilt als wegweisendes Shooter-Rollenspiel. Jetzt ist Golem.de im Remake wieder gegen die Super-KI Shodan angetreten (Windows-PC).
    Von Peter Steinlechner

  3. Gefangen im Zeitstrom, verloren im All: Die zehn besten Sci-Fi-Serien der 1960er
    Gefangen im Zeitstrom, verloren im All
    Die zehn besten Sci-Fi-Serien der 1960er

    Sie sind die Klassiker, auf denen das ganze Genre aufbaut: die großen Science-Fiction-Serien der 1960er. Neben Star Trek gab es hier noch viel mehr.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Microsoft Xbox Wireless Controller 40,70€ • Lexar Play 1 TB 99,60€ • DAMN!-Deals mit AMD-Bundle-Aktion • MindStar: AMD Ryzen 9 5950X 429€, MSI RTX 3060 Gaming Z Trio 12G 329€, GIGABYTE RTX 3060 Eagle OC 12G 299€, be quiet! Pure Base 500DX 89€ • Logitech bis -46% [Werbung]
    •  /