Schneller, effizienter, günstiger: Maßgeschneiderte Supercomputer für Sprachmodelle
Um seine Suche mit einem Large Language Model (LLM) wie ChatGPT zu erweitern, bräuchte Google mehr als zwei Millionen Tesla A100, das rechnen Forscher der University of Washington vor. Die würden 40 Milliarden US-Dollar kosten, die Leistungsaufnahme läge bei einem Gigawatt. Glücklicherweise haben die Forscher einen Alternativvorschlag: In einem bei Arxiv veröffentlichten Paper(öffnet im neuen Fenster) (PDF) schlagen sie einen eigens für ein bestimmtes LLM konstruierten Supercomputer vor.
Der würde aus Tausenden, speziell für Transformer-Modelle angepassten Chiplets bestehen. Neben einem Speicher umfassen sie MAC-Einheiten (Multiply-Accumulate), Module zur Normierung und für den Aufmerksamkeitsmechanismus sowie eine Anbindung an ein Netzwerk. Die einzelnen Chiplets sollen klein gehalten werden, um sie mit möglichst hoher Ausbeute und entsprechend geringen Kosten produzieren zu können.
Bereits beim Entwurf der Chiplets wollen die Forscher die Verteilung des Modells berücksichtigen. So soll die Kommunikation zwischen den einzelnen Chiplets minimiert werden, um hier keinen neuen Flaschenhals zu schaffen.
Schneller und sparsamer ohne HBM
Die Chiplets sollen ohne externen Speicher auskommen, der bei großen Modellen zum Flaschenhals werde, so die Forscher. Alle Parameter sowie der sogenannte KV Cache, eine Optimierung für den Aufmerksamkeitsmechanismus, werden in integriertem SRAM gespeichert. Der ist nicht nur schneller, sondern benötigt auch weniger Energie als externer Speicher.
Anhand von GPT-3 und Googles Pathway Language Model (Palm) rechnen die Forscher vor, was mit ihrem Ansatz möglich wäre: Bei GPT-3 ließen sich im Vergleich zur Tesla A100 die Kosten pro 1.000 verarbeiteten Tokens von 1,698 US-Cent auf 0,018 US-Cent senken, die Latenz soll gar von 620 auf 1,9 ms sinken. Auch sehen die Forscher ihr Chiplet Cloud genanntes System deutlich vor Googles TPU v4 : Bei Palm sollen die Kosten von 0,478 US-Cent auf 0,031 US-Cent pro 1.000 Tokens sinken, die Latenz von 93,8 auf 4,8 ms.
Viele Ideen sind nicht neu
Revolutionär sind die Vorschläge nicht, bereits existierende KI-Supercomputer wie Teslas Dojo oder die Waferscale Engine von Cerebras sind genauso aufgebaut. Allerdings treiben die Forscher die Ideen einen Schritt weiter: Die zuvor genannten Architekturen sind zwar speziell für künstliche Intelligenz ausgelegt, in diesem Feld aber dennoch universell.
Die Chiplet Cloud hingegen wäre an ein konkretes Modell angepasst. Bei ausreichend hoher Nutzung – laut dem Paper ab rund 46.000 zu verarbeitenden Tokens pro Sekunde – würden sich die hohen Anfangskosten aber rechnen. Die Forscher gehen davon aus, dass ein LLM-Supercomputer nach ihrem Konzept bei Fertigung in einem 7-nm-Prozess rund 35 Millionen US-Dollar kosten würde.
Nach kurzer Zeit ist der LLM-Computer überholt
Die Forscher erwarten, dass für ein LLM entwickelte Supercomputer nur eine kurze Lebensdauer haben: Sie gehen von einer gerade einmal eineinhalbjährigen Nutzung aus. Dann wäre das LLM technisch überholt, der Computer entsprechend Schrott. Für diesen Zeitraum vergleichen sie die Kosten, die eine äquivalente Rechenleistung TPU v4 mit Tesla A100 verursachen würde. Grundlage der Kosten der A100 ist das Cloud-Angebot von Lambda Labs.
An dieser Stelle hinkt der Vergleich möglicherweise ein wenig, für große Unternehmen könnten eigene GPUs günstiger sein. Steigt die Nutzung von LLMs aber wie erwartet, wäre der angepasste Computer nur der nächste logische Schritt – zumal einer der beteiligten Forscher mittlerweile für Microsoft arbeitet, das unlängst Ambitionen für eigene KI-Beschleuniger zeigte. Einen Nachteil hat die Spezialhardware aber: Die Fertigung der Chips dauert lange, und bis der Computer läuft, könnte sein Modell bereits von einem anderen überholt sein.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.