Zum Hauptinhalt Zur Navigation

Taalas HC1: Start-up gießt Llama 3.1 8B in eigenen Chip

Taalas entwirft KI -Beschleuniger für nur ein Modell. Die brauchen keinen RAM, sind schneller als andere Hardware und flexibler, als es scheint.
/ Johannes Hiltscher
25 Kommentare News folgen (öffnet im neuen Fenster)
Taalas Llama-Chip auf einer PCIe-Einsteckkarte. (Bild: Taalas)
Taalas Llama-Chip auf einer PCIe-Einsteckkarte. Bild: Taalas
Inhalt
  1. Taalas HC1: Start-up gießt Llama 3.1 8B in eigenen Chip
  2. Anpassbar mittels fine-tuning, größere Modelle in Arbeit

Die Idee von Taalas klingt zunächst abwegig und verschwenderisch: Anstatt KI-Inferencing auf GPUs oder speziellen KI-Beschleunigern auszuführen, fertigt das Start-up einen Chip, der ein bestimmtes Modell fest integriert . Mit einem guten Jahr Verspätung hat Taalas seinen ersten nutzbaren Chip vorgestellt(öffnet im neuen Fenster) ; der enthält Llama 3.1 8B, ein mit acht Milliarden Parametern kleines Modell.

Die Zahlen, die Taalas zu dem Chip nennt, lassen das Vorhaben weniger absurd wirken. Der Chip generiert pro Sekunde und Nutzer mehr als achtmal so viele Tokens wie die leistungsfähigste Vergleichs-Hardware Cerebras WSE3 . Die Latenz zur Erzeugung des ersten Tokens soll unter einer Millisekunde liegen. Da die Gewichtsparameter komplett im Chip stecken, vermutlich als ROM, ist zudem kein externer Speicher erforderlich.

Taalas hat den Chip bei TSMC fertigen lassen – ebenso wie fast alle anderen Hersteller von KI-Hardware. Während sich Alphabet, AMD, AWS, Nvidia und Co. allerdings um TSMCs 3-nm-Kapazitäten streiten , nutzt Taalas einen älteren 6-nm-Prozess. Obwohl der Chip mit 815 mm 2 nah am Reticle Limit (maximale Maskengröße) ist, soll er eine günstigere Option sein als gängige KI-Hardware.

Günstiger und sparsamer als andere Hardware

Das liegt daran, dass Taalas nicht nur auf den teuren High Bandwidth Memory (HBM) verzichten kann, sondern auch auf komplexes Advanced Packaging. Entwicklung und Fertigung des ersten Chips sollen 30 Millionen US-Dollar gekostet haben.

Dafür gibt es laut Schätzungen(öffnet im neuen Fenster) zehn Blackwell-NVL72-Racks von Nvidia. Deren 720 B200-GPUs könnten laut Taalas Zahlen allerdings 15 der Llama-Chips ersetzen. Das bedeutet geringere Anschaffungs- und Energiekosten.

Genutzt würden die Chips möglicherweise kaum länger als ein Jahr, in der Gesamtrechnung könnte der Ansatz aber effizienter sein als General-Purpose-Hardware. Die muss aufgrund schneller Produktzyklen zudem oft erneuert werden, einige Analysten rechnen mit Abschreibungszeiträumen von wenigen Jahren .

Für die Hardware-Umsetzung eines Modells veranschlagt Taalas nur zwei Monate. Ob damit die Zeit bis zum Tape-out gemeint ist oder ob dann bereits der Chip fertig sein soll, bleibt unklar. Dafür zeigt das Start-up aber, dass sein Ansatz nicht so unflexibel, wie er scheint.


Relevante Themen