Taalas HC1: Start-up gießt Llama 3.1 8B in eigenen Chip
Inhalt
Die Idee von Taalas klingt zunächst abwegig und verschwenderisch: Anstatt KI-Inferencing auf GPUs oder speziellen KI-Beschleunigern auszuführen, fertigt das Start-up einen Chip, der ein bestimmtes Modell fest integriert . Mit einem guten Jahr Verspätung hat Taalas seinen ersten nutzbaren Chip vorgestellt(öffnet im neuen Fenster) ; der enthält Llama 3.1 8B, ein mit acht Milliarden Parametern kleines Modell.
Die Zahlen, die Taalas zu dem Chip nennt, lassen das Vorhaben weniger absurd wirken. Der Chip generiert pro Sekunde und Nutzer mehr als achtmal so viele Tokens wie die leistungsfähigste Vergleichs-Hardware Cerebras WSE3 . Die Latenz zur Erzeugung des ersten Tokens soll unter einer Millisekunde liegen. Da die Gewichtsparameter komplett im Chip stecken, vermutlich als ROM, ist zudem kein externer Speicher erforderlich.
Taalas hat den Chip bei TSMC fertigen lassen – ebenso wie fast alle anderen Hersteller von KI-Hardware. Während sich Alphabet, AMD, AWS, Nvidia und Co. allerdings um TSMCs 3-nm-Kapazitäten streiten , nutzt Taalas einen älteren 6-nm-Prozess. Obwohl der Chip mit 815 mm 2 nah am Reticle Limit (maximale Maskengröße) ist, soll er eine günstigere Option sein als gängige KI-Hardware.
Günstiger und sparsamer als andere Hardware
Das liegt daran, dass Taalas nicht nur auf den teuren High Bandwidth Memory (HBM) verzichten kann, sondern auch auf komplexes Advanced Packaging. Entwicklung und Fertigung des ersten Chips sollen 30 Millionen US-Dollar gekostet haben.
Dafür gibt es laut Schätzungen(öffnet im neuen Fenster) zehn Blackwell-NVL72-Racks von Nvidia. Deren 720 B200-GPUs könnten laut Taalas Zahlen allerdings 15 der Llama-Chips ersetzen. Das bedeutet geringere Anschaffungs- und Energiekosten.
Genutzt würden die Chips möglicherweise kaum länger als ein Jahr, in der Gesamtrechnung könnte der Ansatz aber effizienter sein als General-Purpose-Hardware. Die muss aufgrund schneller Produktzyklen zudem oft erneuert werden, einige Analysten rechnen mit Abschreibungszeiträumen von wenigen Jahren .
Für die Hardware-Umsetzung eines Modells veranschlagt Taalas nur zwei Monate. Ob damit die Zeit bis zum Tape-out gemeint ist oder ob dann bereits der Chip fertig sein soll, bleibt unklar. Dafür zeigt das Start-up aber, dass sein Ansatz nicht so unflexibel, wie er scheint.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



