Schneller als AMD, Intel und Nvidia

Laut der Webseite von Tachyum sind drei Prozessoren geplant: Der Prodigy T16128 mit 16 Speicherkanälen und 128 Kernen, der Prodigy T864 und der Prodigy T832 - beide mit halb so vielen Channels und entsprechend reduzierten Cores. Ausgehend vom T832 wirbt der Hersteller mit einer Verdopplung der Geschwindigkeit zum T864, der Sprung zum T16128 jedoch fällt mit Faktor vier immens aus - für uns war das nicht nachvollziehbar.

Stellenmarkt
  1. Projektmanager CES (m/w / divers)
    Continental AG, Markdorf
  2. Functional Safty Engineer (m/w/d)
    Schaeffler Technologies AG & Co. KG, Werdohl
Detailsuche

Danilak hat eine schlüssige Erklärung: "Die Werte inkludieren eine künstliche Drosselung des Taktes, um innerhalb der TDP zu agieren." Das Topmodell, der T16128-AIX, wird wassergekühlt und kommt bei 5,7 GHz auf satte 950 Watt. Der T864-HS und der T832-HS haben zwar nominell dieselbe Frequenz, beide müssen aber luftgekühlt mit 300 Watt auskommen. Der T16128-HS mit gleicher TDP ist da interessant, wo die doppelte Speicherbandbreite und die doppelte Menge an PCIe-Gen5-Lanes relevant sind.

Ein Blick auf Intels Ice Lake SP zeigt, dass schon AVX-512-Code so viel Energie kostet, dass die CPUs herunterschalten müssen: Der Xeon Platinum 8380 taktet bei 270 Watt mit 2,3 GHz Basis auf allen 40 Kernen, mit AVX-512 sind es nur noch 1,8 GHz. Besagter Intel-Prozessor als 2-Sockel-Plattform soll Tachyum zufolge gerade mal ein Viertel der Performance zweier T16128 im Specint-2017-Benchmark erreichen, ein 64-kerniger Epyc 7763 (Milan) und Nvidias 144-kerniger Grace beide rund ein Drittel.

Mit FP64 bis FP8 zu gigantischen Vorsprüngen

Ähnlich sieht es aus, wenn der Prodigy-Chip bei künstlicher Intelligenz gegen die Konkurrenz antritt: Bei doppelter Genauigkeit (DP aka FP64) sollen es 180 Teraflops sein, was das Sechsfache von Nvidias H100 ist und noch Faktor 3x, wenn der Hopper-Beschleuniger auf seine Tensor-Cores zurückgreifen kann. Wird mit FP8 und dünn besetzten Matrizen - also Sparsity - gerechnet, gibt Tachyum die dreifache und mit Super Sparsity die sechsfache Performance an. Geradezu wahnwitzig werden die Zahlen im Vergleich zu Googles TPU v4, mit BF16 soll Faktor 10x und mit FP8 gar Faktor 20x möglich sein.

  • Prodigy soll das Beste aus CPU, GPU und TPU vereinen. (Bild: Tachyum)
  • Überblick zum Prodigy mit bis zu 128 Kernen (Bild: Tachyum)
  • Geplant sind 2U-Blades mit vier CPUs und DDR5. (Bild: Tachyum)
  • Die Software muss für den Prodigy angepasst werden. (Bild: Tachyum)
  • Die Integer-Leistung des T16128 soll weit über der anderer CPUs liegen. (Bild: Tachyum)
  • Nvidias H100 soll bei FP64 und FP8 geschlagen werden. (Bild: Tachyum)
  • Googles TPU v4 soll selbst mit BF16 chancenlos sein. (Bild: Tachyum)
  • Auch auf Rack-Ebene soll der T16128 weit vor dem H100 liegen. (Bild: Tachyum)
  • Leistung pro Dollar und Leistung pro Watt sehen stark aus. (Bild: Tachyum)
  • Der Prodigy 2 steht bereits auf der Roadmap. (Bild: Tachyum)
Die Integer-Leistung des T16128 soll weit über der anderer CPUs liegen. (Bild: Tachyum)
Golem Karrierewelt
  1. Adobe Premiere Pro Aufbaukurs: virtueller Zwei-Tage-Workshop
    14./15.07.2022, Virtuell
  2. Container Technologie: Docker und Kubernetes - Theorie und Praxis: virtueller Drei-Tage-Workshop
    04.-07.07.2022, virtuell
Weitere IT-Trainings

Einzelne Chips herzunehmen und dabei die Anschaffungs- sowie die laufenden Kosten (TCO) und die Leistungsaufnahme zu berücksichtigen, ergeben jedoch wenig Sinn. Aus diesem Grund stellte Tachyum ein Rack mit vier DGX H100, also 32 der H100 SMX5, gegen ein Rack mit 96 der luftgekühlten und gegen ein Rack mit 144 der wassergekühlten Prodigy T16128: Rechnerisch sollen das 960 DP-Teraflops versus 6.200 DP-Teraflops versus 12.960 DP-Teraflops sein, also über die sechsfache respektive zwölffache Geschwindigkeit bei FP64-Berechnungen im gleichen Server-System-Formfaktor.

Die besten Prozessoren

Zur Performance pro Watt macht Tachyum hier keine Angaben, wohl aber bei FP8 samt (Super) Sparsity: Das luftgekühlte Prodigy-Rack soll die 3,3-bis 6,7-fache Effizienz aufweisen. Laut Danilak wurden dabei die bereits erwähnten Teraflops mit der Systemleistungsaufnahme verrechnet; Tachyum gibt 76,3 Kilowatt für 24 der 2U-4-Sockel-Prodigy- und 40,8 Kilowatt für vier der 8U-DGX-H100-Systeme an.

Dabei gilt es zu beachten, dass alle Zahlen für künstliche Intelligenz rein theoretische Peak-Werte sind und anders als die SpecInt-2017-Scores nicht auf realen Benchmark-Ergebnissen basieren. Überdies hat Nvidia zumindest schon lauffähige H100-Hopper-Hardware in den Laboren, wohingegen Tachyum den Prodigy-Chip bisher rein simuliert hat.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Mit äußerst breiten Einheiten zum ErfolgEin einziger Chip für alle Varianten 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


rtlgrmpf 10. Jun 2022 / Themenstart

VLIW ist nicht das Problem. EPIC ist das Problem. Beim Lesen des Artikels hab ich nur...

KlugKacka 10. Jun 2022 / Themenstart

ügbar sein soll, ziemlich unglaubwürdig. Und? Muss denn eine andere Architektur emuliert...

Sharra 10. Jun 2022 / Themenstart

Bis zu dem Punkt an dem klar wird, dass die größte Kiste Wasserkühlung braucht und 1KW...

Morons MORONS 10. Jun 2022 / Themenstart

Keine Ahnung. Aber Skyrim wurde garantiert schon portiert.

Kommentieren



Aktuell auf der Startseite von Golem.de
Geforce GTX 1630
Nvidia bringt extralahme Grafikkarte - wegen Intel

Die Geforce GTX 1630 wird unter der Arc A380 positioniert, weshalb Nvidia einen alten Chip in stark beschnittener Form wieder aufleben lässt.

Geforce GTX 1630: Nvidia bringt extralahme Grafikkarte - wegen Intel
Artikel
  1. Directus: Schneller zur Backend-API mit dem Headless CMS
    Directus
    Schneller zur Backend-API mit dem Headless CMS

    Web-, Mobile- oder gar Print-Frontends können sehr verschieden sein. Eine Backend-API mit einem Headless CMS vereinfacht das. Directus zeigt, wie.
    Eine Anleitung von Jonathan Schneider

  2. Freebuds Pro 2: Huawei zeigt neue Alternative zu den Airpods Pro
    Freebuds Pro 2
    Huawei zeigt neue Alternative zu den Airpods Pro

    Huaweis neue Bluetooth-Hörstöpsel mit ANC heißen Freebuds Pro 2 und setzen erneut auf ein Design, das stark an die Airpods Pro angelehnt ist.

  3. Return to Monkey Island: Gameplay-Trailer zeigt neuen Guybrush Threepwood
    Return to Monkey Island
    Gameplay-Trailer zeigt neuen Guybrush Threepwood

    Das dürfte nicht nur für Begeisterung sorgen: Erstmals ist Gameplay aus dem nächsten Monkey Island zu sehen - und die Hauptfigur.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 jetzt bei Amazon bestellbar PNX RTX 3080 12GB günstig wie nie: 929€ • MindStar (MSI RX 6700 XT 499€, G.Skill DDR4-3600 32GB 165€, AMD Ryzen 9 5900X 375€) • Nur noch heute: NBB Black Week • Top-TVs bis 53% Rabatt • Top-Gaming-PC mit AMD Ryzen 7 RTX 3070 Ti 1.700€ • Samsung Galaxy S20 FE 5G 128GB 359€ [Werbung]
    •  /