Instinct MI250X: AMDs Chiplet-Beschleuniger leistet irre viel

Sie ist die erste AMD-Karte mit Chiplets plus 3D-Stacks: Die Instinct MI250X weist eine enorm hohe Performance und Speicherkapazität auf.

Artikel veröffentlicht am ,
Lisa Su zeigt das Package einer Instinct MI250X
Lisa Su zeigt das Package einer Instinct MI250X (Bild: AMD)

AMD hat die Instinct MI250 und die Instinct MI250X vorgestellt, zwei Beschleunigerkarten für Server und Supercomputer. Beide weisen eine exorbitant gestiegene Leistung zur bisherigen Instinct MI100 auf, denn die Rechengeschwindigkeit verdoppelt bis vervierfacht sich. Möglich wird dies durch das erste Chiplet-Design eines Beschleunigers, den AMD entwickelt hat.

Stellenmarkt
  1. Technical Account Manager (m/f/d)
    SoSafe GmbH, Köln (Home-Office möglich)
  2. Mitarbeiter IT-Basis-Support (m/w/d)
    Vitakraft pet care GmbH & Co. KG, Bremen
Detailsuche

Technische Grundlage der Instinct MI250(X), Codename Aldebaran, sind zwei miteinander durch ein 400 GByte/s flottes Infinity Fabric verknüpfte Dies (via Elevated Fanout Bridge, EFB). Sie werden mit TSMCs N6, also 6 nm EUV, gefertigt und weisen 29,1 Milliarden Transistoren auf. An dieser Stelle sei angemerkt, dass AMD von einem Grafikchip spricht. Tatsächlich aber fehlt die komplette 3D-Pipeline und es gibt es auch keine Display-Ausgänge.

Die beiden Chips werden von AMD als GCD (Graphics Compute Die) bezeichnet, ein jeder weist im Vollausbau erneut vier Shader Arrays für 112 Compute Units mit insgesamt 7.168 ALUs bei 1,7 GHz auf. Der L2-Cache fasst weiterhin 8 MByte, seine Bandbreite allerdings wurde verdoppelt - aus gutem Grund: Die Matrix Cores, ähnlich Nvidias Tensor Cores, liefern pro Takt zweifache oder vierfache Rate.

Vierfache FP64-Rate und Packed-FP32

Hierzu hat AMD die CDNA1-Technik durch die CDNA2-Generation ersetzt, was zusammen mit den beiden GCDs zu einer irrsinnig hohen theoretischen Rechenleistung führt: Die Instinct MI250X als Topmodell erreicht rund 96 Teraflops bei doppelter Genauigkeit (FP64), ohne die Matrix Cores sind es noch 48 Teraflops - die Instinct MI100 schafft nur 12 Teraflops und somit ein Achtel. Neu ist FP32 als Packed-Format und schnellere Berechnungen für künstliche Intelligenz, etwa BF16 oder INT8, so dass die Instinct MI250X das Vierfache der Instinct MI100 leistet.

  • Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CDNA2-Chip. (Bild: AMD)
  • Zwei davon werden mit insgesamt acht HBM2e-Stacks kombiniert. (Bild: AMD)
  • Neben einem OAM soll es auch eine Steckkarte geben. (Bild: AMD)
  • Instinct MI250X vs Nvidia A100 (Bild: AMD)
Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CDNA2-Chip. (Bild: AMD)
Nvidia A100 (SXM4)Instinct MI100Instinct MI250Instinct MI250X
GPU (µArch)GA100 (Ampere)Arcturus (CDNA1)2x Aldebaran (CDNA2)2x Aldebaran (CDNA2)
Node7N DUV (TSMC)N7P DUV (TSMC)N6 EUV (TSMC)N6 EUV (TSMC)
Transistoren54,2 Milliarden25,6 Milliarden2x 29,1 Milliarden2x 29,1 Milliarden
ALUs6.912 (108 SMs)7.680 (120 CUs)13.312 (208)14.080 (220 CUs)
Speicher80 GByte HBM2e32 GByte HBM2128 GByte HBM2e128 GByte HBM2e
Bandbreite2,04 TByte/s1,23 TByte/s3,28 TByte/s3,28 TByte/s
FP649,7 (19,5*) Teraflops11,5 Teraflops45,3 (90,5***) Teraflops47,9 (95,7***) Teraflops
FP3219,5 Teraflops23,1 (46,2***) Teraflops45,3 (90,5***) Teraflops47,9 (95,7***) Teraflops
BF16312 (624**) Teraflops92,3 Teraflops***362 Teraops***383 Teraops***
FP16312* (624**) Teraflops184,6 Teraflops***362 Teraops***383 Teraops***
INT8624* (1.248**) Teraops184,6 Teraflops***362 Teraops***383 Teraops***
TDP400 Watt300 Watt560 Watt560 Watt
P2P-Link600 GByte/s (NV Link 3.0)276 GByte/s (3x IF Link)600 GByte/s (6x IF Link)800 GByte/s (8x IF Link)
BauformSXM4PCIe Gen4OAMOAM
Technische Daten von AMDs Instinct MI250X *via Tensor Cores **mit Sparsity ***via Matrix Cores
Golem Akademie
  1. Hands-on C# Programmierung: virtueller Zwei-Tage-Workshop
    12.–13. Januar 2022, virtuell
  2. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    26.–28. Oktober 2021, Virtuell
Weitere IT-Trainings

Passend dazu ist jeder GCD mit doppelt so viel und schnellerem Speicher ausgestattet, denn AMD verwendet vier HBM2e-Stacks pro Chip. Aufaddiert ergibt das 128 GByte statt 32 GByte und eine Transferrate von 3,28 TByte/s anstelle 1,23 TByte/s, wenn die Instinct MI250X mit der Instinct MI100 verglichen wird. Allerdings handelt es sich nicht mehr um eine PCIe-Gen4-Karte mit 300 Watt, sondern um ein OAM (Open Compute Platform Accelerator Module) mit bis zu 560 Watt.

Die Nvidia A100 kann anteilig mithalten

Dieses Format ähnelt dem SXM4-Mezzanine-Modul einer Nvidia A100 mit 80 GByte Speicher, die sich mit 400 Watt vergleichsweise sparsam gibt. Bei den FP64/FP32-Werten ist die A100 chancenlos gegen die Instinct MI250X, daher sieht AMD die Instinct MI250(X) im HPC-Segment deutlich vor der A100. Bei BF16/INT8-Berechnungen hat das Nvidia-Modell durch die Kompression von dünnbesetzten Matrizen (Sparsity) allerdings weiterhin Vorteile.

AMD plant die Instinct MI250(X) in verschiedenen Konfigurationen einzusetzen, wobei die X-Version anders als die Instinct MI00 zusammen mit den eigenen Epyc-7003-CPUs sogar voll kohärent arbeiten kann. Hierzu werden vier statt acht der Accelerator-Module genutzt, die per Infinity Fabric untereinander und mit einem einzelnen Prozessor kommunizieren. Ein Beispiel dafür ist der Frontier, ein Exaflops-Supercomputer.

Die Instinct MI250(X) werden bereits ausgeliefert, eine Instinct MI210 als PCIe-Karte soll in Bälde folgen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


21:9FTW 09. Nov 2021 / Themenstart

Naja der ganze neural Network stuff ist im Prinzip dünn besetzt. Das ist jetzt nicht...

pica 09. Nov 2021 / Themenstart

Oder ihre Rechenzentren außerhalb der EU aufbauen.

davidcl0nel 09. Nov 2021 / Themenstart

Aldebaran ist - wie viele andere helle Sterne auch - ein arabischer Name. Es gibt keine...

Steffo 09. Nov 2021 / Themenstart

NVIDIA macht es einfach CUDA zu verwenden. Das geht sogar problemlos mit Consumer...

thepiman 09. Nov 2021 / Themenstart

Von den Dingern hätte ich gern zwei, dann komme ich bei Seti und Consorten endlich mal in...

Kommentieren



Aktuell auf der Startseite von Golem.de
Bitcoin und Co.
Kryptowährungen stürzen ab

Bitcoin, Ether und andere Kryptowährungen haben ein schlechtes Wochenende hinter sich. Bitcoin liegt fast 20 Prozent unter dem Wert der Vorwoche.

Bitcoin und Co.: Kryptowährungen stürzen ab
Artikel
  1. Catapult: Imgtech bringt RISC-V CPU-Serie bis zum 8-Kerner
    Catapult
    Imgtech bringt RISC-V CPU-Serie bis zum 8-Kerner

    Imagination bietet wieder eigene CPUs an. Die RISC-V-Serie Catapult soll vom Controller bis zum großen 8-Kerner skalieren.

  2. Eisenoxid-Elektrolyse: Stahlherstellung mit Strom statt Kohle
    Eisenoxid-Elektrolyse
    Stahlherstellung mit Strom statt Kohle

    Das Forschungsprojekt Siderwin entwickelt einen Prozess zur klimafreundlichen Stahlherstellung mittels direkter Elektrolyse.
    Von Hanno Böck

  3. Corona: Google verschiebt Rückkehr ins Büro
    Corona
    Google verschiebt Rückkehr ins Büro

    Erst Anfang 2022 will Google entscheiden, wann Mitarbeiter in den USA wieder in ihre Büros kommen sollen - die ursprüngliche Planung ist obsolet.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Bosch Professional Werkzeug und Zubehör • Corsair Virtuoso RGB Wireless Gaming-Headset 187,03€ • Noiseblocker NB-e-Loop X B14-P ARGB 24,90€ • ViewSonic VX2718-2KPC-MHD (WQHD, 165 Hz) 229€ • Alternate (u. a. Patriot Viper VPN100 2 TB SSD 191,90€) [Werbung]
    •  /