Instinct MI250X: AMDs Chiplet-Beschleuniger leistet irre viel

Sie ist die erste AMD-Karte mit Chiplets plus 3D-Stacks: Die Instinct MI250X weist eine enorm hohe Performance und Speicherkapazität auf.

Artikel veröffentlicht am ,
Lisa Su zeigt das Package einer Instinct MI250X
Lisa Su zeigt das Package einer Instinct MI250X (Bild: AMD)

AMD hat die Instinct MI250 und die Instinct MI250X vorgestellt, zwei Beschleunigerkarten für Server und Supercomputer. Beide weisen eine exorbitant gestiegene Leistung zur bisherigen Instinct MI100 auf, denn die Rechengeschwindigkeit verdoppelt bis vervierfacht sich. Möglich wird dies durch das erste Chiplet-Design eines Beschleunigers, den AMD entwickelt hat.

Technische Grundlage der Instinct MI250(X), Codename Aldebaran, sind zwei miteinander durch ein 400 GByte/s flottes Infinity Fabric verknüpfte Dies (via Elevated Fanout Bridge, EFB). Sie werden mit TSMCs N6, also 6 nm EUV, gefertigt und weisen 29,1 Milliarden Transistoren auf. An dieser Stelle sei angemerkt, dass AMD von einem Grafikchip spricht. Tatsächlich aber fehlt die komplette 3D-Pipeline und es gibt es auch keine Display-Ausgänge.

Die beiden Chips werden von AMD als GCD (Graphics Compute Die) bezeichnet, ein jeder weist im Vollausbau erneut vier Shader Arrays für 112 Compute Units mit insgesamt 7.168 ALUs bei 1,7 GHz auf. Der L2-Cache fasst weiterhin 8 MByte, seine Bandbreite allerdings wurde verdoppelt - aus gutem Grund: Die Matrix Cores, ähnlich Nvidias Tensor Cores, liefern pro Takt zweifache oder vierfache Rate.

Vierfache FP64-Rate und Packed-FP32

Hierzu hat AMD die CDNA1-Technik durch die CDNA2-Generation ersetzt, was zusammen mit den beiden GCDs zu einer irrsinnig hohen theoretischen Rechenleistung führt: Die Instinct MI250X als Topmodell erreicht rund 96 Teraflops bei doppelter Genauigkeit (FP64), ohne die Matrix Cores sind es noch 48 Teraflops - die Instinct MI100 schafft nur 12 Teraflops und somit ein Achtel. Neu ist FP32 als Packed-Format und schnellere Berechnungen für künstliche Intelligenz, etwa BF16 oder INT8, so dass die Instinct MI250X das Vierfache der Instinct MI100 leistet.

  • Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CDNA2-Chip. (Bild: AMD)
  • Zwei davon werden mit insgesamt acht HBM2e-Stacks kombiniert. (Bild: AMD)
  • Neben einem OAM soll es auch eine Steckkarte geben. (Bild: AMD)
  • Instinct MI250X vs Nvidia A100 (Bild: AMD)
Die Instinct MI250X hat 29,1 Milliarden Transistoren pro CDNA2-Chip. (Bild: AMD)
Nvidia A100 (SXM4)Instinct MI100Instinct MI250Instinct MI250X
GPU (µArch)GA100 (Ampere)Arcturus (CDNA1)2x Aldebaran (CDNA2)2x Aldebaran (CDNA2)
Node7N DUV (TSMC)N7P DUV (TSMC)N6 EUV (TSMC)N6 EUV (TSMC)
Transistoren54,2 Milliarden25,6 Milliarden2x 29,1 Milliarden2x 29,1 Milliarden
ALUs6.912 (108 SMs)7.680 (120 CUs)13.312 (208)14.080 (220 CUs)
Speicher80 GByte HBM2e32 GByte HBM2128 GByte HBM2e128 GByte HBM2e
Bandbreite2,04 TByte/s1,23 TByte/s3,28 TByte/s3,28 TByte/s
FP649,7 (19,5*) Teraflops11,5 Teraflops45,3 (90,5***) Teraflops47,9 (95,7***) Teraflops
FP3219,5 Teraflops23,1 (46,2***) Teraflops45,3 (90,5***) Teraflops47,9 (95,7***) Teraflops
BF16312 (624**) Teraflops92,3 Teraflops***362 Teraops***383 Teraops***
FP16312* (624**) Teraflops184,6 Teraflops***362 Teraops***383 Teraops***
INT8624* (1.248**) Teraops184,6 Teraflops***362 Teraops***383 Teraops***
TDP400 Watt300 Watt560 Watt560 Watt
P2P-Link600 GByte/s (NV Link 3.0)276 GByte/s (3x IF Link)600 GByte/s (6x IF Link)800 GByte/s (8x IF Link)
BauformSXM4PCIe Gen4OAMOAM
Technische Daten von AMDs Instinct MI250X *via Tensor Cores **mit Sparsity ***via Matrix Cores

Passend dazu ist jeder GCD mit doppelt so viel und schnellerem Speicher ausgestattet, denn AMD verwendet vier HBM2e-Stacks pro Chip. Aufaddiert ergibt das 128 GByte statt 32 GByte und eine Transferrate von 3,28 TByte/s anstelle 1,23 TByte/s, wenn die Instinct MI250X mit der Instinct MI100 verglichen wird. Allerdings handelt es sich nicht mehr um eine PCIe-Gen4-Karte mit 300 Watt, sondern um ein OAM (Open Compute Platform Accelerator Module) mit bis zu 560 Watt.

Die Nvidia A100 kann anteilig mithalten

Dieses Format ähnelt dem SXM4-Mezzanine-Modul einer Nvidia A100 mit 80 GByte Speicher, die sich mit 400 Watt vergleichsweise sparsam gibt. Bei den FP64/FP32-Werten ist die A100 chancenlos gegen die Instinct MI250X, daher sieht AMD die Instinct MI250(X) im HPC-Segment deutlich vor der A100. Bei BF16/INT8-Berechnungen hat das Nvidia-Modell durch die Kompression von dünnbesetzten Matrizen (Sparsity) allerdings weiterhin Vorteile.

AMD plant die Instinct MI250(X) in verschiedenen Konfigurationen einzusetzen, wobei die X-Version anders als die Instinct MI00 zusammen mit den eigenen Epyc-7003-CPUs sogar voll kohärent arbeiten kann. Hierzu werden vier statt acht der Accelerator-Module genutzt, die per Infinity Fabric untereinander und mit einem einzelnen Prozessor kommunizieren. Ein Beispiel dafür ist der Frontier, ein Exaflops-Supercomputer.

Die Instinct MI250(X) werden bereits ausgeliefert, eine Instinct MI210 als PCIe-Karte soll in Bälde folgen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


21:9FTW 09. Nov 2021

Naja der ganze neural Network stuff ist im Prinzip dünn besetzt. Das ist jetzt nicht...

pica 09. Nov 2021

Oder ihre Rechenzentren außerhalb der EU aufbauen.

davidcl0nel 09. Nov 2021

Aldebaran ist - wie viele andere helle Sterne auch - ein arabischer Name. Es gibt keine...

Steffo 09. Nov 2021

NVIDIA macht es einfach CUDA zu verwenden. Das geht sogar problemlos mit Consumer...



Aktuell auf der Startseite von Golem.de
Discounter
Netto bringt Balkonkraftwerk mit 820 Watt Peak

Netto hat ein Balkonkraftwerk mit 820 Watt (Peak) im Angebot, das direkt an eine Steckdose angeschlossen werden kann und die Stromrechnung reduzieren soll.

Discounter: Netto bringt Balkonkraftwerk mit 820 Watt Peak
Artikel
  1. OpenAI: ChatGPT-Firma lässt Programmierer die KI trainieren
    OpenAI
    ChatGPT-Firma lässt Programmierer die KI trainieren

    OpenAI, das Unternehmen hinter ChatGPT, hat Hunderte von Freiberuflern aus Schwellenländern zum Trainieren von Programmierfähigkeiten der KI eingesetzt.

  2. Arbeit im Support: Von der Kunst, Menschen und Technik zu jonglieren
    Arbeit im Support
    Von der Kunst, Menschen und Technik zu jonglieren

    Geht nicht, gibt's oft - und dann klingelt das Telefon beim Support. Das Spektrum der Probleme ist gewaltig und die Ansprüche an einen guten Support auch. Ein Leitfaden für (angehende) Supportmitarbeiter.
    Ein Ratgebertext von Lutz Olav Däumling

  3. Raumfahrtkonzept: Schnellere Weltraumreisen durch Pellet-Strahlenantrieb
    Raumfahrtkonzept
    Schnellere Weltraumreisen durch Pellet-Strahlenantrieb

    Die Nasa fördert innovative Konzepte für die Raumfahrt. Darunter eines, dass Weltraumreisen viel schneller machen soll.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Samsung 980 PRO 1TB Heatsink 111€ • Patriot Viper VPN100 2TB 123,89€ • Corsair Ironclaw RGB Wireless 54€ • Alternate: Weekend Sale • WSV bei MediaMarkt • MindStar: XFX RX 6950 XT 799€, MSI RTX 4090 1.889€ • Epos Sennheiser Game One -55% • RAM-/Graka-Preisrutsch [Werbung]
    •  /