Multi-Chip-Module: Nvidia arbeitet an MCM-basierter Grafik

Statt immer größere monolithische GPUs zu fertigen, geht Nvidia den Weg multipler Grafikchips auf einem Träger. Bisherige Designs sollen recht gut skalieren, ermöglichen eine extrem hohe Leistung und sind vergleichsweise günstig zu produzieren.

Artikel veröffentlicht am ,
MCM mit mehreren Dies
MCM mit mehreren Dies (Bild: Nvidia)

Nvidia hat eine Studie veröffentlicht, die sich mit der Skalierung von Multi-Chip-Module-GPUs beschäftigt (PDF). Hintergrund ist, dass Moore's Law weniger schnell voranschreitet als in den vergangenen Jahren. GPU-Hersteller müssen über längere Zeiträume mit den gleichen Herstellungsverfahren arbeiten, was die Anzahl der Transistoren und die mögliche Die-Fläche begrenzt. Nvidias aktueller GV100-Chip fällt mit 815 mm² so monströs aus, dass der Interposer für die GPUs und die vier HBM2-Speicherstapel in zwei Schritten belichtet werden muss, da er die Dimensionen der Maske sprengt.

  • Statt einer monolithischen GPU könnten MCMs die Zukunft sein (Bild: Nvidia)
  • Der Prototyp nutzt vier 64-SM-Chips und Stacked-Memory. (Bild: Nvidia)
  • Er kommt somit auf 256 SMs und 3 TByte/s an Bandbreite. (Bild: Nvidia)
  • Nicht alle Anwendungen skalieren mit so vielen Rechenkernen. (Bild: Nvidia)
  • Dennoch ist ein 256-SM-Chip kaum langsamer als sein monolithisches Pendant. (Bild: Nvidia)
Statt einer monolithischen GPU könnten MCMs die Zukunft sein (Bild: Nvidia)
Stellenmarkt
  1. IT- Projektmanager (m/w/d)
    Bike Mobility Services GmbH, Cloppenburg
  2. DevOps Engineer (m/w/d)
    Deutsche Bundesbank, verschiedene Standorte
Detailsuche

Um diesem Dilemma zu entkommen, sind Multi-Chip-Modules (MCMs) längst eine übliche Herangehensweise. AMDs Naples alias Epyc etwa besteht aus vier Chips, die innerhalb eines Packages zu einem Prozessor zusammengeschaltet sind, und Intel hat die Embedded Multi Die Interconnect Bridge (EMIB) entwickelt, um multiple Dies zu verbinden. Vorteil ist, dass sich mehrere kleine Chips günstiger fertigen lassen als große monolithische - einerseits aufgrund der Ausbeute (Yield), anderseits durch das Verwenden älterer Prozesse.

256 SMs sind schneller als 2 x 128

Das von Nvidia entwickelte MCM besteht aus 4 GPUs mit jeweils 64 Shader-Multiprozessoren und 2 DRAM-Speicherstapeln für 3 TByte/s an Bandbreite. Im Rahmen des Papers geht der Hersteller davon aus, dass Chips mit mehr als 128 Shader-Multiprozessoren aufgrund des Maskenlimits nicht herstellbar sind - der aktuelle GV100 weist 84 SMs auf, noch mehr Rechenkerne sind erst mit kommenden Prozessen wie 10 nm oder 7 nm realistisch.

Das MCM mit insgesamt 256 Shader-Multiprozessoren ist dank eines zusätzlichen L1.5-Caches kaum langsamer als eine monolithische GPUs mit gleicher Shader-Anzahl und um rund ein Viertel schneller als eine optimierte SLI-Kombination aus zwei 128-SM-Karten. Problematisch ist hierbei, dass nur ein Teil der Software über solch eine Menge an Rechenwerken skaliert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
e.Go Life getestet
Abgesang auf ein schwer erfüllbares Versprechen

Der e.Go Life aus Aachen sollte Elektromobilität erschwinglich machen. Doch nach 1.500 ausgelieferten Exemplaren ist nun Schluss. Was nachvollziehbar ist.
Ein Bericht von Friedhelm Greis

e.Go Life getestet: Abgesang auf ein schwer erfüllbares Versprechen
Artikel
  1. Unbound: Neues Need for Speed verbindet Gaspedal mit Graffiti
    Unbound
    Neues Need for Speed verbindet Gaspedal mit Graffiti

    Veröffentlichung im Dezember 2022 nur für PC und die neuen Konsolen: Electronic Arts hat ein sehr buntes Need for Speed vorgestellt.

  2. Google: Pixel 7 und 7 Pro kosten so viel wie die Vorgänger
    Google
    Pixel 7 und 7 Pro kosten so viel wie die Vorgänger

    Googles Pixel-7-Smartphones kommen mit neuem Tensor-Chip, ansonsten ist die Hardware vertraut. Neuigkeiten gibt es bei der Software.

  3. Lochstreifenleser selbst gebaut: Lochstreifen für das 21. Jahrhundert
    Lochstreifenleser selbst gebaut
    Lochstreifen für das 21. Jahrhundert

    Früher wurden Daten auf Lochstreifen gespeichert - lesen kann man sie heute nicht mehr so leicht. Es sei denn, man verwendet Jürgen Müllers Lesegerät auf Arduino-Basis.
    Von Tobias Költzsch

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 jetzt bestellbar • MindStar (Gigabyte RTX 3090 Ti 1.099€, RTX 3070 539€) • Alternate (Team Group DDR4/DDR5-RAM u. SSD) • Günstig wie nie: MSI Curved 27" WQHD 165Hz 289€, Philips LED TV 55" Ambilight 549€, Inno3D RTX 3090 Ti 1.199€ • 3 Spiele für 49€ [Werbung]
    •  /