• IT-Karriere:
  • Services:

16x Tesla V100: Nvidias DGX-2-System schafft 2 Petaflops

Das DGX-2 enthält doppelt so viele GPUs wie das DGX-1, die obendrein auf einen verdoppelten Speicher pro Chip zugreifen können. Auch bei den CPUs und deren RAM hat Nvidias Deep-Learning-System mehr von allem.

Artikel veröffentlicht am ,
Nvidias DGX-2
Nvidias DGX-2 (Bild: Marc Sauter/Golem.de)

Nvidia hat auf der Entwicklerkonferenz GTC 2018 das neue DGX-2 vorgestellt. Das Komplettsystem erreicht eine theoretische Rechenleistung von 2 Petaflops, wenn es um Matrix-Multiplikationen für etwa Deep Learning geht. Verglichen mit dem DGX-1 von vergangenem Jahr hat Nvidia die Geschwindigkeit damit mehr als verdoppelt, was auf zusätzliche und neue Hardware zurückzuführen ist, die in das DGX-2 integriert wurde.

Stellenmarkt
  1. ConceptPeople consulting gmbh, Hamburg
  2. operational services GmbH & Co. KG, verschiedene Standorte

Statt acht Tesla V100 sind gleich 16 der Rechenbeschleuniger als SMX2-Module verbaut. Die überarbeiteten Modelle haben zudem 32 GByte statt 16 GByte Speicher, da Nvidia mittlerweile auf HBM2 mit 8Hi-Stacks setzt, also acht statt vier Chips stapelt. Die restlichen Spezifikationen der Tesla V100 bleiben unangetastet. Um 16 davon zu verbinden, hat Nvidia einen 2-Milliarden-Transistoren-Switch entwickelt, der 18 Ports mit je 50 GByte/s aufweist (also 900 GByte/s) und per NV Link 2.0 die Rechenbeschleuniger (sechs Ports je Tesla V100) verknüpft. Im DGX-2 stecken insgesamt zwölf der NV-Switches, sie werden im 12FFN-Verfahren bei der TSMC gefertigt.

Angesteuert werden die Tesla V100 von zwei Xeon Platinum (Skylake-SP), wenngleich Nvidia nicht näher auf die Intel-CPUs eingegangen ist; wir tippen auf die Xeon Platinum 8180 mit 28 Kernen. Jeder der beiden Chips kann auf 768 GByte DDR4-Speicher zurückgreifen, hinzu kommen 30 Terabyte an SSD-Storage. Das DGX-2 soll eine Leistungsaufnahme von rund 10.000 Watt aufweisen und wird unter anderem von Microsoft für das Training von Spracherkennung und Übersetzungsalgorithmen für Bing oder Cortana verwendet.

Generell sei die verdoppelte Speicherkapazität der Tesla V100 zusammen mit 16 statt 8 der Rechenbeschleuniger sehr hilfreich: Laut Nvidia ist das DGX-2 rund zehnmal so schnell wie das DGX-1, wenn Facebooks Fairseq darauf trainiert wird.

Das DGX-2 soll im dritten Quartal 2018 erscheinen und 400.000 US-Dollar kosten. Das ältere DGX-1 wurde bisher für 150.000 US-Dollar verkauft.

Offenlegung: Golem.de hat auf Einladung von Nvidia an der GTC 2018 im kalifornischen San Jose teilgenommen. Die Reisekosten wurden zur Gänze von Nvidia übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. (-79%) 5,99€
  2. (-28%) 17,99€
  3. 48,99€
  4. 52,99€

Cerdo 28. Mär 2018

Naja ich rede schon von Reflexionen und Schatten in 4K-Videospielen. Über triviales Zeug...


Folgen Sie uns
       


Hallo Magenta und Alexa auf dem Smart Speaker der Telekom

Wetter, Allgemeinwissen, sächsische Aussprache - wir haben den Magenta-Assistenten gegen Alexa antreten lassen.

Hallo Magenta und Alexa auf dem Smart Speaker der Telekom Video aufrufen
Threadripper 3970X/3960X im Test: AMD wird uneinholbar
Threadripper 3970X/3960X im Test
AMD wird uneinholbar

7-nm-Fertigung, Zen-2-Architektur und dank Chiplet-Design keine Scheduler-Probleme unter Windows 10: AMDs Threadripper v3 überzeugen auf voller Linie, die CPUs wie die Plattform. Intel hat im HEDT-Segment dem schlicht nichts entgegenzusetzen. Einzig Aufrüster dürften sich ärgern.
Ein Test von Marc Sauter

  1. Via Technologies Centaur zeigt x86-Chip mit AI-Block
  2. Nuvia Apples Chip-Chefarchitekt gründet CPU-Startup
  3. Tiger Lake Intel bestätigt 10-nm-Desktop-CPUs

Staupilot: Der Zulassungsstau löst sich langsam auf
Staupilot
Der Zulassungsstau löst sich langsam auf

Nach jahrelangen Verhandlungen soll es demnächst internationale Zulassungskriterien für hochautomatisierte Autos geben. Bei höheren Automatisierungsgraden strebt die Bundesregierung aber einen nationalen Alleingang an.
Ein Bericht von Friedhelm Greis

  1. Autonomes Fahren Ermittler geben Testfahrerin Hauptschuld an Uber-Unfall
  2. Ermittlungsberichte Wie die Uber-Software den tödlichen Unfall begünstigte
  3. Firmentochter gegründet VW will in fünf Jahren autonom fahren

Mikrocontroller: Sensordaten mit Micro Python und ESP8266 auslesen
Mikrocontroller
Sensordaten mit Micro Python und ESP8266 auslesen

Python gilt als relativ einfach und ist die Sprache der Wahl in der Data Science und beim maschinellen Lernen. Aber die Sprache kann auch anders. Mithilfe von Micro Python können zum Beispiel Sensordaten ausgelesen werden. Ein kleines Elektronikprojekt ganz ohne Löten.
Eine Anleitung von Dirk Koller

  1. Programmiersprache Python verkürzt Release-Zyklus auf ein Jahr
  2. Programmiersprache Anfang 2020 ist endgültig Schluss für Python 2

    •  /