Zum Hauptinhalt Zur Navigation

AWS P3: Amazon packt Nvidias Volta in die Cloud

Wer Machine Learning oder HPC mit den Amazon Web Services nutzen will, bekommt mit den P3-Instanzen drastisch mehr Leistung: Amazon hat diese mit Nvidias Tesla-V100-Beschleunigern für bis zu einem Petaflop an FP16-Geschwindigkeit ausgestattet.
/ Marc Sauter
1 Kommentare News folgen (öffnet im neuen Fenster)
Tesla V100 im SXM2-Formfaktor (Bild: Marc Sauter/Golem.de)
Tesla V100 im SXM2-Formfaktor Bild: Marc Sauter/Golem.de

Amazon hat eine Erweiterung für die Elastic Compute Cloud (EC2) der Amazon Web Services vorgestellt: Die P3-Instanzen(öffnet im neuen Fenster) sind für Nutzer gedacht, die auf höchstmögliche Leistung zugreifen möchten. Amazon zufolge sind sie unter anderem für Machine Learning – Training wie Inferencing – oder allgemein für High Performance Computing (HPC) ausgelegt. Verglichen mit den bisherigen P2-Instanzen(öffnet im neuen Fenster) explodiert die verfügbare Rechenkapazität, da Amazon von Kepler-basierten Nvidia-Beschleunigern auf Volta-Modelle wechselt.

Bei den P2-Instanzen von vergangenem Jahr kommen noch alte Tesla K80 auf Dual-Sockel-Boards mit zwei Xeon E5-2686 v4 ( Broadwell-EP ) mit 16C/32T und bis zu 732 GByte DDR4-Arbeitsspeicher zum Einsatz. Die neuen P3-Instanzen hingegen sind mit Tesla V100 ausgestattet, wenngleich weiterhin mit Xeon E5 und maximal 488 GByte RAM. Hintergrund ist der SXM2-Formfaktor der Tesla-Module, die mehr Platz benötigen als PCIe-Karten. Deshalb gibt es zwar nur 8 statt 16 davon, dafür können die Tesla V100 per proprietärer NV-Link-2.0-Verbindung besonders schnell untereinander kommunizieren.

Nvidia zeigt Tesla V100 (GTC 2017)
Nvidia zeigt Tesla V100 (GTC 2017) (17:41)

Die Rechenleistung bei doppelter Genauigkeit (FP64) steigt im Vollausbau von 23 auf 62 Teraflops und bei einfacher Genauigkeit (FP32) von 70 auf 125 Teraflops. Die neuen P3-Instanzen beherrschen aufgrund der Tesla V100 zudem sogenannte Mixed Precision (FP16) in Form ihrer speziellen Tensor-Cores, weshalb hier 960 Teraflops per Matrix-Multiplikation erreicht werden.

Abseits der P3-Instanzen bietet Amazon auch F1-Instanzen mit FPGAs an, die sich für Bild- und Videobearbeitung oder Deep Learning eignen.


Relevante Themen