Tesla T4: Nvidia bringt Googles Cloud auf Turing

Nvidia hat die Entwicklerkonferenz GTC Japan genutzt, um die Tesla T4(öffnet im neuen Fenster) vorzustellen. Die Grafikkarte dient als Inferencing-Beschleuniger für maschinelles Lernen und folgt auf die Tesla P4 . Das T bei Tesla T4 steht für die neue Turing-Architektur, so wie das P der Tesla P4 die Pascal-Technik kennzeichnet. Nvidia wirbt mit zwölffacher Inferencing-Leistung, die Werte sind allerdings aufgrund abweichender Rechengenauigkeit nicht direkt vergleichbar.
Die Tesla T4 basiert auf einem TU104-Chip, von 3.072 Shader-Einheiten und 384 Tensor-Cores sind aber nur 2.560 respektive 320 aktiv. Das reicht für 8,1 Teraflops bei FP32-Präzision und für gleich 65 Teraflops bei FP16-Genaugkeit, da hier die Tensor-Cores die Matrix-Multiplikationen vornehmen. Der Beschleuniger liefert daher auch 130 Teraops bei INT8 sowie 260 Teraops bei INT4, experimentell wird überdies INT1 unterstützt. Die ältere Tesla P4 kommt auf 5,5 FP32-Teraflops und 22 INT8-Teraops.

Aufgrund des überarbeiteten NVENC (Nvidia Encoder) soll die mit 16 GByte GDDR6-Videospeicher versehene Tesla T4 mit bis zu 38 Full-HD-Videostreams doppelt so viele parallel decodieren können wie die Tesla P4, weshalb sie ihre Inferencing-Leistung auch an dieser Stelle einsetzen kann. Wie gehabt handelt es sich um ein Singleslot-Modell mit passiver Kühlung und ohne Display-Ausgänge, die Verlustleistung wird auf 70 Watt beziffert, weshalb der PCIe-Slot zur Stromversorgung ausreicht.
Einer der ersten Kunden für die Tesla T4 ist Google, die Alphabet-Tochter wird die Beschleuniger in der Google Cloud Platform für Kunden bereitstellen. Google verwendet bisher die Tesla P4 in der GCP(öffnet im neuen Fenster) für Inferencing und Decoding/Encoding.