Cloud Next: Google nutzt Nvidias Tesla P4 für Inferencing

Die Cloud-Plattform soll bald mit Nvidias Tesla P4 ausgerüstet werden, das gab Google auf der hauseigenen Cloud-Next-Konferenz bekannt(öffnet im neuen Fenster) . Bisher verwendet der Anbieter vorrangig Nodes rein mit CPUs oder solche, in denen Nvidias Tesla P100 oder Tesla V100 stecken. Diese teuren Beschleunigerkarten sind jedoch in erster Linie für Workloads ausgelegt, die FP32- oder FP64-Leistung für das Training neuronaler Netze benötigen oder auf spezielle Matrix-Multiplikationen für künstliche Intelligenz setzen. Die Tesla P4 hingegen liefern vor allem viel INT8-Geschwindigkeit für den Inferencing-Schritt.
Google hat sich bisher nicht dazu geäußert, wann genau für Kunden die Nodes mit den Tesla P4 verfügbar sein sollen und auch keine Preise für die Instanzen bekanntgegeben. Die Nodes sind vor allem für Bild-, Sprach-, Text- oder Videoerkennung im Kontext von künstlicher Intelligenz gedacht. Das Inferencing folgt nach dem Training, ein bereits angelerntes Netz wird damit beschleunigt und weiter verfeinert. Beide Schritte können grundsätzlich mit gleicher Präzision erfolgen, es ist jedoch oft effizienter und schneller, wenn dafür unterschiedliche Beschleunigertypen eingesetzt werden. Google selbst bietet mit den TPUs (Tensor Processing Units) eigene Chips für maschinelles Lernen an.
Bei den Tesla P4 handelt es sich um PCIe-Steckkarten mit einem GP104-Chip, wie er von der Geforce GTX 1080/1070 bekannt ist. Die GPU taktet aber mit 810 MHz weniger als halb so schnell, was die Beschleuniger sehr effizient macht. Der GDDR5-Videospeicher fasst 8 GByte und die TDP liegt bei gerade einmal 75 Watt. Mit INT8-Genauigkeit erreicht eine Tesla P4 rund 55 Tera-Ops für maschinelles Lernen.