Suche

Cell-Prozessor 2.0

Ein Großteil der Veröffentlichung beschreibt, wie die Forscher die Berechnungen für Oceanlight angepasst haben. Das ist auch erforderlich, denn im Vergleich zu anderen Architekturen ist bei den SW26010-Pro noch wichtiger, dass die benötigten Daten zur richtigen Zeit an der richtigen Stelle liegen. Der Grund dafür ist, dass 64 Rechenkerne (Compute Processing Element, CPE) und ein Management-Kern (Management Processing Element, MPE) sich lediglich zwei DDR4-3200-Speicherkanäle mit einer Bandbreite von 51,2 GByte/s teilen.

Anzeige

Vier CPEs sind an einen sogenannten Mesh Stop des 2D-Gitter-Network-on-Chip (2D Mesh NoC) angebunden. 64 CPEs bilden zusammen mit einem MPE und dem Speichercontroller eine Core Group (CG), von denen sich sechs in jedem Prozessor befinden. Sie sind über ein Ringnetzwerk verbunden, an das zudem zwei Netzwerkschnittstellen angebunden sind – die mit 56,25 GByte/s mehr Bandbreite bieten als ein Speichercontroller.

Über das Ringnetzwerk kann jede CG zwar auch auf den Speicher der anderen CGs zugreifen – allerdings mit größerer Latenz. Daten sollten also dort liegen, wo sie verarbeitet werden, und müssen möglicherweise innerhalb eines Prozessors dupliziert werden. Bei anderen Prozessoren ist zumindest innerhalb eines Chips der Speicherzugriff einheitlich schnell, da ein gemeinsamer Speichercontroller verwendet und über einen L2-Cache abstrahiert wird. Das entlastet Programmierer immerhin von der ganz kleinteiligen Optimierung.

Theoretische Rechenleistung steht im Fokus

Die Prozessoren opfern zudem fast alles, was bei anderen Systemen für einen relativen Programmierkomfort sorgt, um möglichst viele Recheneinheiten unterzubringen. Es gibt keinen L2-Cache, lediglich einen 256 kByte großen lokalen Speicher pro Rechenkern. Der kann zur Hälfte als Cache fungieren, die andere Hälfte muss die Software selbst mit Daten befüllen. Dafür verfügt jedes CPE über zwei 512-Bit-Vektoreinheiten, mit denen es bei 2,25 GHz eine FP64-Rechenleistung von 36 GFLOPS erreicht. Eine CG kommt damit auf die halbe Rechenleistung einer Tesla P100, muss sich aber mit der Speicheranbindung eines Desktop-Computers begnügen.

Anzeige

Neben Rechnen und Speicherzugriffen können die CPEs quasi nichts, sie müssen von der MPE mit Rechenaufgaben versorgt werden. Chips and Cheese vergleicht den SW26010-Pro treffend mit IBMs Cell-Prozessor, der in der Playstation 3 verbaut und aufgrund der komplexen Programmierung unter Entwicklern nicht gerade beliebt war. Zumindest können die CPEs mittels DMA (Direct Memory Access) direkt auf den Speicher zugreifen. Aber auch bei Oceanlight haben die Forscher sich viel Mühe gegeben, den Datenaustausch so zu organisieren, dass sich Netzwerk und CPEs nicht gegenseitig die Bandbreite stehlen.

Interessante Details bleiben verborgen

Neben den neuen Leistungsdaten und den bereits bekannten Architekturdetails des SW26010-Pro gibt es leider wenig mehr über Oceanlight zu erfahren: Wie viel elektrische Leistung der Supercomputer für seine Berechnungen braucht, bleibt ebenso verborgen wie der Fertigungsprozess. Mutmaßlich stammt er aus SMICs 14-nm-Prozess.

Dennoch bleibt es eine beeindruckende Leistung, dass der SW26010-Pro vollständig in China entwickelt und gefertigt wird. Und Programmierer, die den damit aufgebauten Supercomputer ausreizen können, scheint es ebenfalls zu geben – wobei allerdings auch erwähnt werden muss, dass der HPL im Vergleich zu vielen anderen Algorithmen verhältnismäßig leicht zu optimieren ist.

  1. 1
  2. 2