Original-URL des Artikels: https://www.golem.de/news/hpe-was-the-machine-ist-und-was-nicht-1612-124774.html    Veröffentlicht: 01.12.2016 12:05    Kurz-URL: https://glm.io/124774

HPE

Was The Machine ist und was nicht

Einst auch als Produkt geplant, hat The Machine mittlerweile verstärkt den Charakter eines Forschungsprojekts. HPEs Idee eines Computers mit gigantischem, nicht flüchtigem Speicherpool scheiterte unter anderem an den Partnern. In Zukunft dürfte The Machine dennoch eine wichtige Rolle spielen.

Anfang der Woche hat Hewlett Packard Enterprise (HPE) nach fast zweieinhalb Jahren Funkstille verkündet, dass The Machine funktioniert und erste Prototypen seit Oktober 2016 in den HP Labs laufen. Allerdings spricht HPE nicht mehr von The Machine als Produkt, das in Form von Rack-Servern an Kunden verkauft werden soll. Stattdessen ist nur noch von einem Forschungsprojekt mit dem Ziel die Rede, dass The Machine Research Project den Fortschritt von sogenanntem Memory-Driven Computing demonstriert.

Von der 2014 angekündigten Idee wurden zwar viele Punkte umgesetzt, zwei relevante Meilensteine wird The Machine aber frühestens in einem halben Jahrzehnt erreichen. Angedacht war ein System mit Hunderten von Systems-on-a-Chip mit über einem Petabyte an Speicher pro Rack-Unit (RU), auf das alle Recheneinheiten via Fabric und optischer Verbindung als gigantischen Pool zugreifen können. Der sollte aus nicht flüchtigem Memristor-Speicher bestehen und vom komplett neu entwickelten MachineOS gesteuert werden.

Der Stand des Prototyps entspricht dem nicht: Pro RU gibt es gerade mal einen ARM-basierten Prozessor mit unbekannter Geschwindigkeit und Kernanzahl, der Speicherpool fasst 4 Terabyte (nicht Petabyte) und besteht aus DRAM. Das ist zwar flüchtiger Speicher - Strom weg, Daten weg -, aber eben doch sehr viel für eine CPU. In ähnliche Bereiche kommen einzig IBMs Power8(+) und Power9, wenn sie mit vier Centaur-Chips für Buffered Memory ausgestattet sind. Die anderen Prozessoren im Server-Schrank haben allerdings darauf keinen Zugriff, was bei The Machine entsprechend dem Konzept anders ist.

Heutige Systeme haben meist mehrere Cache-, Memory- und Storage-Stufen (Tiers) pro Rack, wobei gilt: Je schneller und flüchtiger der Speicher, desto weniger Daten passen hinein. Bei Caches sind es Kilo- oder Megabyte, beim RAM immerhin Terabyte und Storage teils im Petabyte-Bereich.

SK Hynix ist als Partner erst mal raus

HPE wollte ursprünglich auf Memristoren setzen, einen nicht flüchtigen Speicher (Non Volatile Memory). Mittlerweile spricht die Industrie auch von sogenanntem Storage Class Memory: Gemeint ist Speicher, der halbwegs die Geschwindigkeit von DRAM, dabei aber eine viel höhere Kapazität aufweist, haltbarer als NAND-Flash und kostengünstiger zu produzieren ist.

Der Partner für die Memristoren war SK Hynix, das jedoch die Technik bis heute nicht in passender Menge und mit genügend Speicherplatz fertigt. Stattdessen konzentrieren sich die Südkoraner auf DRAM und 3D-NAND-Flash, hinken aber hinter Samsung, Flash Forward sowie IMFT her. Als nächsten Schritt für 2017 möchte HPE die Speicherpool-Kapazität für The Machine erhöhen, angedacht sind 256 GByte große DIMMs statt solche mit 128 GByte.

Der Clou sind aber nicht die Riegel an sich, sondern das Fabric.



Bye bye Memristor, hello 3D-ReRAM

Beim Prototyp von The Machine sind auf einer eigenen Platine vier Memory-Controller verbaut, jeder davon steuert 1 TByte an DDR4 an. Die Controller sind durch ein Fabric verknüpft, das wiederum an einem per FPGA implementierten Switch auf einem zweiten Board hängt. Der soll später mit einem ASIC arbeiten, vor allem aber ist er die Schnittstelle, welche die 4 TByte dem Prozessor zuführt und per optischer Verbindung (Photonics) auch all den CPUs in den weiteren RUs. Jeder Einschub steht aufgrund der kombinierten Platinen links wie rechts gut 15 cm (6 Zoll) im Rack über.

Weil DRAM flüchtig und Memristor-Technik noch nicht verfügbar ist, benötigt HPE eine andere Technik. Gefunden wurde die bei Flash Forward, also der WD-Tochter Sandisk in Kooperation mit Toshiba. Das Joint Venture hat sich auf 3D Resistive RAM als Storage Class Memory festgelegt und die Zusammenarbeit mit HPE vor einem Jahr bekanntgegeben. Western Digital bezeichnet ReRAM als "really really fast storage" ("sehr sehr schnellen Speicher") und sieht den Speicher als Alternative zu 3D Xpoint, was von IMFT (Intel/Micron Flash Technologies) entwickelt wird und noch 2016 in Optane-Produkten wie DIMMs oder SSDs erscheinen soll.

Storage Class Memory und Gen-Z sollen die Zukunft sein

3D Xpoint hat ähnliche Probleme wie Memoristoren und ReRAM: Bis zum Marktstart mit hoher Kapazität dauert es locker noch einige Monate. Western Digital sagte natürlich, es sei sehr zufrieden mit dem Fortschritt der ReRAM-Entwicklung. Neben den Kosten seien ein vorbereitetes Ökosystem und gerade die Skalierbarkeit enorm wichtig. Mit letzterem Punkt ist gemeint, wie gut und zu welchem Preis sich ReRAM fertigen lässt. Western Digital konnte es sich nicht verkneifen anzudeuten, dass Intel mit 3D Xpoint sich wohl für die zu teure Lösung entschieden hätte, da die Fabs zu kostspielig seien.

HPEs neue Roadmap zum The Machine Research Project sieht vor, als Schritt zwischen mehr DRAM und ReRAM noch eine Speicherart einzuschieben: NV-DIMMs in der N-Variante. Das sind Riegel mit DRAM und dazu die gleiche Menge an NAND-Flash. Ein solches Modul arbeitet genauso flott wie DRAM, kann aber alle Daten dank einer Art Akku im Flash-Speicher sichern. Daher spricht HPE von Persistent Memory, verkauft diesen aber derzeit nur mit läppischen 8 GByte pro Riegel für die hauseigenen Proliant-Gen9-Server.

Noch verwendet HPE einen eigenen Memory-Fabric, dieser soll aber in Grundzügen dem Fabric des Gen-Z-Konsortiums ähneln. Zu dem gehören CPU-Hersteller wie ARM, AMD, Cavium und IBM, der FPGA-Entwickler Xilinx, die Serveranbieter Cray, Dell, Huawei und Lenovo, die DRAM- und Flash-Fertiger Micron, Samsung und SK Hynix, die Festplatten- und SSD-Produzenten Microsemi, Seagate und Western Digital sowie die I/O-Spezialisten Broadcom, IDT und Mellanox und schlussendlich noch Linux-Entwickler Red Hat.

Wer hingegen fehlt, ist - nicht unbedingt überraschend - Intel.

Ein großer Speicherpool für alle

Das macht HPEs The Machine Research Project etwas schwieriger, denn Intel ist mit Abstand führend im x86-Markt und im Serversegment auch. Abgesehen von den schnellsten CPUs hat der Hersteller auch Beschleuniger wie Xeon Phi Knights Landing, seit einigen Monaten zudem FPGAs plus einen optischen Interconnect und in Zukunft spezielle ASICs für Deep Learning im Portfolio. Es wird interessant, wie und wann Intel dem Projekt beitritt.

Der ARM-Prozessor, den HPE im Prototyp verwendet, soll später einmal durch jedwede Art von Chip ersetzt werden. Egal ob ASIC, CPU, FPGA, GPU oder SoC: Sie würden dann auf einen gemeinsamen gigantischen Speicherpool zugreifen statt jeder auf seinen eigenen. Die Vorteile, so hat es HPE ausgerechnet, wären exorbitant. Die Präsentation reichte von 100- bis 8.000-facher Geschwindigkeit, wenngleich das neue Algorithmen erforderte. Bei Microsoft Exchange stiege die Leistung ohne signifikante Code-Änderungen um +50 Prozent, bei anderer Software halbierte sich die Rechenzeit und bei In-Memory Analytics mit Apaches Spark erzielte HPE gar Faktor 15.

Wichtig ist daher vor allem das Ökosystem: Anwendungen müssen statt auf meist flüchtige Cache-, Memory- und Storage-Stufen auf den großen, nicht flüchtigen Speicherpool hin angepasst oder gleich neu entwickelt werden. Gleiches war für das Betriebssystem gedacht, das MachineOS. Bisher fahre HGE mit Linux aber sehr gut, patche den Kernel und programmiere Erweiterungen. Erst wenn hier etwas partout nicht funktioniere, werde man sich MachineOS zuwenden. Ohnehin wären für IoT-Geräte weniger Linux-Anpassungen notwendig als für das HPC-Segment, was in Zukunft auch dank Memory-Driven Computing bis in den Exascale-Bereich wachsen werde.

Open Source für das Projekt

Die Änderungen für den Linux-Kernel stellt HPE bisher zwar noch nicht bereit, das Unternehmen hat aber bereits mehrfach angekündigt, dass dies noch geschehen soll. Spätestens wenn HPE Produkte auf Basis der Forschungsarbeiten vertreibt, zwingt die GPL allerdings zu einer Offenlegung der Veränderungen.

Für Interessierte steht allerdings ein System bereit, das die Architektur von The Machine nachstellt, so dass mit der veränderten Arbeitsweise experimentiert werden kann. Hierzu werden virtuelle Maschinen aufgesetzt, deren Speicher in einem globalen Adressraum zusammengefasst wird.

Zusätzlich dazu arbeitet das Team von The Machine auch an einigen Basisbibliotheken und Werkzeugen, die vollständig auf den noch ungewöhnlich großen, nicht flüchtigen Speicher ausgerichtet sind. Dazu gehört ein Programmiermodell, um Daten zu speichern und direkt darauf zugreifen zu können, eine Key-Value-Datenbank oder auch eine Bibliothek, um Datenstrukturen wie Listen, Maps oder Graphen dauerhaft und wiederverwendbar im Speicher vorzuhalten. Der Code dazu findet sich auf Github, eine Übersicht zu den Open-Source-Projekten bei den HPE Labs.

Kein schnödes Produkt, sondern eine Zukunftsvision

The Machine Research Project ist für HPE der Wegbereiter, um die gewonnene Erfahrung und Technologie bis 2020 in möglichst viele der eigenen Produkte zu integrieren. The Machine hingegen ist auf absehbare Zeit oder vielleicht auch nie eine kaufbare Plattform wie ein Rack-Server. HPE stand laut eigener Aussage über 18 Monate vor dem Henne-Ei-Problem und beschloss, mit dem The Machine Research Project die Basis für eine neue Generation zu legen.

Oder wie es Andrew Wheeler, Fellow und VP der HPE Labs, ausdrückte: "Da war eine Möglichkeit, das symbolische Fenster - und wir haben es aufgestoßen." Im gleichen Atemzug sagte er aber auch, dass es von der Idee zu einem Prototyp und von dort zum skalierbaren Produkt ein beschwerlicher Weg sei.  (ms)


Verwandte Artikel:
Forschung: HPE-Supercomputer sollen Missionen zum Mars unterstützen   
(21.08.2017, https://glm.io/129591 )
HPE: Outsourcing kostet 300 Mitarbeiter den Job   
(07.03.2018, https://glm.io/133199 )
Linux-Dateisysteme: Nova soll Zugriffe auf NVDIMMs optimieren   
(14.08.2017, https://glm.io/129433 )
Memory-Driven Computing: HPE zeigt Prototyp von The Machine   
(29.11.2016, https://glm.io/124706 )
Solid State Drive: WD hat eigenen SSD-Controller entwickelt   
(01.03.2018, https://glm.io/133083 )

© 1997–2019 Golem.de, https://www.golem.de/