Zum Hauptinhalt Zur Navigation

Stacked Memory: Lecker, Stapelchips!

Größere SSDs , schnellere Grafikkarten und längere Akkulaufzeiten bei Smartphones : Speicherzellen oder DRAM-Chips, die wie die Etagen eines Hochhauses gestapelt werden, bieten viele Vorteile.
/ Marc Sauter
27 Kommentare News folgen (öffnet im neuen Fenster)
Vier gestapelte Dies eines Speicherchips für einen Hybrid Memory Cube (Bild: Micron)
Vier gestapelte Dies eines Speicherchips für einen Hybrid Memory Cube Bild: Micron

Prozessoren und Platinen sind ein bisschen wie Inseln: Der Platz ist begrenzt, die vorhandenen Bauteile müssen also immer weiter verkleinert werden, wenn ihre Anzahl steigen soll. Diesem Prinzip sind jedoch Grenzen gesetzt, denn Moore's Law neigt sich dem Ende zu. Eine Alternative gibt es schon heute: in die Höhe statt in die Breite bauen, Wolkenkratzer statt Mehrfamilienhaus, Pringles-Dose statt Chips-Schüssel sozusagen.

Intel , Samsung sowie TSMC haben diese Idee bereits umgesetzt: Statt mehr und mehr winzige Schaltungen nebeneinanderzuquetschen, lassen sie die Transistoren in die Höhe wachsen und schlanker werden. In der Branche ist diese Technik als FinFET bekannt. Prozessoren bestehen zudem aus mehreren miteinander verknüpften Schichten - eine Methode, die bei Bausteinen für SSDs und DRAM-Speicher erst kürzlich mit unterschiedlichen Methoden zur Marktreife gebracht wurde.

Denn das, was bei den meisten geöffneten SSDs wie ein einzelner Speicherchip aussieht, ist genauer betrachtet ein Stapel aus 2 bis 16 Siliziumplättchen ( Die(öffnet im neuen Fenster) -Stacking). Jedes davon ist durch hauchdünne Drähte (Wire Bonding) mit dem Substrat genannten Trägermaterial verbunden. Da diese Art der Verbindung nur an den Außenkanten angebracht werden kann, ist ein sogenanntes Package oder Chipgehäuse mit vielen Flash-Siliziumplättchen vergleichsweise groß.

Das ist wichtig, denn die Fläche auf der Platine einer SSD ist begrenzt, vor allem bei Formfaktoren, wie sie in Notebooks verbaut werden: Auf eine Platine in M.2 -Bauweise mit 80 mm Länge passen acht Chipgehäuse, SSDs im etwas älteren mSATA-Formfaktor bieten Platz für vier Packages und 42 mm kurze M.2-Platinen sind mit zwei Chipgehäusen ausgereizt.

Das heutige Limit für eine SSD im üblichen 2,5-Zoll-Format liegt bei 16 Packages. Samsung allerdings nutzt den verfügbaren Platz bei der 850 Pro und der 850 Evo nicht aus, sondern verbaut eine kürzere und günstigere 1,8-Zoll-Platine.

Wie jedoch ist 1 TByte Kapazität mit nur acht Chipgehäusen möglich, ohne auf enorm teure Flash-Bausteine mit 256 GByte zurückzugreifen?

Geschichtete Speicherzylinder

Bisher gingen Flash-Hersteller wie Samsung zwei Wege, um mehr Daten pro Siliziumplättchen unterbringen zu können: kleinere Speicherzellen oder solche, die mehr Informationen speichern. Mit beiden Techniken werden die Speicherzellen allerdings fehleranfälliger. Durch eine sinkende Fertigungsgröße verringert sich die Anzahl der Lese- und Schreibzyklen, da die Zellen beispielsweise durch Elektronenmigration(öffnet im neuen Fenster) Schaden nehmen.

Ungeachtet der Fertigung gibt es Zellen, die ein, zwei oder drei Bits speichern. Die Hersteller nennen diese Single-Level-, Multi-Level- und Triple-Level-Cells. Umgerechnet entspricht dies zwei (SLC), vier (MLC) und acht (TLC) Spannungszuständen. Bei Triple-Level-Cells ist die Belastung der Zelle durch Lese- und Schreibzyklen deutlich höher, weswegen der SSD-Controller die Zugriffe sehr gut verteilen muss, um Schäden zu verhindern. Dafür ermöglichen TLCs Siliziumplättchen mit deutlich mehr Speicherinformationen.

Um die Kapazität weiter zu steigern, hat unter anderem Samsung begonnen, die zylinderförmigen Zellen zu stapeln - ein Die besteht so gesehen aus vielen eng gepackten Pringles-Dosen. Bei der 850 Pro schichtet der Hersteller 32 Lagen aus Multi-Level-Cells übereinander, bei der 850 Evo besteht die gleiche Anzahl von Schichten aus Triple-Level-Cells . Ein Siliziumplättchen speichert 128 statt 86 GBit, was 16 und knapp 11 GByte entspricht. Intel hat bereits gestapelte TLCs mit 32 und 48 GByte angekündigt , künftig möchten beide Hersteller 128-GByte-Dies fertigen.

In der Praxis bedeutet TLC statt MLC bei der 850 Pro eine Garantiedauer von zehn und bei der 850 Evo eine von nur fünf Jahren. Samsung geht also davon aus, dass die Multi-Level-Cells doppelt so lange durchhalten wie die Zellen mit drei Bits. Weil die Lebensdauer der Triple-Level-Cells geringer ist, gibt es einen größeren, Over Provisioning genannten Bereich, in dem der SSD-Controller Daten unterbringt, wenn Flash-Zellen ausfallen.

Beim 1.024-GByte-Modell der 850 Pro sind physisch 1.032 GByte vorhanden, also 8 GByte zusätzlich. Dieser für den Nutzer nicht verfügbare Speicherplatz wird als Sicherheitspuffer verwendet, macht aber nur drei der zehn Prozent des Over Provisioning aus. Bei der 850 Evo hingegen summieren sich die Chipgehäuse zu einer Kapazität von 1.024 GByte.

Voreingestellt sind ebenfalls 10 Prozent Over Provisioning, um die fehleranfälligeren TLCs abzufedern. Die effektive Kapazität ist zugunsten der Lebensdauer reduziert. Der Langzeittest von Techreport zeigt jedoch, dass mehrere GByte Puffer kaum genutzt werden, sondern nur einige Hundert MByte.

Keinen Sicherheitsbereich, dafür aber enorme Geschwindigkeit, die selbst einer PCIe-SSD meilenweit überlegen ist, gibt es beim GDDR5-Videospeicher für Grafikkarten. Die etablierte Technik leidet aber unter vielen Problemen und ist daher nicht mehr zukunftssicher - ein Nachfolger muss her.

Was bei GDDR5 schiefläuft

Wer eine aktuelle Grafikkarte ohne Kühler genauer betrachtet, wird feststellen, dass ein Großteil der Platine von GDDR5-Speicherchips und ihren jeweils 32 Bit breiten Datenleitungen zum Grafikprozessor belegt ist. Dieses aufwendige und teure Verfahren ist notwendig, um die erforderliche hohe Datentransferrate hin zur GPU zu ermöglichen, damit deren Recheneinheiten nicht verhungern.

Abseits vom Platzbedarf auf der Platine ist die Leistungsaufnahme ein großes Problem: Bei heutigen High-End-Grafikkarten sind die Speicherchips und der Controller in der GPU für gut ein Drittel des Strombedarfs verantwortlich, was bis zu 80 Watt entspricht. Eine Alternative zu einem breiten Speicher-Interface sind größere Zwischenpuffer in der GPU selbst, wodurch die aber größer wird und teurer zu fertigen ist.

Nvidia hat beispielsweise beim GM204-Chip der Geforce GTX 980 ein 256- statt ein 384-Bit-Interface verbaut, wie es beim GK110-Chip der Geforce GTX 780 Ti eingesetzt wird. Der L1-Cache pro Shader-Block aber fasst 96 statt 64 KByte und der L2-Cache der GPU ist 2 statt 1,5 MByte groß. Zum Vergleich: Der GK104-Chip in der Geforce GTX 680, der Vorgänger des GM204, kann in seinem L2-Puffer nur 512 KByte zwischenspeichern.

Ein anderes Dilemma gibt es bei Prozessoren mit integrierten Grafikeinheiten: Die GPU muss sich mit den CPU-Kernen die Datentransferrate teilen. Bei zwei 64 Bit breiten Speicherkanälen sind selbst mit DDR3-2133 nur rund 34 GByte pro Sekunde drin - zu wenig für die schnellsten integrierten Grafikeinheiten wie die R7 Radeon oder die Iris Pro 5200.

Als Puffer zwischen den rasend schnellen Caches und dem vergleichsweise lahmen DDR3-Speicher hat Intel daher EDRAM verbaut. Der Embedded Dynamic Random Access Memory besteht aus acht Blöcken und einem monströsen 1.024-Bit-Interface. Der Trick hierbei nennt sich On-Package I/O: Statt Datenleitung über die Platine zu verlegen, sitzen Prozessor wie EDRAM auf dem gleichen Substrat, einem Interposer, und sind nur 1,5 mm voneinander entfernt.

Der On-Package I/O überbrückt diesen Abstand sehr energiesparend, der Datentransfer benötigt gerade einmal 1 Watt und erreicht 102 GByte pro Sekunde. Das ist mehr als bei einer Radeon R7 260X mit GDDDR5 - aber: Der EDRAM fasst einzig 128 MByte und dient somit vielmehr als L4-Cache denn als Videospeicher.

Das Problem, der energiehungrige GDDR5- oder der langsame DDR3-Speicher, wird also auch mit EDRAM nur vor sich hergeschoben. Eine Alternative hat das Speichergremium Jedec längst spezifiziert - den von AMD und SK Hynix entwickelten High Bandwidth Memory(öffnet im neuen Fenster) , kurz HBM.

Kleiner High Bandwidth Memory

Der neue Speicherstandard High Bandwidth Memory besteht anders als GDDR5 nicht aus einem einzelnen Chip, sondern aus gestapelten Siliziumplättchen. Statt diese aber wie Flash-Dies mit hauchdünnen Drähten mit dem Substrat zu verbinden, sind die Plättchen durchlöchert und von einer Art Metallstreben durchzogen. Diese Technik nennt sich TSV, was für Through Silicon Vertical Interconnect Access steht, zu Deutsch Silizium-Durchkontaktierung.

Jeder DRAM-Chip des High Bandwidth Memory ist mehrere Hundert Mikrometer dünn - wäre er dicker, würden die Through Silicon Vias nicht funktionieren. Die Kanäle für die spätere Silizium-Durchkontaktierung mittels Kupfer messen inklusive Sicherheitszone fünf bis zehn Mikrometer, das ist weniger als ein Zwanzigstel eines menschlichen Kopfhaares.

Die aktuelle HBM-Version von Hynix sieht Stapel aus vier DRAM-Siliziumplättchen und einem optionalen Steuerchip vor, die durch Lotkügelchen miteinander verbunden und von TSVs durchzogen sind. Jedes Die verfügt über zwei Speicherkanäle mit 128 Bit Breite, was ein 1.024-Bit-Interface ergibt. Ein derart breiter Bus ist mit GDDR5-Speicher zwar möglich, würde eine damit ausgestattete Grafikkarte aber sehr teuer in der Produktion machen. Durch die komplexe Platine wäre zudem die Leistungsaufnahme enorm.

Der Trick bei High Bandwidth Memory ähnelt dem On-Package I/O von Intels EDRAM: Die Speicherstapel sitzen gemeinsam mit der GPU auf einem Interposer und sind kaum mehr als einen Millimeter vom Grafikprozessor entfernt. Wären die einzelnen DRAM-Siliziumplättchen mit Drähten versehen in einem Package untergebracht, sie würden zu viel Platz einnehmen.

Die TSVs machen die 1.024 Datenleitungen durch die sehr kurzen Signalwege zur GPU hin erst möglich, ohne die Platinenkomplexität oder den Strombedarf zu erhöhen. Besser noch: Zwar muss der Speichercontroller im Grafikprozessor für High Bandwidth Memory neu entwickelt werden, er ist aber kleiner und deutlich sparsamer als ein GDDR5-Controller.

Aber bietet High Bandwidth Memory auch höhere Datentransferraten als GDDR-Speicher oder ist er nur effizienter?

HBM nicht nur für Grafikkarten

SK Hynix vergleicht in seiner HBM-Präsentation einen Stapel High Bandwidth Memory mit einem 512-Bit-Interface und 4 GHz schnellem GDDR5-Speicher: Controller und Chips sollen unter 30 statt über 80 Watt elektrische Leistung aufnehmen. Beispielsweise benötigten die DRAM-Plättchen des High Bandwidth Memory nur 1,14 bis 1,26 statt etwa 1,35 bis 1,6 Volt.

Trotz des verglichen mit 4-GHz-GDDR5-Speicher niedrigen Strombedarfs ist High Bandwidth Memory nicht langsam: Die Stacks mit 1.024-Bit-Interface mit 1 GHz liefert bereits 128 GByte pro Sekunde und pro Stapel. Ein Stapel bietet aber nur 1 GByte Speicher. Für eine High-End-Grafikkarte wären 8 GByte sinnvoll; so viele Stapel auf den Interposer rund um die GPU zu packen, dürfte aber zu eng werden. Daher hat SK Hynix schon eine verbesserte Version in Arbeit.

Die stapelt bis zu acht DRAM-Siliziumplättchen für bis zu 8 GByte pro Stapel übereinander, taktet mit 2 GHz und überträgt 256 GByte pro Sekunde und pro Stapel. Bei acht macht das wahnwitzige 2 TByte pro Sekunde - heutige Grafikkarten mit einer GPU bieten maximal 336 GByte pro Sekunde, vier Stapel der Hynix-Stacks erreichen bei 1 GHz eine Datenübertragung von 512 GByte pro Sekunde. Die Spezifikationen des Jedec-Konsortiums sehen bis zu 32 GByte Kapazität je Stack vor.

Einer der Kunden der von Hynix kommenden Speicherstapeln ist Nvidia, das High Bandwidth Memory für die Pascal -Architektur für 2016 im Aussicht gestellt hat. AMD hat noch keine Grafikkarten mit High Bandwidth Memory angekündigt, angeblich sollen 2015 erste Modelle erscheinen.

Für Server-CPUs erwarten wir High Bandwidth Memory nicht: Die Datentransferrate wäre zwar hilfreich, die bis auf wenige Ausnahmen höheren Latenzen hingegen eignen sich wenig für Prozessoren. Dies gilt auch für den Prefetch, also das heuristische Laden von Speicherinhalten. Mit 256 statt 8 Byte wie bei DDR3-Speicher eignet sich High Bandwidth Memory mehr für große Daten wie Texturen. Prozessoren mit integrierten Grafikeinheiten dürften künftig aber mit HBM ausgestattet werden, genauer AMDs APUs.

Allerdings ist High Bandwidth Memory nicht der einzige Speicheransatz der Zukunft: Der Hybrid Memory Cube hat das Potenzial, künftig für Beschleunigerkarten und Prozessoren verwendet zu werden.

Riesige Hybrid Memory Cubes

Entwickelt wurden die gar nicht würfelförmigen Stapelspeicher ursprünglich von Micron, das Hybrid Memory Cube Consortium umfasst jedoch weitere Hersteller wie Samsung, IBM, ARM und SK Hynix. Idee und Aufbau eines Hybrid Memory Cube ähneln zwar dem High Bandwidth Memory, es gibt jedoch einige Unterschiede. Zuerst die Gemeinsamkeiten: Auch ein Hybrid Memory Cube besteht aus mindestens vier gestapelten DRAM-Siliziumplättchen mit Through Silicon Vias und er wird neben dem (Grafik-)Prozessor platziert.

Bisher liefert Micron nur Hybrid Memory Cube mit vier Schichten und 2 oder 8 GByte Kapazität aus, die im November 2014 veröffentlichte Spezifikation 2.0 sieht jedoch schon vier oder acht Lagen mit je 8 GBit vor. Ein solcher Würfel bietet also 4 oder 8 GByte Kapazität - so wie High Bandwidth Memory. Die Betriebsspannung fällt mit rund 0,9 Volt geringer aus als bei der Konkurrenz, allerdings enthält ein Hybrid Memory Cube außer DRAM zwingend noch eine zusätzliche Logikschicht.

Die sitzt ganz unten und verwaltet die Vault-Controller, die in jedem DRAM-Chip stecken. Deswegen auch die von Micron gewählte Bezeichnung Hybrid Memory Cube - DRAM plus Controller. Durch die Verwaltung der Siliziumplättchen im Würfel ist eine feinere Ansteuerung des Speichers möglich als mit einem Controller im Prozessor. Die Verbindung vom Chip zum Hybrid Memory Cube wird über zwei oder vier serielle SerDes(öffnet im neuen Fenster) -Links mit je 16 Lanes statt über parallele Leiterbahnen hergestellt.

Über sehr kurze Entfernungen erreicht die VSR-Variante (Very Short Reach) eines Hybrid Memory Cube pro Link bis zu 30 GBit pro Sekunde bidirektional. Das entspricht einer aufaddierten Datenübertragungsrate von 480 GByte pro Sekunde. Ein Hybrid Memory Cube mit vier Links misst dafür enorme 1.110 mm², was rund doppelt so viel ist wie beim derzeit größten Grafikchip, Nvidias GK110 mit satten 561 mm². Die Kompaktvariante mit zwei Links belegt mit 360 mm² immer noch ziemlich viel Platz.

Hybrid Memory Cubes sind zwar groß, aber zumindest verglichen mit einem stark ausgebauten DDR4-System mit Netzwerkprozessor sparsamer und kompakter. Micron spricht in einer Präsentation von 33 statt 56 Watt für Controller plus Speicher. Im DDR4-System stecken allerdings gleich 48 Module, vier an jedem der 16 Speicherkanäle. Das entspricht einem Haswell-EP wie den kommenden Xeon E5-4600 v3.

Zu den ersten bestätigten Abnehmern der Hybrid Memory Cubes gehört Intel: Die kommende Beschleunigerkarte vom Typ Xeon Phi ( Knights Landing ) soll 16 GByte HMC-Speicher mit bis zu knapp 500 GByte pro Sekunde bieten - das klingt nach dem Hybrid Memory Cube 2.0 mit voller Geschwindigkeit.

Der HMC-Speicher dient als zusätzlicher Cache, der dem DDR4-RAM vorgelagert ist. Je nachdem, ob Knights Landing als Beschleunigerkarte oder Host-Prozessor dient, liefert der DDR4-Speicher 38 bis 115 GByte pro Sekunde.

Diese Datentransferraten sind für mobile Geräte wie Notebooks, Tablets oder Smartphones zwar noch nicht notwendig. Schon jetzt profitieren diese aber von gestapelten Speicherchips.

Mehr Platz für Akkus

Die von High Bandwidth Memory oder Hybrid Memory Cubes erreichten Geschwindigkeiten und Kapazitäten, aber auch die Leistungsaufnahme machen die Technologien, wenn überhaupt, erst mittelfristig tauglich für mobile Geräte. Am ehesten können wir uns zukünftige High-End-Prozessoren mit integrierter Grafikeinheit oder dedizierte Grafikmodule mit Stapelspeicher vorstellen.

Anders als bei Desktopsystemen wird aus Platzgründen der DDR3- oder GDDR5-Speicher in Note- oder Ultrabooks längst auf der Platine verlötet. Je näher am (Grafik-)Prozessor, desto besser, denn: Sitzen die Komponenten eng beieinander, verringert dies die Länge der Leiterbahnen, die Kosten und die Leistungsaufnahme sinken und die Platine wird kleiner. Der so eingesparte Platz steht für die Kühlung oder einen größeren Akku zur Verfügung.

In Tablets und besonders in Smartphones wird der Arbeitsspeicher seit Jahren gestapelt. Die simpelste Form von Stacking nennt sich PoP, also Package on Package. Apple beispielsweise verlötetet seine Systems-on-a-Chip samt Gehäuse auf der Platine als unterste Ebene, da das System-on-a-Chip mehr Kontakte in Form von Lotkügelchen benötigt als Speicher.

Die 1 GByte LPDDR3 beim A7 beispielsweise werden samt Package oben auf das System-on-a-Chip gelötet. Durch diesen PoP-Aufbau wird die Platine zwar insgesamt etwas höher, jedoch weitaus kompakter als mit einem neben dem System-on-a-Chip platzierten Speicherbaustein. Das ist beim iPhone 5S sehr schön zu erkennen: Wäre die Platine länger oder breiter, müsste Apple einen kleineren Akku verbauen.

In den nächsten Jahren wird der vorherrschende Speicherstandard im mobilen Bereich Low-Power-DDR4 werden. Hier arbeiten die Hersteller noch mit klassischem Wire Bonding, bei DDR4-Modulen für Server werden bereits Through Silicon Vias und vier DRAM-Plättchen pro Stapel eingesetzt.

Langfristig geht der Trend dahin, alle Bestandteile in ein einziges Gehäuse zu stecken. Die finale Stufe der Integration wäre, auch den Hauptspeicher mit in das System-on-a-Chip zu packen. Da hierdurch aber die Die-Fläche drastisch steigt, ist ein solcher Chip nicht wirtschaftlich zu fertigen - selbst 32 MByte ESRAM belegen enorm viel Platz, wie das System-on-a-Chip der Xbox One zeigt.


Relevante Themen