Halbleiterfertigung: Von Frankenstein-Chips und rechnendem Speicher

Der Begriff hochintegrierte Schaltung - auch als Very Large Scale Integration (VLSI)(öffnet im neuen Fenster) bezeichnet - ist bereits etwas in die Jahre gekommen. Er stammt aus den Frühzeiten der Halbleiterentwicklung, als 10.000 Transistoren auf einem Chip eine Revolution waren. Das VLSI Symposium trägt diesen Namen seit 1981 - und noch immer geht es dort um die Weiterentwicklung der Halbleiterfertigung. Das Symposium 2022 fand vom 12. bis 17. Juni in Honolulu statt.
Die Bandbreite der Einreichungen geht vom Chipgehäuse und dem Package über Entwicklungen der Fertigungstechnik wie Silicon Photonics und Halbleiter für Quantencomputer bis zu neuen Architekturen für Bausteine wie Speicher. Wir haben einige interessante Themen des diesjährigen VLSI Symposiums herausgegriffen und stellen sie vor. Den Anfang macht die sogenannte heterogene Integration - sie findet sich in alltäglichen Geräten, gewinnt an Bedeutung und wird immer komplexer.
AMD hat es mit Ryzen und Epyc vorgemacht: Leistungsfähige Prozessoren lassen sich aus mehreren Teilen zusammenstückeln und dadurch günstiger fertigen als ein einzelnes, großes Die. Denn je größer ein solches Siliziumplättchen ist, desto wahrscheinlicher ist es irgendwo defekt. Außerdem lassen sich die einzelnen Dies in verschiedenen Prozessen fertigen - daher die Namenskomponente "heterogen". Bei den aktuellen Ryzen 5000 beispielsweise werden die Compute-Dies mit 7 nm gefertigt, das I/O-Die hingegen mit 12 nm , was günstiger ist.
Platinen haben zu wenige, zu langsame Leiter
Die Dies einfach auf einer Platine zusammenzulöten, stößt aber aus mehreren Gründen absehbar an Grenzen. Für besonders leistungsfähige Chips - GPUs sowie einige besonders große FPGAs - kommen spezielle Dies, sogenannte Silizium-Interposer , zum Einsatz. Auf sie werden die zu verbindenden Dies montiert.
Da die Interposer ebenfalls mit Halbleitertechnik gefertigt werden, sind besonders dünne Leiter und eng liegende Kontakte möglich. So lassen sich wesentlich mehr Verbindungen zwischen den einzelnen Dies herstellen - das bedeutet höhere Datenraten. Silizium-Interposer haben allerdings einen Nachteil: Sie sind teuer. Und am Ende müssen sie auch auf eine Platine montiert werden, schon allein für die Stromversorgung. Dafür ist der Interposer vollkommen unnütz.
Mikrometergroße Federkontakte
Muhannad Bakir vom Georgia Institute of Technology(öffnet im neuen Fenster) sprach über eine Alternative, bei der die Die-zu-Die-Kontakte gruppiert und nur mittels Silizium-Interposer verbunden werden. Kontakte, die das Package verlassen, werden direkt mit dessen Platine verlötet. Die Silizium-Interposer - oder andere Chips, die unter den großen Dies montiert werden - werden mit den Kontakten nach oben auf das Package montiert. Da der Abstand zu den unten liegenden Dies geringer ist als zum Package, wären beim Verlöten unterschiedlich große Lotkugeln erforderlich.





Daneben bringt Verlöten Probleme mit sich, wenn der Chip warm wird. Package und Silizium dehnen sich unterschiedlich stark aus, die winzigen Verbindungen zwischen den Dies können brechen. Daher hat Bakirs Forschungsgruppe winzige Federkontakte entwickelt. Sie werden auf die Silizium-Interposer montiert, ähnlich wie bei der Anbindung ans Chip-Package mit Bonding-Drähten. Werden die zu verbindenden Dies mit dem Package verlötet, drücken ihre Kontaktflächen auf die Federkontakte.
Die so entstehende Verbindung ist ähnlich gut wie eine verlötete. Die Flexibilität der Kontakte gleicht zudem Höhenunterschiede aus; wird die Länge der Federkontakte angepasst, können sogar unterschiedlich hohe Dies kontaktiert werden. Damit lassen sich Chips aus verschiedensten Halbleitern zusammensetzen - Frankensteins Monster aus Silizium.
Vorerst bleiben Silizium-Interposer aber der Stand der Technik - und warum nicht gleich einen ganzen Wafer als Interposer nutzen?
Wafer-Scale Integration
Puneet Gupta von der University of California in Los Angeles (UCLA)(öffnet im neuen Fenster) sprach über Chips von der Größe eines Wafers. Die sogenannte Wafer-Scale Integration nutzt aktuell Cerebras für seine KI-Prozessoren. Sie bestehen aus einem kompletten Wafer mit Hunderttausenden einzelnen Rechenkernen . Ein Verbindungsnetzwerk (Interconnect) ist ebenfalls integriert, das die Kommunikation zwischen den Kernen ermöglicht.
Alle Prozessoren im selben Stück Silizium zu fertigen, hat einige Vorteile. Es gibt keine Übergänge zu anderen Materialien wie beim Verlöten auf einer Platine (Substrat). Das erlaubt höhere Signalfrequenzen. Zudem lassen sich mit Halbleiterfertigung - wie bei Interposern - Leiter wesentlich enger packen. So lassen sich zwischen den Prozessoren wesentlich mehr Verbindungen realisieren.
Mit vielen Leitungen können hohe Datenraten ohne serielle Schnittstellen übertragen werden, was Chipfläche und Energie spart und die Latenz verringert. Die Sache hat nur einen Haken: Einige der einzelnen Prozessoren werden defekt sein. Bei der normalen Chipfertigung würden sie aussortiert, wird allerdings der ganze Wafer als riesiger Chip genutzt, funktioniert das nicht. Dann muss Logik eingebaut werden, um mit den Defekten umzugehen.
Ein riesiger Interposer
Umgehen lässt sich das Problem, indem Logik und Interconnect auf verschiedenen Wafern gefertigt werden. Die Logik-Wafer werden dabei regulär getestet, zu Dies zersägt und fehlerhafte aussortiert. Anschließend werden sie auf den Interconnect-Wafer montiert. Das hat den zusätzlichen Vorteil, dass Dies aus verschiedenen Fertigungsprozessen kombiniert werden können. Es können zwar weniger Leitungen integriert werden als in einem monolithischen Chip, der Ansatz ist allerdings einer Platine noch immer weit überlegen.





Auf dem Interconnect-Wafer werden beim Interposer-Ansatz nur einfache Leiter sowie kleine Kupfersäulen gefertigt. Dabei treten kaum Defekte auf, da die Strukturen im Vergleich zu den Transistoren und kleinsten Leitern aktueller Fertigungsprozesse riesig sind. Die Kupfersäulen haben einen Abstand von 10 μm - sie stellen übrigens den Kontakt zu den Logik-Chips her, die mittels Thermokompressions-Bonding(öffnet im neuen Fenster) aufgebracht werden. Das Verfahren wurde ursprünglich bei der Flip-Chip-Montage eingesetzt(öffnet im neuen Fenster) , kommt aber auch bei HBM zum Einsatz.
Ein Wafer voller Probleme
Ein ganzer Wafer voller Recheneinheiten macht allerdings auch, wenn er erfolgreich gefertigt wurde, weitere Probleme. Die vielen Dies benötigen nämlich auch viel Energie, und die muss erst einmal als Strom zu ihnen hin - und dann als Wärme wieder weg. Gupta illustrierte das an einem Waferscale-Chip mit GPUs. Theoretisch hätten auf einem 300-mm-Wafer 72 GPU-Dies mit je zwei zugehörigen HBM-Stacks Platz.
Das praktische Maximum sind allerdings 40 GPUs, und auch das nur mit zweistufiger Regelung der Versorgungsspannung. Da jede GPU zusammen mit den HBM-Stacks 270 W Leistung aufnimmt, müssen mindestens 10,8 kW in Form elektrischer Leistung zugeführt und als Wärme wieder abgeführt werden. Dabei sind Wandlungsverluste noch nicht berücksichtigt. Bei Cerebras Wafer Scale Engine 2 sind es gar 20 kW - die sind nur mit Wasser zu kühlen .





Waferscale-Integration zielt darauf, die Leistung von Computern durch die schnellere Verbindungen zu steigern. In manchen Fällen kann es aber sinnvoll sein, die Architektur an sich zu überdenken.
Rechnender Speicher
Speziell KI-Anwendungen haben ein ziemliches Effizienzproblem: Neuronale Netze wie Megatron haben Hunderte Milliarden Parameter - noch größere KIs sind lediglich eine Frage der Zeit. Selbst wenn lediglich ein Byte pro Parameter genutzt wird (beispielsweise Int8), sind das Hunderte GByte - und die müssen regelmäßig vom Speicher in die Prozessoren.
Dort werden sie allerdings nur für wenige Rechenoperationen gebraucht. Das bedeutet nicht nur Latenz durch den Speicherzugriff, sondern benötigt auch viel Energie. Im RAM-Chip werden die Daten aus dem Speicher-Array in einen Puffer gelesen und dann über das Mainboard (oder einen Interposer) zum Prozessor übertragen. Dort werden sie mehrfach gepuffert, bis sie am Ende in einem Register landen und die Berechnung stattfindet. Deren Ergebnis muss dann wieder auf demselben Weg zurück.
Eine mögliche Lösung für dieses Effizienzdesaster heißt Compute in Memory (CIM, nicht zu verwechseln mit In-Memory Computing bei Datenbanken). Dabei wird der Speicher selbst zum Rechner, was elektrische Leistung spart, da nur die Ergebnisse den Speicher verlassen. Zudem dauern die Berechnungen durch den direkten Zugriff auf das Speicher-Array weniger lang.
Die Idee gibt es schon länger, aber ...
Neu ist die Idee nicht, eines der bekanntesten Projekte, der Intelligent RAM (IRAM)(öffnet im neuen Fenster) der Universität Berkeley, begann 1998 (geleitet wurde es von David Patterson(öffnet im neuen Fenster) , einem der Väter des RISC-Designs). Durchsetzen konnte sich das Konzept bislang nicht, die Nische war vielleicht zu klein. Für neuronale Netze könnte es aber eine neue Chance bekommen.





Anstatt wie bei IRAM eine CPU in den Speicherchip zu integrieren, wird dieser selbst zu einem Rechner - und zwar einem Analogrechner. Möglich macht dies Resistiver RAM, bei dem die Speicherzellen keine elektrische Ladung, sondern einen Widerstand speichern. Dabei sind sogar verschiedene Werte einstellbar. In den Widerständen liegt das Geheimnis des Analogcomputers: Wird eine Spannung angelegt, ist der Strom der Quotient aus Spannung und Widerstand - also eine Division. Werden mehrere Widerstände parallel geschaltet, addieren sich die Ströme.
Diese beiden Operationen reichen für ein neuronales Netz, zumindest beim Inferencing: In jedem Neuron werden Eingangswerte mit einem Gewicht multipliziert (die Umkehrung der Division) und die Ergebnisse summiert. Justin Correll(öffnet im neuen Fenster) stellte beim VLSI Symposium eine Implementierung der University of Michigan vor. Sie setzt sich zwar von älteren, ebenfalls ReRAM-basierten Veröffentlichungen durch höhere Auflösung bei Gewichtung und Eingabewerten sowie eine größere Zahl an Gewichtskoeffizienten deutlich ab. Bei der Effizienz bleibt sie allerdings mit den erreichten 20,7 TOPS/W (20,7 Billionen Rechenoperationen pro Watt) weit hinter den 2.900 TOPS/W eines 2020 vorgestellten SRAM-basierten Chips zurück.
Luft nach oben ist auch bei der Größe: Der experimentelle Speicher kann lediglich 64 Neuronen mit je 256 4-Bit-Gewichtskoeffizienten aufnehmen. Für Megatron muss er also oft beschrieben werden, ist aber auch nicht als Ersatz zum normalen DRAM gedacht. Vielmehr existiert der ReRAM als Recheneinheit parallel zum normalen DRAM. Im zusammen mit Applied Materials gefertigten Test-Chip belegt ein CIM-Block mit 8 KByte Kapazität, etwa ein Drittel der Fläche eines 256-KByte-DRAMs. Ein Grund dafür sind die benötigten Digital-Analog- und Analog-Digital-Wandler, die als Schnittstelle zwischen dem analogen CIM-Modul und einem digitalen Prozessor dienen.





Und wann kommt das alles?
Beim zuletzt vorgestellten CIM ist noch nicht absehbar, dass er in Produkten landet. Das Interesse an solchen und anderen Analogcomputern hat aber mit der steigenden Bedeutung von KI wieder zugenommen. Hier sind sie speziell in mobilen, batteriebetriebenen Geräten einem klassischen Prozessor bezüglich Effizienz überlegen.
Beim Packaging hingegen gibt es beträchtliche Bewegung: Der Trend geht eindeutig zu mehr Dies pro Package. Zudem werden - wie bei Frankensteins Monster - vermehrt unterschiedliche Halbleiter kombiniert. Die stärkere Integration kommt dabei sowohl bei Hochleistungschips wie GPUs als auch bei auf Effizienz optimierten wie Smartphone-SoCs zum Einsatz. TSMC beispielsweise hat eine neue Fabrik für immer komplexere Packaging-Methoden gebaut. Damit wachsen die Möglichkeiten von Chipdesignern. An Ideen, das zeigte das VLSI Symposium, mangelt es nicht.



