Wafer-Scale Integration
Puneet Gupta von der University of California in Los Angeles (UCLA) sprach über Chips von der Größe eines Wafers. Die sogenannte Wafer-Scale Integration nutzt aktuell Cerebras für seine KI-Prozessoren. Sie bestehen aus einem kompletten Wafer mit Hunderttausenden einzelnen Rechenkernen. Ein Verbindungsnetzwerk (Interconnect) ist ebenfalls integriert, das die Kommunikation zwischen den Kernen ermöglicht.
Alle Prozessoren im selben Stück Silizium zu fertigen, hat einige Vorteile. Es gibt keine Übergänge zu anderen Materialien wie beim Verlöten auf einer Platine (Substrat). Das erlaubt höhere Signalfrequenzen. Zudem lassen sich mit Halbleiterfertigung - wie bei Interposern - Leiter wesentlich enger packen. So lassen sich zwischen den Prozessoren wesentlich mehr Verbindungen realisieren.
Mit vielen Leitungen können hohe Datenraten ohne serielle Schnittstellen übertragen werden, was Chipfläche und Energie spart und die Latenz verringert. Die Sache hat nur einen Haken: Einige der einzelnen Prozessoren werden defekt sein. Bei der normalen Chipfertigung würden sie aussortiert, wird allerdings der ganze Wafer als riesiger Chip genutzt, funktioniert das nicht. Dann muss Logik eingebaut werden, um mit den Defekten umzugehen.
Ein riesiger Interposer
Umgehen lässt sich das Problem, indem Logik und Interconnect auf verschiedenen Wafern gefertigt werden. Die Logik-Wafer werden dabei regulär getestet, zu Dies zersägt und fehlerhafte aussortiert. Anschließend werden sie auf den Interconnect-Wafer montiert. Das hat den zusätzlichen Vorteil, dass Dies aus verschiedenen Fertigungsprozessen kombiniert werden können. Es können zwar weniger Leitungen integriert werden als in einem monolithischen Chip, der Ansatz ist allerdings einer Platine noch immer weit überlegen.
Auf dem Interconnect-Wafer werden beim Interposer-Ansatz nur einfache Leiter sowie kleine Kupfersäulen gefertigt. Dabei treten kaum Defekte auf, da die Strukturen im Vergleich zu den Transistoren und kleinsten Leitern aktueller Fertigungsprozesse riesig sind. Die Kupfersäulen haben einen Abstand von 10 μm - sie stellen übrigens den Kontakt zu den Logik-Chips her, die mittels Thermokompressions-Bonding aufgebracht werden. Das Verfahren wurde ursprünglich bei der Flip-Chip-Montage eingesetzt, kommt aber auch bei HBM zum Einsatz.
Ein Wafer voller Probleme
Ein ganzer Wafer voller Recheneinheiten macht allerdings auch, wenn er erfolgreich gefertigt wurde, weitere Probleme. Die vielen Dies benötigen nämlich auch viel Energie, und die muss erst einmal als Strom zu ihnen hin - und dann als Wärme wieder weg. Gupta illustrierte das an einem Waferscale-Chip mit GPUs. Theoretisch hätten auf einem 300-mm-Wafer 72 GPU-Dies mit je zwei zugehörigen HBM-Stacks Platz.
Das praktische Maximum sind allerdings 40 GPUs, und auch das nur mit zweistufiger Regelung der Versorgungsspannung. Da jede GPU zusammen mit den HBM-Stacks 270 W Leistung aufnimmt, müssen mindestens 10,8 kW in Form elektrischer Leistung zugeführt und als Wärme wieder abgeführt werden. Dabei sind Wandlungsverluste noch nicht berücksichtigt. Bei Cerebras Wafer Scale Engine 2 sind es gar 20 kW - die sind nur mit Wasser zu kühlen.
Waferscale-Integration zielt darauf, die Leistung von Computern durch die schnellere Verbindungen zu steigern. In manchen Fällen kann es aber sinnvoll sein, die Architektur an sich zu überdenken.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Halbleiterfertigung: Von Frankenstein-Chips und rechnendem Speicher | Rechnender Speicher |
Damit da nicht noch mehr Hoffnungen geweckt werden, haben wir das etwas konkreter gemacht ;)
Kommentieren