Wafer-Scale Integration

Puneet Gupta von der University of California in Los Angeles (UCLA) sprach über Chips von der Größe eines Wafers. Die sogenannte Wafer-Scale Integration nutzt aktuell Cerebras für seine KI-Prozessoren. Sie bestehen aus einem kompletten Wafer mit Hunderttausenden einzelnen Rechenkernen. Ein Verbindungsnetzwerk (Interconnect) ist ebenfalls integriert, das die Kommunikation zwischen den Kernen ermöglicht.

Stellenmarkt
  1. IT-System Engineer (m/w/d) Application Management
    Techniker Krankenkasse, Hamburg
  2. Projektleiter (m/w/x) - Schwerpunkt Produktion & Logistik
    über duerenhoff GmbH, München
Detailsuche

Alle Prozessoren im selben Stück Silizium zu fertigen, hat einige Vorteile. Es gibt keine Übergänge zu anderen Materialien wie beim Verlöten auf einer Platine (Substrat). Das erlaubt höhere Signalfrequenzen. Zudem lassen sich mit Halbleiterfertigung - wie bei Interposern - Leiter wesentlich enger packen. So lassen sich zwischen den Prozessoren wesentlich mehr Verbindungen realisieren.

Mit vielen Leitungen können hohe Datenraten ohne serielle Schnittstellen übertragen werden, was Chipfläche und Energie spart und die Latenz verringert. Die Sache hat nur einen Haken: Einige der einzelnen Prozessoren werden defekt sein. Bei der normalen Chipfertigung würden sie aussortiert, wird allerdings der ganze Wafer als riesiger Chip genutzt, funktioniert das nicht. Dann muss Logik eingebaut werden, um mit den Defekten umzugehen.

Ein riesiger Interposer

Umgehen lässt sich das Problem, indem Logik und Interconnect auf verschiedenen Wafern gefertigt werden. Die Logik-Wafer werden dabei regulär getestet, zu Dies zersägt und fehlerhafte aussortiert. Anschließend werden sie auf den Interconnect-Wafer montiert. Das hat den zusätzlichen Vorteil, dass Dies aus verschiedenen Fertigungsprozessen kombiniert werden können. Es können zwar weniger Leitungen integriert werden als in einem monolithischen Chip, der Ansatz ist allerdings einer Platine noch immer weit überlegen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
Aufbau eines Waferscale-Interposers (Bild: University of California)
Golem Karrierewelt
  1. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    05.-09.09.2022, virtuell
  2. Angular für Einsteiger: virtueller Zwei-Tage-Workshop
    26./27.09.2022, Virtuell
Weitere IT-Trainings

Auf dem Interconnect-Wafer werden beim Interposer-Ansatz nur einfache Leiter sowie kleine Kupfersäulen gefertigt. Dabei treten kaum Defekte auf, da die Strukturen im Vergleich zu den Transistoren und kleinsten Leitern aktueller Fertigungsprozesse riesig sind. Die Kupfersäulen haben einen Abstand von 10 μm - sie stellen übrigens den Kontakt zu den Logik-Chips her, die mittels Thermokompressions-Bonding aufgebracht werden. Das Verfahren wurde ursprünglich bei der Flip-Chip-Montage eingesetzt, kommt aber auch bei HBM zum Einsatz.

Ein Wafer voller Probleme

Ein ganzer Wafer voller Recheneinheiten macht allerdings auch, wenn er erfolgreich gefertigt wurde, weitere Probleme. Die vielen Dies benötigen nämlich auch viel Energie, und die muss erst einmal als Strom zu ihnen hin - und dann als Wärme wieder weg. Gupta illustrierte das an einem Waferscale-Chip mit GPUs. Theoretisch hätten auf einem 300-mm-Wafer 72 GPU-Dies mit je zwei zugehörigen HBM-Stacks Platz.

Das praktische Maximum sind allerdings 40 GPUs, und auch das nur mit zweistufiger Regelung der Versorgungsspannung. Da jede GPU zusammen mit den HBM-Stacks 270 W Leistung aufnimmt, müssen mindestens 10,8 kW in Form elektrischer Leistung zugeführt und als Wärme wieder abgeführt werden. Dabei sind Wandlungsverluste noch nicht berücksichtigt. Bei Cerebras Wafer Scale Engine 2 sind es gar 20 kW - die sind nur mit Wasser zu kühlen.

  • Mit Mikro-Federkontakten sind günstige 3D-Chips mit sehr vielen Kontakten und verschiedensten Dies denkbar. (Bild: Georgia Institute of Technology)
  • So rechnet ReRAM: Die einzelnen, mit einstellbaren Widerständen realisierten Speicherzellen nehmen die Gewichtskoeffizienten eines Neurons auf, die Digital-Analog-Wandler (DACs) geben die Aktivierungen ein. Die Spalten summieren die einzelnen Ströme, ein Analog-Digital-Wandler (ADC) erzeugt eine digitale Ausgabe. (Bild: University of Michigan)
  • Im ReRAM-Test-Chip sind vier CIM-Blöcke mit zugehörigem DRAM implementiert. Bei den CIM-Modulen nehmen DACs und ADCs viel Platz ein. (Bild: University of Michigan)
  • Aufbau eines Waferscale-Interposers (Bild: University of California)
  • Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California
Mit Waferscale-Integration hat die UCLA eine riesige GPU realisiert. Dafür musste das Design der Spannungsversorgung (VRMs, Voltage Regulator Modules) angepasst werden. (Bild: University of California

Waferscale-Integration zielt darauf, die Leistung von Computern durch die schnellere Verbindungen zu steigern. In manchen Fällen kann es aber sinnvoll sein, die Architektur an sich zu überdenken.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Halbleiterfertigung: Von Frankenstein-Chips und rechnendem SpeicherRechnender Speicher 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Aktuell auf der Startseite von Golem.de
Elon Musk und Manchester United
Der Meme-Lord braucht die Blutgrätsche

Wenn Musk twittert, zittern die Anleger und nun auch Fußball-Fans. Wie sich der Milliardär endgültig ins Abseits bewegt und wie die Öffentlichkeit damit umgehen sollte.
Ein IMHO von Lennart Mühlenmeier

Elon Musk und Manchester United: Der Meme-Lord braucht die Blutgrätsche
Artikel
  1. Anti-Scalper: Amazon verkauft Playstation 5 nur noch mit Einladung
    Anti-Scalper
    Amazon verkauft Playstation 5 nur noch mit Einladung

    Prime ist nicht mehr nötig, aber dafür eine Einladung: Wegen anhaltender Lieferengpässe hat Amazon den Bestellvorgang bei der PS5 geändert.

  2. Fulfillment: Amazon erhöht die Gebühren für externe Händler
    Fulfillment
    Amazon erhöht die Gebühren für externe Händler

    Eine Feiertagsgebühr trifft Millionen Drittanbieter bei Amazon. Die Preiserhöhung bezieht sich aber bisher nur auf die USA und Kanada.

  3. Post-Quanten-Kryptografie: Die neuen Kryptoalgorithmen gegen Quantencomputer
    Post-Quanten-Kryptografie
    Die neuen Kryptoalgorithmen gegen Quantencomputer

    Die US-Behörde NIST standardisiert neue Public-Key-Algorithmen - um vor zukünftigen Quantencomputern sicher zu sein.
    Eine Analyse von Hanno Böck

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 bestellbar bei Amazon & Co. • MSI Geburtstags-Rabatte • Neuer Saturn-Flyer • Game of Thrones reduziert • MindStar (MSI RTX 3070 599€) • Günstig wie nie: MSI 32" WHD 175 Hz 549€, Zotac RTX 3080 12GB 829€, Samsung SSD 1TB/2TB (PS5) 111€/199,99€ • Bester 2.000€-Gaming-PC[Werbung]
    •  /