Neoverse N3 und V3: ARM legt den Grundstein für die nächste Server-Generation
ARM hat die nächste Generation der Neoverse-Plattform präsentiert, die sich in das Neoverse-CSS-V3(öffnet im neuen Fenster) und CSS-N3(öffnet im neuen Fenster) -Design aufteilt. Mithilfe von Neoverse können Chiphersteller eigene Prozessoren entwickeln, die sich etwa bei der Anzahl der Rechenkerne oder ihren I/O-Fähigkeiten unterscheiden, und dabei auf fertige Bausteine wie CPU-Kerne, Speicherinterfaces und Chip-zu-Chip-Verbindungen zurückgreifen, statt diese komplett selbst entwickeln zu müssen.
Das Ergebnis sind genau aufeinander abgestimmte Chips, besonders wenn KI-Beschleuniger oder eine GPU Teil des Designs sind. Besonders im massenhaften Einsatz ist das günstiger und effizienter, als auf generische Designs anderer Hersteller zu setzen. Zudem macht ARM es seinen Kunden mit dem ARM-Total-Design-Programm(öffnet im neuen Fenster) so einfach wie möglich, einen aktuellen Chip in einem führenden Fertigungsknoten (Note) auf den Markt zu bringen.
Mit Neoverse-CSS-V3 und N3 bietet ARM eine Designvorlage, auf deren Basis die Entwicklung vom ersten Entwurf bis zum Tapeout in nur neun Monaten möglich sein soll. Neben dem Zeitgewinn sind dadurch auch die Kosten geringer, da weniger Entwickler über einen kürzeren Zeitraum daran arbeiten müssen.
Effizienz oder Leistung
Hersteller haben die Wahl zwischen der auf höchste Effizienz getrimmten CSS-N3-Plattform, oder CSS-V3 für hohe Performance. CSS-N3 soll pro Kern 20 Prozent höhere Energieeffizienz als CSS-N2 bieten und sieht im Referenzdesign 32-Kerne pro Chip vor und eine TDP von 40 Watt, um die höchste Effizienz zu erreichen. Einen Einfluss darauf hat jedoch auch die Fertigungstechnologie, die von ARM nicht näher spezifiziert wird.
CSS-V3 bietet 50 Prozent mehr Performance pro Kern im Vergleich zu CSS-V2 und ist im Referenzdesign auf 64-Kerne ausgelegt, Kunden können aber bis zu 128-Kerne einsetzen. Die Anbindung an Komponenten und Speicher erfolgt per PCI-Express-5.0, CXL 3.0 und DDR5, LPDDR5 oder HBM3. Die CPU-Kerne sind bei V3, wie auch bei N3, Armv9-Designs und unterstützen ausschließlich AArch-64 mit Scalable Vector Extensions (SVE2), 32-Bit-Support gibt es nicht. Für Leistungsvergleiche mit anderen Chips verwendet ARM Achtkanal DDR5-7200.
Architekturverbesserungen noch nicht eingerechnet
Die Chips beziehungsweise Chiplets können per Die-to-Die-Interconnect miteinander verbunden werden, um größere Prozessoren zu ermöglichen, auf dem gleichen Weg können auch Rechenbeschleuniger und GPUs angebunden werden. Die zugrundeliegende Plattform, CMN-S3, erlaubt bis zu 256 Kerne pro Die und 512 Kerne pro Sockel. Limitiert wird dies aber durch praktische Beschränkungen wie die maximale Die-Größe bei der Herstellung.
Arm zeigt einige Benchmarks zur Performance der neuen Chips, die besonders beim auf Effizienz optimierten N3 stark ansteigt. Verantwortlich dafür ist unter anderem der größere L2-Cache von 2 MByte pro Kern für CSS-N3 sowie 3 MByte pro Kern für CSS-V3 gepaart mit einer verbesserten Sprungvorhersage. Alle Grafiken beziehen sich auf die Leistung der Architektur, Verbesserungen durch neue Fertigungstechniken kommen also noch dazu.
Co-Optimierung nimmt Kunden Arbeit ab
Damit das möglichst reibungslos möglich ist, arbeitet Arm bereits in der Designphase mit Partnern wie Intel, TSMC und Samsung zusammen. So haben Intel und Arm erst gestern die Produktion von 64-Kern-CPUs im Intel 18A-Node angekündigt, vermutlich handelt es sich dabei um CSS-N3. Gemeinsam mit Samsung arbeitet Arm außerdem an der Co-Optimierung von Cortex-Kernen für Samsungs 2-nm GAA-Node.
Damit kann Arm nicht nur die Basis für Custom-Chips liefern, sondern bietet seinen Kunden im Anschluss auch ein bereits für diese Architektur optimiertes Fertigungsverfahren in einem Leading-Edge-Node. Das bedeutet im besten Fall mehr Performance und Effizienz, vor allem aber weniger Entwicklungszeit bis zum Produktionsstart.
Chiplets können beliebig kombiniert werden
Arm sorgt mit der Chiplet-System-Architecture dafür, dass einzelne Chiplets in einem heterogenen Aufbau mit anderen Chiplets kombiniert werden können, um fast beliebige Prozessoren und Beschleuniger zu bauen. Dazu wird UCIe (Universal Chiplet Interconnect) verwendet, was bisher aber nur von Nvidia im GH100 und GH200 genutzt wird.
Auf Arms Roadmap ist bereits die Nachfolgegeneration zu sehen, die sich aktuell in Entwicklung befinden soll. Ein Datum nennt der Chipentwickler allerdings noch nicht, die vergangenen Generationen folgten aber fast im Jahrestakt. In Anbetracht des massiven Bedarfs nach mehr und gleichzeitig effizienterer Rechenleistung dürfte Arm sich mit der Weiterentwicklung nicht unnötig viel Zeit lassen.
- Anzeige Hier geht es zu NVIDIA-Grafikkarten bei Alternate Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.