Knights Mill: Intels Xeon Phi hat 72 Kerne und etwas Netburst

Der nächste Xeon-Phi-Beschleuniger, Knights Mill, erhält überarbeitete Ausführungseinheiten, um mit doppelter Geschwindigkeit und halber Genauigkeit zu rechnen.

Artikel veröffentlicht am ,
Knights Mill
Knights Mill (Bild: Intel)

Intel hat auf der Hot Chips 29 im kalifornischen Cupertino über Knights Mill gesprochen. So heißt die nächste Generation Xeon Phi, also Rechenkarten für Server, die mittlerweile mit Fokus auf Deep-Learning-Training entwickelt wurden. Verglichen mit Knights Landing alias Xeon Phi 7200 wurden daher die Kerne umgebaut, damit sie auch mit halber Genauigkeit arbeiten können.

  • Knights Mill nutzt MCRAM und DDR4. (Bild: Intel)
  • Der Chip besteht erneut aus 36 Tiles und 72 Cores. (Bild: Intel)
  • Blockdiagamm eines KNM-Kerns (Bild: Intel)
  • Knights Mill erreicht doppelte FP32- und halbe FP64-Leistung, beherrscht aber auch INT16 mit vierfacher Geschwindigkeit. (Bild: Intel)
  • Möglich wird das durch vier FMAs pro Takt, ... (Bild: Intel)
  • ... die mit den passenden INT16-Instruktionen ... (Bild: Intel)
  • ... ideal für Training sind. (Bild: Intel)
  • KNL und KNM im Vergleich (Bild: Intel)
Der Chip besteht erneut aus 36 Tiles und 72 Cores. (Bild: Intel)
Stellenmarkt
  1. Microsoft 365 IT-Administrator (all genders)
    Fusion Consulting (Germany) GmbH, Mainz
  2. Cloud-Integrationsspezialist / Systemadministrator (m/w/d)
    Harzwasserwerke GmbH, Hildesheim
Detailsuche

Der grundlegende Aufbau bleibt oberflächlich gleich: Knights Mill besteht aus 36 Kacheln, die per Mesh-Struktur kommunizieren. Jede Tile besteht aus zwei Kernen sowie VPUs (Vector Processing Unit) mit ein MByte L2-Cache. Die Vektoreinheiten sind für die AVX-512-Instruktionen verantwortlich, die 72 Cores arbeiten zugunsten der Auslastung mit vierfachem Hyperthreading.

Für Deep Learning beherrschen die VPUs sogenanntes Quad FMA, also vier Multiplikationen zusammen mit einer Addition in einem Schritt mit einfacher Gleitkomma-Genauigkeit (FP32). Dadurch verdoppelt ("pumped" wie einst beim Pentium 4) sich die Geschwindigkeit pro Takt verglichen mit Knights Landing; weil aber einer der Double-Precision-Ports fehlt, halbiert sich die Leistung bei FP64. Stattdessen integrierte Intel vier der neuen VNNI-Einheiten.

  • Knights Mill nutzt MCRAM und DDR4. (Bild: Intel)
  • Der Chip besteht erneut aus 36 Tiles und 72 Cores. (Bild: Intel)
  • Blockdiagamm eines KNM-Kerns (Bild: Intel)
  • Knights Mill erreicht doppelte FP32- und halbe FP64-Leistung, beherrscht aber auch INT16 mit vierfacher Geschwindigkeit. (Bild: Intel)
  • Möglich wird das durch vier FMAs pro Takt, ... (Bild: Intel)
  • ... die mit den passenden INT16-Instruktionen ... (Bild: Intel)
  • ... ideal für Training sind. (Bild: Intel)
  • KNL und KNM im Vergleich (Bild: Intel)
Knights Mill erreicht doppelte FP32- und halbe FP64-Leistung, beherrscht aber auch INT16 mit vierfacher Geschwindigkeit. (Bild: Intel)

Etwas überraschend arbeiten die Virtual Neural Network Instructions nicht mit halber Gleitkomma-Genauigkeit (FP16), sondern mit variablem und weniger flexiblem Festpunkt-Format. Mit INT16-Eingabe und INT32-Ausgabe bei 31 Bit erreicht Intel aber genug Genauigkeit für das Training neuronaler Netze.

Golem Akademie
  1. Einführung in die Programmierung mit Rust: virtueller Fünf-Halbtage-Workshop
    21.–25. März 2022, Virtuell
  2. Jira für Anwender: virtueller Ein-Tages-Workshop
    10. November 2021, virtuell
Weitere IT-Trainings

Bei angenommenen 1,5 GHz für 72 Cores wie bei Knights würde Knights Mill theoretisch folgende Rechenleistung erreichen: 13,8 statt 6,9 Teraflops bei einfacher Genauigkeit (FP32) und 1,7 statt 3,5 Teraflops bei doppelter Präzision (FP64) sowie 27,6 Terafops bei halber Genauigkeit (INT16).

Von den Kernen abgesehen gibt es bei Knights Mill keine Neuerungen. Der Chip wird mit 16 GByte MCRAM (modifizierte Hybrid Memory Cubes) auf dem Package kombiniert. Als gesockelte Version kann der Xeon Phi über sechs Speicherkanäle auf DDR4 zugreifen und weist 36 PCIe-Gen3-Lanes auf.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Snapdragon 8 Gen1
Der erste ARMv9-Smartphone-Drache ist da

Neuer Name, neue Kerne: Der Snapdragon 8 Gen1 nutzt ARMv9-Technik, auch das 5G-Modem und die künstliche Intelligenz sind viel besser.

Snapdragon 8 Gen1: Der erste ARMv9-Smartphone-Drache ist da
Artikel
  1. 470 - 694 MHz: Streit um DVB-T2 und Veranstalterfrequenzen spitzt sich zu
    470 - 694 MHz
    Streit um DVB-T2 und Veranstalterfrequenzen spitzt sich zu

    Nach dem Vorstoß von Baden-Württemberg, einen Teil des Frequenzbereichs an das Militär zu vergeben, gibt es nun Kritiken daran aus anderen Bundesländern.

  2. Prozessoren: Intel lagert zehn Jahre alte Hardware in geheimem Lagerhaus
    Prozessoren
    Intel lagert zehn Jahre alte Hardware in geheimem Lagerhaus

    Tausende ältere CPUs und andere Hardware lagern bei Intel in einem Lagerhaus in Costa Rica. Damit lassen sich Probleme exakt nachstellen.

  3. Factorial Energy: Mercedes und Stellantis investieren in Feststoffbatterien
    Factorial Energy
    Mercedes und Stellantis investieren in Feststoffbatterien

    Durch Festkörperakkus sollen Elektroautos sicherer werden und schneller laden. Doch mit einer schnellen Serienproduktion ist nicht zu rechnen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Nur noch heute: Bis zu 75% auf Switch-Spiele • AOC 31,5" WQHD 165Hz 289,90€ • Gaming-Sale bei MediaMarkt • G.Skill 64GB Kit DDR4-3800 319€ • Bis zu 300€ Direktabzug: u. a. TVs, Laptops • WD MyBook HDD 18TB 329€ • Switch OLED 359,99€ • Xbox Series S 275,99€ [Werbung]
    •  /