Mit äußerst breiten Einheiten zum Erfolg

Die Lösung war daher, eine VLIW-basierte ISA samt Mikroarchitektur und Compiler zu kreieren, bei der nachfolgende Instruktionen auf derselben Einheit ablaufen können, die schon für die vorherigen Resultate verantwortlich war. "Bei Workloads für Server-Applikationen oder Integer-Benchmarks wie SpecINT2017 gelingt uns das in 93 Prozent der Fälle, bei den restlichen 7 Prozent müssen wir die Daten weiterreichen", sagt Danilak.

Stellenmarkt
  1. SAP ABAP Backend Entwickler (m/w/d)
    Digital Building Solutions GmbH, Sendenhorst (Münster)
  2. Softwareentwickler Java (m/w/d)
    Atruvia AG, Karlsruhe, München, Münster
Detailsuche

Das klappt ihm zufolge, weil Instruktionen zu etwa 20 Prozent aus Branches und zu 10 Prozent aus Stalls bestehen, die ohnehin auf der jeweiligen Einheit stattfinden. Die restlichen 70 Prozent setzen sich laut Danilak zu zwei Dritteln aus Berechnungen in denselben Registern zusammen, bei denen nur eine dynamische Eingabe vorkommt - was ebenfalls in derselben Einheit durchführbar ist.

Solche Ansätze sind nicht neu, allerdings bei einem VLIW-Design wie dem Prodigy dennoch schwierig zu implementieren. Die von Tachyum entwickelte Befehlssatzarchitektur nutzt eine In-Order-Ausführung, erst der Compiler sorgt für eine Out-of-Order-Execution, wie sie nahezu alle heutigen CPU-Implementierungen verwenden.

Ein CPU-Replacement für Cloud/Hyperscaler-Kunden

Wie gut oder schlecht OoO per Compiler funktioniert, zeigte Intel mit dem in den späteren Jahren gerne als Itanic verspotteten Itanium, der nie wirklich erfolgreich war. Tachyum verweist in der initialen Präsentation von 2018 jedoch auf diese VLIW-Architektur und gibt an, ebenfalls unter der Verwendung sogenannter Poison Bits eine sehr hohe Instruktionen-Level-Parallelität (ILP) in den Recheneinheiten zu erreichen.

  • Prodigy soll das Beste aus CPU, GPU und TPU vereinen. (Bild: Tachyum)
  • Überblick zum Prodigy mit bis zu 128 Kernen (Bild: Tachyum)
  • Geplant sind 2U-Blades mit vier CPUs und DDR5. (Bild: Tachyum)
  • Die Software muss für den Prodigy angepasst werden. (Bild: Tachyum)
  • Die Integer-Leistung des T16128 soll weit über der anderer CPUs liegen. (Bild: Tachyum)
  • Nvidias H100 soll bei FP64 und FP8 geschlagen werden. (Bild: Tachyum)
  • Googles TPU v4 soll selbst mit BF16 chancenlos sein. (Bild: Tachyum)
  • Auch auf Rack-Ebene soll der T16128 weit vor dem H100 liegen. (Bild: Tachyum)
  • Leistung pro Dollar und Leistung pro Watt sehen stark aus. (Bild: Tachyum)
  • Der Prodigy 2 steht bereits auf der Roadmap. (Bild: Tachyum)
Geplant sind 2U-Blades mit vier CPUs und DDR5. (Bild: Tachyum)
Golem Karrierewelt
  1. Kotlin für Java-Entwickler: virtueller Zwei-Tage-Workshop
    13./14.10.2022, Virtuell
  2. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    27.06.-01.07.2022, Virtuell
Weitere IT-Trainings

Ebenfalls eine Frage der Auslastung sind die Ressourcen, um Daten lokal pro Kern vorzuhalten: "Mit Blick auf Server-Workloads haben wir den L1-Daten- und den L1-Instruktionen-Cache von 32 KByte auf 64 KByte verdoppelt, beim L2-Puffer sind wir von 512 KByte auf 1 MByte hoch", erläutert Danilak. Beim L3-Victim-Cache hat sich Tachyum für eine dynamische Lösung entschieden, die ein wenig an die virtuelle dritte Pufferstufe von IBMs Telum (z16) erinnert: "Der L3 ist quasi der L2, inaktive Kerne geben ihre Ressourcen ab", legt der CEO offen.

Die besten Prozessoren

Hinzu kommt, dass Tachyum äußerst breite Rechenwerke verwendet, auch weil sich der Zielmarkt für Prodigy im Laufe der Jahre etwas verschoben hat. "Wir sind ein CPU-Ersatz- und kein KI-Beschleuniger-Unternehmen, wir zielen auf Cloud/Hyperscaler sowie Telcos ab", sagt Danilak mit Blick auf das Marktumfeld, ergänzt aber später: "Über die Zeit konnten wir einige Supercomputer-Kunden gewinnen, daher haben wir die Breite der Vector/MAC-Einheiten von 512 Bit auf 1.024 Bit verdoppelt." Der eigentliche Grund aber waren die notwendigen Datenpfade für die 4.096-Bit-Matrix-Operationen für künstliche Intelligenz.

Eine weitere Änderung seit der Präsentation auf der Linley Conference 2018 (PDF) betrifft die Pipeline-Stufen für Integer und Vector, die erweitert sowie modifiziert wurden: "Zwischen Instruction-Fetch und Decode gibt es eine Stage mehr zugunsten höherer Taktraten, auch füttern Load/Store nicht mehr direkt die ALUs; das reduziert die Stages und die Leistungsaufnahme", sagt Danilak. Das ist wichtig für die Performance, die sehr hoch ausfällt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Tachyum Prodigy T16128: Der Wunderkind-ProzessorSchneller als AMD, Intel und Nvidia 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


rtlgrmpf 10. Jun 2022 / Themenstart

VLIW ist nicht das Problem. EPIC ist das Problem. Beim Lesen des Artikels hab ich nur...

KlugKacka 10. Jun 2022 / Themenstart

ügbar sein soll, ziemlich unglaubwürdig. Und? Muss denn eine andere Architektur emuliert...

Sharra 10. Jun 2022 / Themenstart

Bis zu dem Punkt an dem klar wird, dass die größte Kiste Wasserkühlung braucht und 1KW...

Morons MORONS 10. Jun 2022 / Themenstart

Keine Ahnung. Aber Skyrim wurde garantiert schon portiert.

Kommentieren



Aktuell auf der Startseite von Golem.de
Return to Monkey Island
Gameplay-Trailer zeigt neuen Guybrush Threepwood

Das dürfte nicht nur für Begeisterung sorgen: Erstmals ist Gameplay aus dem nächsten Monkey Island zu sehen - und die Hauptfigur.

Return to Monkey Island: Gameplay-Trailer zeigt neuen Guybrush Threepwood
Artikel
  1. Raumfahrt: US-Raumfrachter Cygnus führt ISS-Bahnkorrektur durch
    Raumfahrt
    US-Raumfrachter Cygnus führt ISS-Bahnkorrektur durch

    Der Westen kann auch ohne russisches Raumfahrzeug Bahnkorrekturen der ISS durchführen.

  2. WIK: Netzausbausteuer für Netflix und Co. schadet den Nutzern
    WIK
    Netzausbausteuer für Netflix und Co. schadet den Nutzern

    Werden Contentanbieter wie Netflix in Europa gezwungen, sich am Netzausbau zu beteiligen, schadet das am Ende den Nutzern. Das ergibt eine Analyse des WIK.

  3. Subventionen: Lindner will lieber Kitas als Elektroautos fördern
    Subventionen
    Lindner will lieber Kitas als Elektroautos fördern

    In der Debatte um die künftige Förderung von Elektroautos legt Finanzminister Christian Lindner nach. Die Kritik lässt nicht lange auf sich warten.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Top-TVs bis 57% Rabatt • PS5 bestellbar • MindStar (Palit RTX 3080 Ti 1.099€, G.Skill DDR5-5600 32GB 189€) • Lenovo 34" UWQHD 144 Hz günstig wie nie: 339,94€ • Corsair Wakü 236,89€ • Top-Gaming-PC mit AMD Ryzen 7 RTX 3070 Ti 1.700€ • Alternate (Team Group SSD 1TB 119,90€)[Werbung]
    •  /