Mit äußerst breiten Einheiten zum Erfolg

Die Lösung war daher, eine VLIW-basierte ISA samt Mikroarchitektur und Compiler zu kreieren, bei der nachfolgende Instruktionen auf derselben Einheit ablaufen können, die schon für die vorherigen Resultate verantwortlich war. "Bei Workloads für Server-Applikationen oder Integer-Benchmarks wie SpecINT2017 gelingt uns das in 93 Prozent der Fälle, bei den restlichen 7 Prozent müssen wir die Daten weiterreichen", sagt Danilak.

Das klappt ihm zufolge, weil Instruktionen zu etwa 20 Prozent aus Branches und zu 10 Prozent aus Stalls bestehen, die ohnehin auf der jeweiligen Einheit stattfinden. Die restlichen 70 Prozent setzen sich laut Danilak zu zwei Dritteln aus Berechnungen in denselben Registern zusammen, bei denen nur eine dynamische Eingabe vorkommt - was ebenfalls in derselben Einheit durchführbar ist.

Solche Ansätze sind nicht neu, allerdings bei einem VLIW-Design wie dem Prodigy dennoch schwierig zu implementieren. Die von Tachyum entwickelte Befehlssatzarchitektur nutzt eine In-Order-Ausführung, erst der Compiler sorgt für eine Out-of-Order-Execution, wie sie nahezu alle heutigen CPU-Implementierungen verwenden.

Ein CPU-Replacement für Cloud/Hyperscaler-Kunden

Wie gut oder schlecht OoO per Compiler funktioniert, zeigte Intel mit dem in den späteren Jahren gerne als Itanic verspotteten Itanium, der nie wirklich erfolgreich war. Tachyum verweist in der initialen Präsentation von 2018 jedoch auf diese VLIW-Architektur und gibt an, ebenfalls unter der Verwendung sogenannter Poison Bits eine sehr hohe Instruktionen-Level-Parallelität (ILP) in den Recheneinheiten zu erreichen.

  • Prodigy soll das Beste aus CPU, GPU und TPU vereinen. (Bild: Tachyum)
  • Überblick zum Prodigy mit bis zu 128 Kernen (Bild: Tachyum)
  • Geplant sind 2U-Blades mit vier CPUs und DDR5. (Bild: Tachyum)
  • Die Software muss für den Prodigy angepasst werden. (Bild: Tachyum)
  • Die Integer-Leistung des T16128 soll weit über der anderer CPUs liegen. (Bild: Tachyum)
  • Nvidias H100 soll bei FP64 und FP8 geschlagen werden. (Bild: Tachyum)
  • Googles TPU v4 soll selbst mit BF16 chancenlos sein. (Bild: Tachyum)
  • Auch auf Rack-Ebene soll der T16128 weit vor dem H100 liegen. (Bild: Tachyum)
  • Leistung pro Dollar und Leistung pro Watt sehen stark aus. (Bild: Tachyum)
  • Der Prodigy 2 steht bereits auf der Roadmap. (Bild: Tachyum)
Geplant sind 2U-Blades mit vier CPUs und DDR5. (Bild: Tachyum)

Ebenfalls eine Frage der Auslastung sind die Ressourcen, um Daten lokal pro Kern vorzuhalten: "Mit Blick auf Server-Workloads haben wir den L1-Daten- und den L1-Instruktionen-Cache von 32 KByte auf 64 KByte verdoppelt, beim L2-Puffer sind wir von 512 KByte auf 1 MByte hoch", erläutert Danilak. Beim L3-Victim-Cache hat sich Tachyum für eine dynamische Lösung entschieden, die ein wenig an die virtuelle dritte Pufferstufe von IBMs Telum (z16) erinnert: "Der L3 ist quasi der L2, inaktive Kerne geben ihre Ressourcen ab", legt der CEO offen.

Hinzu kommt, dass Tachyum äußerst breite Rechenwerke verwendet, auch weil sich der Zielmarkt für Prodigy im Laufe der Jahre etwas verschoben hat. "Wir sind ein CPU-Ersatz- und kein KI-Beschleuniger-Unternehmen, wir zielen auf Cloud/Hyperscaler sowie Telcos ab", sagt Danilak mit Blick auf das Marktumfeld, ergänzt aber später: "Über die Zeit konnten wir einige Supercomputer-Kunden gewinnen, daher haben wir die Breite der Vector/MAC-Einheiten von 512 Bit auf 1.024 Bit verdoppelt." Der eigentliche Grund aber waren die notwendigen Datenpfade für die 4.096-Bit-Matrix-Operationen für künstliche Intelligenz.

Eine weitere Änderung seit der Präsentation auf der Linley Conference 2018 (PDF) betrifft die Pipeline-Stufen für Integer und Vector, die erweitert sowie modifiziert wurden: "Zwischen Instruction-Fetch und Decode gibt es eine Stage mehr zugunsten höherer Taktraten, auch füttern Load/Store nicht mehr direkt die ALUs; das reduziert die Stages und die Leistungsaufnahme", sagt Danilak. Das ist wichtig für die Performance, die sehr hoch ausfällt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Tachyum Prodigy T16128: Der Wunderkind-ProzessorSchneller als AMD, Intel und Nvidia 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


rtlgrmpf 10. Jun 2022

VLIW ist nicht das Problem. EPIC ist das Problem. Beim Lesen des Artikels hab ich nur...

KlugKacka 10. Jun 2022

ügbar sein soll, ziemlich unglaubwürdig. Und? Muss denn eine andere Architektur emuliert...

Sharra 10. Jun 2022

Bis zu dem Punkt an dem klar wird, dass die größte Kiste Wasserkühlung braucht und 1KW...

Morons MORONS 10. Jun 2022

Keine Ahnung. Aber Skyrim wurde garantiert schon portiert.



Aktuell auf der Startseite von Golem.de
Energiewende
Solarstrom aus dem All

Das Konzept ist ein halbes Jahrhundert alt, aber jetzt ist es offenbar machbar: sauberen Strom im All zu erzeugen und zur Erde zu übertragen.
Ein Bericht von Werner Pluta

Energiewende: Solarstrom aus dem All
Artikel
  1. Musik: Günstigere und leichtere Lautsprecher durch Gummi-Membran
    Musik
    Günstigere und leichtere Lautsprecher durch Gummi-Membran

    Lautsprecher können sperrig sein und schwer. Forscher arbeiten an einer preisgünstigen und leichten Methode, marktfähig ist sie aber noch lange nicht.

  2. KI-Texte erkennen: Wer hat's geschrieben, Mensch oder Maschine?
    KI-Texte erkennen
    Wer hat's geschrieben, Mensch oder Maschine?

    Modelle wie ChatGPT sind so gut, dass sich KI- und Menschen-Texte kaum unterscheiden lassen. Forscher arbeiten nun an Verfahren, die sich nicht täuschen lassen.
    Ein Deep Dive von Andreas Meier

  3. Energiewende: Blumenkübel mit Solaranlage kostet 1.000 Euro
    Energiewende
    Blumenkübel mit Solaranlage kostet 1.000 Euro

    Die Ideen, wie sich steckerfertige Solaranlagen verpacken lassen, nehmen nicht ab: Greenakku bietet jetzt eine Blumenkübel-Sichtschutz-Kombination an.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • PS5 inkl. GoW Ragnarök oder CoD MW2 549€ • MSI RTX 4070 Ti 999€ • Gigabyte 43" 4K UHD 144 Hz 717€ • Amazon FireTV Smart-TVs bis -32% • MindStar: AMD Ryzen 7 5800X3D 285€, PowerColor RX 7900 XTX Hellhound 989€ • SanDisk Ultra NVMe 1TB 39,99€ • Samsung 980 1TB 45€ [Werbung]
    •  /