Tachyum Prodigy: Ein slowakisches Luftschloss mit 20 Exaflops

"Von Tachyum entworfene Supercomputer verschieben die Leistungsgrenzen im High-Performance-Computing" , sagt Radoslav Danilak, Gründer und CEO des Unternehmens, zuversichtlich. Anlass ist, dass Tachyum "ein Design für einen Supercomputer mit 20 Exaflops / 10 KI-Zettaflops enthüllt" . Den Supercomputer gibt es allerdings nur auf dem Papier(öffnet im neuen Fenster) .
Dabei handelt es sich um denselben Entwurf, den Tachyum 2022 zu einer Ausschreibung des US-Energieministeriums (Department of Energy, DoE) eingereicht haben will . Er basiert auf der zweiten Generation des von Tachyum entwickelten Prodigy-Chips und soll für die versprochenen 20 Exaflops bei doppelter Genauigkeit (FP64) und 10 Zettaflops mit 8-Bit-Datentypen (FP8/Int8) lediglich 60 MW elektrische Leistung und 6.000 Quadratfuß (knapp 560 Quadratmeter) Grundfläche benötigen.
Die Sache hat nur einen Haken: Tachyum hat bislang nicht einmal vom ersten Prodigy-Prozessor fertige Chips. Ursprünglich sollte der 2020 auf den Markt kommen. Immer wieder steht Tachyum kurz vor dem Tape-out, also der Fertigung der ersten Chips. Noch Mitte 2022 wurden möglichen Kunden die ersten Muster für Ende 2022 in Aussicht gestellt. Auch den Vorverkauf eines Testsystems hatte man bereits gestartet, ohne auch nur einen fertigen Chip zu haben. Noch immer arbeitet Tachyum mit seinem FPGA-Prototyp.
Mit Millionen finanziert – und noch immer kein Chip
Schuld an den Verschiebungen sind indes andere: 2022 machte Tachyum Cadence für die letzte Verzögerung verantwortlich . Das Unternehmen habe bei der Lieferung von Funktionsblöcken (IP-Cores) betrogen. Bemerkt habe Tachyum dies allerdings erst zu einem Zeitpunkt, an dem ein Tape-out im selben Jahr bereits ausgeschlossen gewesen sei.
Derweil sammelt Tachyum fröhlich weiter Geld ein. Erst sollte 2019 mit den 25 Millionen US-Dollar aus der Serie-A-Finanzierung(öffnet im neuen Fenster) der Chip fertig werden, zwei Jahre später versprach Tachyum dasselbe nach der Serie-B-Finanzierung(öffnet im neuen Fenster) . Anfang 2023 soll dann die dritte Finanzierungsrunde gelaufen sein. Im Rahmen des IPCEI-Programms will Tachyum für Prodigy 2 eine Förderung von 26,4 Millionen Euro bekommen. Wörtlich soll damit eine "Finanzierungslücke" geschlossen werden.

Eines kann Tachyum noch besser als Geld sammeln und Prozessoren entwickeln: Pressemitteilungen schreiben. Die erscheinen im Wochentakt, allerdings sind die Entwickler offenbar etwas vergesslich: Ende Januar 2023 starteten sie erfolgreich UEFI(öffnet im neuen Fenster) auf dem FPGA-Prototyp – Ende 2020 hatten sie das schon einmal geschafft(öffnet im neuen Fenster) .
Ob Tachyum eines Tages tatsächlich einen Prozessor liefert, halten wir mittlerweile für fragwürdig. Sollte er doch kommen, dürfte seine Leistung enttäuschen. Das hat technische Gründe.
Reine Rechenleistung sagt gar nichts
Tachyum bewirbt Prodigy stets mit der theoretischen Rechenleistung. Erreicht wird sie durch mit 1.024 Bit sehr breite Recheneinheiten. Dabei handelt es sich allerdings nicht um Vektoreinheiten, wie sie in allen anderen Prozessoren üblich sind. Stattdessen setzt Tachyum auf sogenannte Very Long Instruction Words (VLIW).
Im Gegensatz zu Vektoreinheiten, die parallel einen Befehl auf viele Werte anwenden, sind mit VLIW mehrere unterschiedliche Befehle parallel möglich. Im Extremfall kann für jeden einzelnen Wert ein eigener Befehl ausgeführt werden. Was toll klingt, hat sich praktisch trotz aller Fortschritte der Compiler-Technik als fast unmöglich ausnutzbar erwiesen. Die bekannteste VLIW-Architektur der jüngeren Vergangenheit, Intels Itanium, wurde 2021 eingestellt – aufgrund enttäuschender Leistung und mangelnder Nachfrage.
Das Hauptproblem bei Supercomputern ist nicht, Prozessoren mit hoher theoretischer Rechenleistung zu entwerfen, sondern sie auch kontinuierlich mit ausreichend Befehlen und Daten zu versorgen. Zwar will Tachyum seinem Wunderkind 16 DDR5-Controller spendieren. Deren insgesamt 1.024 Bit breite Anbindung verblasst aber angesichts der 5.120 Bit, die Nvidias H100 parallel aus den fünf HBM3-Stapeln holen kann .
Im Chip wird es eng
Die nächste potenzielle Schwachstelle liegt im Chip selbst: Um auf die versprochene Rechenleistung zu kommen, soll ein Prodigy-Chip bis zu 128 einzelne Prozessoren enthalten. Verbunden sind sie über ein 2D-Gitter-Network-on-Chip (NoC), das schnell zum begrenzenden Faktor wird. Ohne ein ausgeklügeltes Routing entstehen leicht Hotspots, wenn viel Kommunikation über wenige Knotenpunkte läuft.
Zwar haben grundsätzlich alle Chips mit vielen Rechenkernen das gleiche Problem, abgemildert wird das aber oft über hierarchische Kommunikationssysteme. Bei AMDs Chiplet-CPUs etwa teilen sich verhältnismäßig wenige Kerne innerhalb eines Dies die Kommunikationskanäle, für die Kommunikation zwischen den Chiplets gibt es ein separates Netzwerk.
Wird nur innerhalb eines Chiplets kommuniziert, beeinflusst das die außerhalb liegenden Kerne nicht – und wird auch von ihnen nicht beeinflusst. Bei Tachyum hingegen erfolgt sämtliche Kommunikation in einem großen NoC, gegenseitige Störungen sind hier viel wahrscheinlicher.
Beim FPGA-Prototyp fällt das noch kaum ins Gewicht, schließlich sitzen in jedem der vier FPGAs nur zwei Prodigy-Kerne. Auch ein 2D-Gitter kann gut funktionieren, das zeigt Tesla mit seinem D1-Chip für den Supercomputer Dojo . Der wird aber einerseits nicht als Universallösung für alle Rechenprobleme vermarktet, andererseits ist auch in den Entwurf des NoC und des zugehörigen Protokolls viel Arbeit geflossen.
Vielleicht mit viel Aufwand nutzbar
All das bedeutet: Die Leistung des Prodigy-Chips ließe sich nur mit gut abbildbaren Problemen ausreizen. Selbst dann könnte noch viel händische Optimierung erforderlich sein, um etwa die Kommunikation zwischen den einzelnen Chips zu optimieren.
Angesichts der genannten Herausforderungen erscheint es fast nebensächlich, dass Tachyum es beim Vergleich der Leistungsdaten teils nicht ganz so genau zu nehmen scheint. Die genannte Leistung mit 8-Bit-Datentypen dürfte sich auf dünn besetzte Matrizen (sparse matrices) beziehen. Darauf deutet eine ältere Folie hin. Entsprechende Optimierungen enthalten alle aktuellen, für KI-Berechnungen ausgelegten Prozessoren. Tachyum vergleicht sie allerdings offenbar mit der Leistung etwa von Nvidias H100 ohne Sparsity-Optimierung.
Die Versprechungen von Tachyum sind angesichts des öffentlich sichtbaren tatsächlichen Entwicklungsstands so abgehoben, dass für uns folgender Schluss naheliegt: Prodigy wird enden wie andere Wunderprozessoren mit ähnlichen Ideen zuvor. Sollte tatsächlich einmal ein fertiger Chip verfügbar sein, wird die Euphorie schnell der Ernüchterung weichen. Bis dahin wird das Unternehmen versuchen, die Aufregung hoch zu halten – schließlich lassen sich offensichtlich noch immer ausreichend Geldgeber begeistern.
IMHO ist der Kommentar von Golem.de. IMHO = In My Humble Opinion (Meiner bescheidenen Meinung nach).



