Welche Hardware steckt drin?
Golem.de: Sie haben schon ein wenig über die Hardware erzählt, mich interessiert noch, welche CPUs und GPUs genutzt werden.
Fernandez: GPUs sind toll für Bild- und Signalverarbeitung und werden jetzt viel für KI genutzt. Also, ja, wir haben beides an Bord, x86-Prozessoren, eine GPU mit geringer Leistungsaufnahme und ECC-Speicher. Die genauen Modelle nennen wir nur gegen NDA (Non-disclosure agreement, Geheimhaltungsvertrag, Anm. d. Red.). Wenn Wissenschaftler ein Experiment machen und es läuft, dann sagen wir ihnen das, damit sie dafür optimieren können. Aber alles sind Standardkomponenten.
Golem.de: Können Sie mir die Fertigungsprozesse von CPU und GPU nennen? Denn das bringt mich zu einer anderen Frage: Wie lange kann kommerzielle, unmodifizierte Hardware genutzt werden, wenn die Strukturgrößen der Prozessoren geringer werden - was sie anfälliger für Fehler durch Strahlung macht?
Fernandez: Ja, das bringt uns zu dem, was wir Härtung mit Software nennen (Härtung bedeutet, ein System auf Fehler anzupassen und so deren Auswirkung zu minimieren, Anm. d. Red.). Traditionell hat man in der Raumfahrt einen sogenannten präventiven Ansatz verfolgt: Man tut alles, um Fehler zu verhindern. Das bringt einen zum State-of-the-Art-Prozessor für Weltraumflüge, den Rad750.
Er wurde 1997 entwickelt, hat einen mit 200 MHz getakteten Kern und kostet 200.000 US-Dollar. Normalerweise nutzt man davon drei, die eine Mehrheitsentscheidung über das Ergebnis fällen. Das ist nicht nur teuer, man muss auch jemanden finden, der diese Antiquität programmieren kann. Es gibt wenig Speicher, wenig Cache, darauf läuft kein modernes Betriebssystem.
Also haben wir einen, wie die Nasa es nennt, fehlerzentrierten Ansatz (consequential approach) verfolgt. Dabei geht es nicht darum, was einen Fehler verursacht, die Frage ist: Was mache ich, wenn eine Komponente außerhalb der Spezifikation ist, ein Zustand sich zu einem anderen verschlechtert? Wir haben also zwischen Spaceborne 1 und 2 viel Zeit damit verbracht, sogenannte Zustandstabellen zu erstellen. Die Strahlungsleute waren von dem Vorschlag nicht begeistert.
Wir haben also alle, primär durch Strahlung fehleranfälligen Komponenten betrachtet und den Zustandsraum analysiert. Parallel dazu haben unsere Hardware-Experten alle kommerziell verfügbare Redundanz eingebaut. Wir haben natürlich redundante Lüfter, redundante Netzteile.
Wir haben das ins Extreme getrieben - mit redundanten Servern und redundanten Chassis. Die Welt sieht, dass ich einen Computer da oben habe, aber tatsächlich sind es Zwillinge. Ohne dass es jemand mitbekommt, laufen Experimente parallel auf den redundanten Computern. Wenn also mit einem Experiment etwas schiefgeht, habe ich die Ergebnisse vom anderen Server.
In Gesprächen unter anderem mit der Nasa stellte sich heraus, dass sie ihre Anwendungen in virtuelle Maschinen oder Docker migrieren. Das portieren sie auf den Rad750. Gut, sagte ich, ihr könnt eine Menge Geld ausgeben um drei davon ins All zu bringen. Aber im Spaceborne Computer 2 haben wir zehn Sockel, jeder davon hat mehrere Kerne. Ihr habt bereits eine VM, die in einen passt, also könnt ihr statt drei redundanter Kopien 6, 9 oder 12 haben.
Warum lasst ihr nicht eure Experten für Ausfallsicherheit einmal schauen, wie viele erforderlich wären und spart euch das Geld und den Aufwand für die Portierung auf den Rad750? Das ist unsere vorwärtsgerichtete Entwurfsphilosophie. Der Grundgedanke ist, dass der Rad750 den Rechenanforderungen auf dem Mond oder Mars nicht genügt. Beteiligte Wissenschaftler werden dieselben Computer wie in ihrem Labor haben wollen, maximal die vorherige Generation.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Herausforderungen | Das kann Software-Härtung |
Kommentieren