Deep-Learning: Microsoft skaliert KI-Infrastruktur auf hunderttausende GPUs

Deep-Learning ist sehr ressourcenintensiv. Microsoft beschreibt nun, wie dies global auf hunderttausenden GPUs skaliert werden kann.

Artikel veröffentlicht am ,
Microsoft skaliert sein KI-Training über die gesamte Azure-Cloud.
Microsoft skaliert sein KI-Training über die gesamte Azure-Cloud. (Bild: Oriental Image via Reuters Connect)

Der Software-Konzern Microsoft betreibt offenbar einen weltweit verteilten Dienst zum Scheduling von Machine-Learning-Aufgaben. Das genutzte System heißt Singularity und wird in einem aktuellen Forschungspaper von Microsoft beschrieben, das gleich 26 beteiligte Autoren listet - darunter auch Mark Russinovich, CTO von Microsofts Cloud-Sparte Azure. Primäres Ziel ist dabei vor allem, Kosten zu sparen.

Das grundlegende Problem, das Microsoft hier lösen möchte, ist, dass vor allem für das Training von Deep-Learning-Systemen immer größere Systeme benötigt werden, diese jedoch extrem teuer sind. Damit sich die Anschaffung dennoch rechnet, sollten diese Systeme möglichst voll ausgelastet werden, etwa indem alle Aufgaben innerhalb der Azure-Cloud auf gerade freie Ressourcen verteilt werden können.

Microsoft schreibt dazu: "Singularity verfolgt ein zentrales Ziel: die Senkung der KI-Kosten durch Maximierung des gesamten nützlichen Durchsatzes bei einem bestimmten festen Pool von Beschleunigern im globalen Maßstab". Wie groß das Gesamtsystem inzwischen ist, schreibt Microsoft ebenfalls: "Singularity ist von Grund auf so konzipiert, dass es über eine globale Flotte von Hunderttausenden von GPUs und anderen KI-Beschleunigern skaliert werden kann".

Erreicht wird dies vor allem über zwei Hauptmechanismen: Eine ausgeklügelte Unterbrechung und anschließende Migration einerseits, sowie eine Elastizität andererseits. Für ersteres erstellt Singularity einen kompletten RAM-Schnappschuss des Zustands, der anschließend transferiert und direkt weiter ausgeführt werden kann. Darüber hinaus setzt das Team auf ein sogenanntes Replica-Slicing der eigentlichen Aufgaben, die dadurch elastisch ausgeführt werden können. So soll eine variable Anzahl von Beschleunigern angesprochen werden.

Zur Evaluation setzt Microsoft auf Nvidias DGX-2-Server, die per Infiniband verbunden sind. Jeder dieser Server nutzt einen Xeon Platinum 8168 mit zwei Sockeln und je 20 CPU-Kernen sowie 692 GByte RAM. Hinzu kommen 8 V100 GPUs.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
A Plague Tale Requiem
Mit den richtigen Tricks schaffen kleine Teams tolle Grafik

GDC 2023 A Plague Tale Requiem sieht spektakulär aus - trotz eines relativ kleinen Teams und mit wenig Budget. Ein Macher erklärt, wie das funktioniert hat.

A Plague Tale Requiem: Mit den richtigen Tricks schaffen kleine Teams tolle Grafik
Artikel
  1. Android: Pebble-Macher planen kleines Android-Smartphone
    Android
    Pebble-Macher planen kleines Android-Smartphone

    Pebble-Gründer Eric Migicovsky wünscht sich ein kleines Smartphone - und scheint auf dem Weg zu sein, ein eigenes Modell zu bauen.

  2. CS GO mit Source 2: Das ist Valves Counter-Strike 2
    CS GO mit Source 2
    Das ist Valves Counter-Strike 2

    Es ist offiziell: Valve stellt Counter-Strike 2 vor. Die Source-2-Engine bringt neues Gameplay und soll klassische Tickraten loswerden.

  3. Zum Tod von Spiros Simitis: The Godfather of Datenschutz
    Zum Tod von Spiros Simitis
    The Godfather of Datenschutz

    Spiros Simitis, Wegbereiter des deutschen und europäischen Datenschutzes, ist gestorben. Was hätte er wohl zu den aktuellen Plänen gesagt, gigantische Mengen an Patientendaten der Wissenschaft zur Verfügung zu stellen?
    Ein Nachruf von Christiane Schulzki-Haddouti

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Ryzen 9 7900X3D 619€ • Crucial SSD 2TB (PS5) 158€ • Neu: Amazon Smart TVs ab 189€ • Nur bis 24.03.: 38GB Allnet-Flat 12,99€ • MindStar: Ryzen 9 5900X 319€ • Nintendo Switch inkl. Spiel & Goodie 288€ • NBB Black Weeks: Rabatte bis 60% • PS5 + Spiel 569€ • LG OLED TV -57% [Werbung]
    •  /