Deep-Learning: Microsoft skaliert KI-Infrastruktur auf hunderttausende GPUs

Deep-Learning ist sehr ressourcenintensiv. Microsoft beschreibt nun, wie dies global auf hunderttausenden GPUs skaliert werden kann.

Artikel veröffentlicht am ,
Microsoft skaliert sein KI-Training über die gesamte Azure-Cloud.
Microsoft skaliert sein KI-Training über die gesamte Azure-Cloud. (Bild: Oriental Image via Reuters Connect)

Der Software-Konzern Microsoft betreibt offenbar einen weltweit verteilten Dienst zum Scheduling von Machine-Learning-Aufgaben. Das genutzte System heißt Singularity und wird in einem aktuellen Forschungspaper von Microsoft beschrieben, das gleich 26 beteiligte Autoren listet - darunter auch Mark Russinovich, CTO von Microsofts Cloud-Sparte Azure. Primäres Ziel ist dabei vor allem, Kosten zu sparen.

Stellenmarkt
  1. Senior Product Owner KI & Machine Learning (w/m/d)
    Dataport, verschiedene Standorte
  2. Leiterin / Leiter der Abteilung "Digitale Services und Innovation" des BKA (m/w/d)
    Bundeskriminalamt, Wiesbaden, Berlin, Meckenheim
Detailsuche

Das grundlegende Problem, das Microsoft hier lösen möchte, ist, dass vor allem für das Training von Deep-Learning-Systemen immer größere Systeme benötigt werden, diese jedoch extrem teuer sind. Damit sich die Anschaffung dennoch rechnet, sollten diese Systeme möglichst voll ausgelastet werden, etwa indem alle Aufgaben innerhalb der Azure-Cloud auf gerade freie Ressourcen verteilt werden können.

Microsoft schreibt dazu: "Singularity verfolgt ein zentrales Ziel: die Senkung der KI-Kosten durch Maximierung des gesamten nützlichen Durchsatzes bei einem bestimmten festen Pool von Beschleunigern im globalen Maßstab". Wie groß das Gesamtsystem inzwischen ist, schreibt Microsoft ebenfalls: "Singularity ist von Grund auf so konzipiert, dass es über eine globale Flotte von Hunderttausenden von GPUs und anderen KI-Beschleunigern skaliert werden kann".

Erreicht wird dies vor allem über zwei Hauptmechanismen: Eine ausgeklügelte Unterbrechung und anschließende Migration einerseits, sowie eine Elastizität andererseits. Für ersteres erstellt Singularity einen kompletten RAM-Schnappschuss des Zustands, der anschließend transferiert und direkt weiter ausgeführt werden kann. Darüber hinaus setzt das Team auf ein sogenanntes Replica-Slicing der eigentlichen Aufgaben, die dadurch elastisch ausgeführt werden können. So soll eine variable Anzahl von Beschleunigern angesprochen werden.

Golem Karrierewelt
  1. Kubernetes – das Container Orchestration Framework: virtueller Vier-Tage-Workshop
    11.-14.07.2022, Virtuell
  2. Microsoft 365 Administration: virtueller Drei-Tage-Workshop
    01.-03.06.2022, Virtuell
Weitere IT-Trainings

Zur Evaluation setzt Microsoft auf Nvidias DGX-2-Server, die per Infiniband verbunden sind. Jeder dieser Server nutzt einen Xeon Platinum 8168 mit zwei Sockeln und je 20 CPU-Kernen sowie 692 GByte RAM. Hinzu kommen 8 V100 GPUs.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Liberty Lifter
US-Militär lässt ein eigenes Ekranoplan entwickeln

In den 1960er Jahren schockten die Sowjets den Westen mit dem Kaspischen Seemonster. Die Darpa will ein eigenes, besseres Bodeneffektfahrzeug bauen.

Liberty Lifter: US-Militär lässt ein eigenes Ekranoplan entwickeln
Artikel
  1. Abo: Spielebranche streitet über Game Pass
    Abo
    Spielebranche streitet über Game Pass

    Nach Kritik von Sony gibt es mehr Stimmen aus der Spielebranche, die Game Pass problematisch finden - aber auch klares Lob für das Abo.

  2. Microsoft: Der Android-App-Store für Windows 11 kommt nach Deutschland
    Microsoft
    Der Android-App-Store für Windows 11 kommt nach Deutschland

    Build 2022 Der Microsoft Store soll noch attraktiver werden. So können Kunden ihre Apps künftig ohne lange Wartezeiten direkt veröffentlichen.

  3. Macht mich einfach wahnsinnig: Kelber beklagt digitale Inkompetenz von VW
    "Macht mich einfach wahnsinnig"
    Kelber beklagt digitale Inkompetenz von VW

    Der Bundesdatenschutzbeauftragte Ulrich Kelber hat vor einem Jahr ein Elektroauto bei VW bestellt. Und seitdem nichts mehr davon gehört.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Controller (alle Farben) günstig wie nie: 49,99€ • Samsung SSD 1TB 79€ • LG OLED TV 77" 56% günstiger: 1.099€ • Alternate (u. a. Cooler Master Curved Gaming-Monitor 34" UWQHD 144 Hz 459€) • Sony-Fernseher bis zu 47% günstiger • Samsung schenkt 19% MwSt.[Werbung]
    •  /