• IT-Karriere:
  • Services:

ML-Processor: ARMs Smartphone-NPU schafft 5 Teraops pro Watt

Der ML-Processor ist, der Name impliziert es bereits, für Machine Learning gedacht: Der Funktionsblock von ARM soll neben CPU/GPU in Smartphone-Chips stecken und dort aufwendige Berechnungen bei hochauflösenden Fotos durchführen oder bei der Entsperrung per Gesicht helfen.

Artikel veröffentlicht am ,
Blockdiagramm des ML-Processors
Blockdiagramm des ML-Processors (Bild: ARM)

Apple hat sie, Huawei hat sie und ARM auch: eine sogenannte NPU (Neural Processing Unit) für die dedizierte Berechnung von künstlicher Intelligenz in Smartphone-Chips. Bei ARM wird der Funktionsblock als ML-Processor bezeichnet, er wurde Anfang 2018 als Teil von Project Trillium vorgestellt. Mittlerweile ist der ML-Processor weiter fortgeschritten, weshalb der britische Entwickler sich ausführlicher zu ihm geäußert hat.

Stellenmarkt
  1. BREMER AG, Stuttgart
  2. Schwarz Dienstleistung KG, Raum Neckarsulm

In heutigen Smartphones laufen bereits sehr viele Machine-Learning-Algorithmen, die Chips in den meisten Geräten verwenden dafür aber keine dedizierten Funktionsblöcke, sondern schlicht die CPU-Kerne oder die Grafikeinheit und teils den DSP (Digital Signal Processor): Auf niedrigster Ebene sind das Workloads wie das Scheduling von Apps und deren Threads, etwas aufwendiger ist Spracherkennung. Deutlich mehr Rechenleistung ist bei der Sprachsynthese und den heutzutage alltäglichen Fotos sowie Videos erforderlich.

  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
Präsentation zum ML-Processor alias NPU (Bild: ARM)

Gerade wenn diese hochauflösend in 4K- oder 8K-UHD aufgenommen werden, steigt der Rechenaufwand drastisch an, was sich gut bei Instagram zeigt: Der Bokeh-Filter generiert zwar sehr gute Resultate, fordert aber CPU-Kerne und die Grafikeinheit stark, was zulasten der Akkulaufzeit geht. ARM zufolge sind weltweit rund vier Milliarden Smartphones in Benutzung, aber nur 500 Millionen davon hätten eine NPU integriert. Weil die Workloads kontinuierlich fordernder werden, verbauen immer mehr Hersteller einen Funktionsblock für Machine Learning. Selbst multiple CPU-Kerne schaffen kein Teraops an INT8-Leistung, auch eine Grafikeinheit wie eine Mali-G76 kommt nicht auf 2 Teraops.

Bisher ging ARM von 3 Teraops mit INT8-Genauigkeit pro Watt für den ML-Processor aus, durch eine verbesserte Effizienz und Kompression der neuronalen Netze durch den Winograd-Algorithmus sollen es nun über 5 Teraops pro Watt sein. Konkret verwendet ARM bis zu acht Kerne, um so 32 Teraops an Rechenleistung für Inferencing, also das Anwenden bereits trainierter Netze, zu erreichen. Um möglichst viele Daten für mehr Geschwindigkeit lokal vorzuhalten, hat jeder Core gleich wenigstens ein MByte an SRAM zum Puffern. Die Kerne können dabei mehrere Netze parallel bearbeiten - was häufiger der Fall ist - oder aber gemeinsam kohärent an einem rechnen. Ein Beispiel sind extrem hochauflösende Fotos wie 360-Grad-Aufnahmen oder 8K60-Videos.

Der ML-Processor hat eigene Firmware, um bei Anwendungen wie der Entsperrung des Smartphones per Gesicht die notwendigen Daten zu schützen; überdies ist sie mit ARMs Trustzone verknüpft. Der Hersteller betont zudem, dass Sicherheit von mehr als einem IP-Block abhänge und eine System-weite Anpassung von Hardware und Software erfordere. Rein von der physischen Implementierung her, also der Fläche des ML-Processors, sagt ARM, dass die NPU deutlich kompakter sei als ein CPU-Cluster oder eine Grafikeinheit. Das verwundert wenig, denn neben der Leistung pro Watt ist auch die Geschwindigkeit pro Quadratmillimeter eine wichtige Metrik bei jedem Funktionsblock eines Smartphone-Chips.

ARM zufolge ist der ML-Processor auf 16 nm und 7 nm ausgelegt, der RTL-Code für Partner existiert bereits und es gibt multiple Lizenznehmer. Wer das ist und wann deren Designs erscheinen, wollte ARM wie üblich nicht kommentieren. Neben Apple und Huawei hat auch Mediatek eine eigene NPU, wohingegen Qualcomm eine extra Tensor-Einheit im DSP für künstliche Intelligenz entwickelt hat. Wie wichtig eine NPU ist, zeigt Google: Deren Assisstant läuft mittlerweile auf dem Gerät und nicht mehr in der Cloud.

Software-seitig nutzt ARM das eigene NN-Framework, eine Open-Source-Inferencing-Engine. Deren Performance liegt ARM zufolge deutlich über der vieler Partner-Lösungen, egal ob sie von einem Cortex-Kern, einer Mali-GPU oder einer NPU ausgeführt wird. Das NN-Framework werde daher bereits in über 250 Millionen Geräten eingesetzt.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Tech Day in London teilgenommen, die Reisekosten wurden gänzlich von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. (-77%) 6,99€
  2. 3,74€
  3. (-69%) 24,99€
  4. (-72%) 8,50€

Folgen Sie uns
       


Minikonsolen im Vergleich - Golem retro

Retro-Faktor, Steuerung, Emulationsqualität: Wir haben sieben Minikonsolen miteinander verglichen.

Minikonsolen im Vergleich - Golem retro Video aufrufen
Verkehr: Das Kaltstart-Dilemma der Autos mit Hybridantrieb
Verkehr
Das Kaltstart-Dilemma der Autos mit Hybridantrieb

Bei Hybridautos und Plugin-Hybriden kommt es häufiger zu Kaltstarts als bei normalen Verbrennungsmotoren - wenn der Verbrennungsmotor ausgeht und der Elektromotor das Auto durch die Stadt schiebt. Wie schnell lässt sich der Katalysator vorwärmen, damit er Abgase dennoch gut reinigen kann?
Von Rainer Klose

  1. Elektromobilität Umweltbonus gilt auch für Jahreswagen
  2. Renault City K-ZE Dacia plant City-Elektroauto
  3. Elektroautos EU-Kommission billigt höheren Umweltbonus

Generationenübergreifend arbeiten: Bloß nicht streiten
Generationenübergreifend arbeiten
Bloß nicht streiten

Passen Generation Silberlocke und Generation Social Media in ein IT-Team? Ganz klar: ja! Wenn sie ihr Wissen teilen, kommt am Ende sogar Besseres heraus. Entscheidend ist die gleiche Wertschätzung beider Altersgruppen und keine Konflikte in den altersgemischten Teams.
Von Peter Ilg

  1. Frauen in der Technik Von wegen keine Vorbilder!
  2. Arbeit Warum anderswo mehr Frauen IT-Berufe ergreifen
  3. Arbeit Was IT-Recruiting von der Bundesliga lernen kann

Videostreaming: Was an Prime Video und Netflix nervt
Videostreaming
Was an Prime Video und Netflix nervt

Eine ständig anders sortierte Watchlist, ein automatisch startender Stream oder fehlende Markierungen für Aboinhalte: Oft sind es nur Kleinigkeiten, die den Spaß am Streaming vermiesen - eine Hassliste.
Ein IMHO von Ingo Pakalski

  1. WhatsOnFlix Smartphone-App für bessere Verwaltung der Netflix-Inhalte
  2. Netflix Staffel-2-Trailer zeigt Cyberpunk-Welt von Altered Carbon
  3. Videostreaming Netflix musste Night of the Living Dead entfernen

    •  /