Abo
  • IT-Karriere:

ML-Processor: ARMs Smartphone-NPU schafft 5 Teraops pro Watt

Der ML-Processor ist, der Name impliziert es bereits, für Machine Learning gedacht: Der Funktionsblock von ARM soll neben CPU/GPU in Smartphone-Chips stecken und dort aufwendige Berechnungen bei hochauflösenden Fotos durchführen oder bei der Entsperrung per Gesicht helfen.

Artikel veröffentlicht am ,
Blockdiagramm des ML-Processors
Blockdiagramm des ML-Processors (Bild: ARM)

Apple hat sie, Huawei hat sie und ARM auch: eine sogenannte NPU (Neural Processing Unit) für die dedizierte Berechnung von künstlicher Intelligenz in Smartphone-Chips. Bei ARM wird der Funktionsblock als ML-Processor bezeichnet, er wurde Anfang 2018 als Teil von Project Trillium vorgestellt. Mittlerweile ist der ML-Processor weiter fortgeschritten, weshalb der britische Entwickler sich ausführlicher zu ihm geäußert hat.

Stellenmarkt
  1. Stadt Soltau, Soltau
  2. SCHOTT AG, Mainz

In heutigen Smartphones laufen bereits sehr viele Machine-Learning-Algorithmen, die Chips in den meisten Geräten verwenden dafür aber keine dedizierten Funktionsblöcke, sondern schlicht die CPU-Kerne oder die Grafikeinheit und teils den DSP (Digital Signal Processor): Auf niedrigster Ebene sind das Workloads wie das Scheduling von Apps und deren Threads, etwas aufwendiger ist Spracherkennung. Deutlich mehr Rechenleistung ist bei der Sprachsynthese und den heutzutage alltäglichen Fotos sowie Videos erforderlich.

  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
Präsentation zum ML-Processor alias NPU (Bild: ARM)

Gerade wenn diese hochauflösend in 4K- oder 8K-UHD aufgenommen werden, steigt der Rechenaufwand drastisch an, was sich gut bei Instagram zeigt: Der Bokeh-Filter generiert zwar sehr gute Resultate, fordert aber CPU-Kerne und die Grafikeinheit stark, was zulasten der Akkulaufzeit geht. ARM zufolge sind weltweit rund vier Milliarden Smartphones in Benutzung, aber nur 500 Millionen davon hätten eine NPU integriert. Weil die Workloads kontinuierlich fordernder werden, verbauen immer mehr Hersteller einen Funktionsblock für Machine Learning. Selbst multiple CPU-Kerne schaffen kein Teraops an INT8-Leistung, auch eine Grafikeinheit wie eine Mali-G76 kommt nicht auf 2 Teraops.

Bisher ging ARM von 3 Teraops mit INT8-Genauigkeit pro Watt für den ML-Processor aus, durch eine verbesserte Effizienz und Kompression der neuronalen Netze durch den Winograd-Algorithmus sollen es nun über 5 Teraops pro Watt sein. Konkret verwendet ARM bis zu acht Kerne, um so 32 Teraops an Rechenleistung für Inferencing, also das Anwenden bereits trainierter Netze, zu erreichen. Um möglichst viele Daten für mehr Geschwindigkeit lokal vorzuhalten, hat jeder Core gleich ein MByte an SRAM zum Puffern. Die Kerne können dabei mehrere Netze parallel bearbeiten - was häufiger der Fall ist - oder aber gemeinsam kohärent an einem rechnen. Ein Beispiel sind extrem hochauflösende Fotos wie 360-Grad-Aufnahmen oder 8K60-Videos.

Der ML-Processor hat eigene Firmware, um bei Anwendungen wie der Entsperrung des Smartphones per Gesicht die notwendigen Daten zu schützen; überdies ist sie mit ARMs Trustzone verknüpft. Der Hersteller betont zudem, dass Sicherheit von mehr als einem IP-Block abhänge und eine System-weite Anpassung von Hardware und Software erfordere. Rein von der physischen Implementierung her, also der Fläche des ML-Processors, sagt ARM, dass die NPU deutlich kompakter sei als ein CPU-Cluster oder eine Grafikeinheit. Das verwundert wenig, denn neben der Leistung pro Watt ist auch die Geschwindigkeit pro Quadratmillimeter eine wichtige Metrik bei jedem Funktionsblock eines Smartphone-Chips.

ARM zufolge ist der ML-Processor auf 16 nm und 7 nm ausgelegt, der RTL-Code für Partner existiert bereits und es gibt multiple Lizenznehmer. Wer das ist und wann deren Designs erscheinen, wollte ARM wie üblich nicht kommentieren. Neben Apple und Huawei hat auch Mediatek eine eigene NPU, wohingegen Qualcomm eine extra Tensor-Einheit im DSP für künstliche Intelligenz entwickelt hat. Wie wichtig eine NPU ist, zeigt Google: Deren Assisstant läuft mittlerweile auf dem Gerät und nicht mehr in der Cloud.

Software-seitig nutzt ARM das eigene NN-Framework, eine Open-Source-Inferencing-Engine. Deren Performance liegt ARM zufolge deutlich über der vieler Partner-Lösungen, egal ob sie von einem Cortex-Kern, einer Mali-GPU oder einer NPU ausgeführt wird. Das NN-Framework werde daher bereits in über 250 Millionen Geräten eingesetzt.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Tech Day in London teilgenommen, die Reisekosten wurden gänzlich von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.



Anzeige
Hardware-Angebote
  1. 157,90€ + Versand

Folgen Sie uns
       


Red Magic 3 - Test

Das Red Magic 3 richtet sich an Gamer - dank der Topausstattung und eines Preises von nur 480 Euro ist das Smartphone aber generell lohnenswert.

Red Magic 3 - Test Video aufrufen
Black Mirror Staffel 5: Der Gesellschaft den Spiegel vorhalten
Black Mirror Staffel 5
Der Gesellschaft den Spiegel vorhalten

Black Mirror zeigt in der neuen Staffel noch alltagsnäher als bisher, wie heutige Technologien das Leben in der Zukunft katastrophal auf den Kopf stellen könnten. Dabei greift die Serie auch aktuelle Diskussionen auf und zeigt mitunter, was bereits im heutigen Alltag schiefläuft - ein Meisterwerk! Achtung, Spoiler!
Eine Rezension von Tobias Költzsch

  1. Streaming Netflix testet an Instagram erinnernden News-Feed
  2. Start von Disney+ Netflix wird nicht dauerhaft alle Disney-Inhalte verlieren
  3. Videostreaming Netflix will Zuschauerzahlen nicht länger geheim halten

Projektmanagement: An der falschen Stelle automatisiert
Projektmanagement
An der falschen Stelle automatisiert

Kommunikationstools und künstliche Intelligenz sollen dabei helfen, dass IT-Projekte besser und schneller fertig werden. Demnächst sollen sie sogar Posten wie den des Projektmanagers überflüssig machen. Doch das wird voraussichtlich nicht passieren.
Ein Erfahrungsbericht von Marvin Engel


    Final Fantasy 7 Remake angespielt: Cloud Strife und die (fast) unendliche Geschichte
    Final Fantasy 7 Remake angespielt
    Cloud Strife und die (fast) unendliche Geschichte

    E3 2019 Das Remake von Final Fantasy 7 wird ein Riesenprojekt, allein die erste Episode erscheint auf zwei Blu-ray-Discs. Kurios: In wie viele Folgen das bereits enorm umfangreiche Original von 1997 aufgeteilt wird, kann bislang nicht mal der Producer sagen.

    1. Final Fantasy 14 Online Report Zwischen Cosplay, Kirmes und Kampfsystem
    2. Square Enix Final Fantasy 14 erhält Solo-Inhalte und besonderen Magier
    3. Rollenspiel Square Enix streicht Erweiterungen für Final Fantasy 15

      •  /