ML-Processor: ARMs Smartphone-NPU schafft 5 Teraops pro Watt

Der ML-Processor ist, der Name impliziert es bereits, für Machine Learning gedacht: Der Funktionsblock von ARM soll neben CPU/GPU in Smartphone-Chips stecken und dort aufwendige Berechnungen bei hochauflösenden Fotos durchführen oder bei der Entsperrung per Gesicht helfen.

Artikel veröffentlicht am ,
Blockdiagramm des ML-Processors
Blockdiagramm des ML-Processors (Bild: ARM)

Apple hat sie, Huawei hat sie und ARM auch: eine sogenannte NPU (Neural Processing Unit) für die dedizierte Berechnung von künstlicher Intelligenz in Smartphone-Chips. Bei ARM wird der Funktionsblock als ML-Processor bezeichnet, er wurde Anfang 2018 als Teil von Project Trillium vorgestellt. Mittlerweile ist der ML-Processor weiter fortgeschritten, weshalb der britische Entwickler sich ausführlicher zu ihm geäußert hat.

Stellenmarkt
  1. Sachgebietsleitung (m/w/d) Informations- und Kommunikationstechnik
    Landesbetrieb für Hochwasserschutz und Wasserwirtschaft Sachsen-Anhalt (LHW), Magdeburg
  2. Datenbank-Entwickler (m/w/d)
    DZ PRIVATBANK S.A., Luxemburg (Luxemburg)
Detailsuche

In heutigen Smartphones laufen bereits sehr viele Machine-Learning-Algorithmen, die Chips in den meisten Geräten verwenden dafür aber keine dedizierten Funktionsblöcke, sondern schlicht die CPU-Kerne oder die Grafikeinheit und teils den DSP (Digital Signal Processor): Auf niedrigster Ebene sind das Workloads wie das Scheduling von Apps und deren Threads, etwas aufwendiger ist Spracherkennung. Deutlich mehr Rechenleistung ist bei der Sprachsynthese und den heutzutage alltäglichen Fotos sowie Videos erforderlich.

  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
  • Präsentation zum ML-Processor alias NPU (Bild: ARM)
Präsentation zum ML-Processor alias NPU (Bild: ARM)

Gerade wenn diese hochauflösend in 4K- oder 8K-UHD aufgenommen werden, steigt der Rechenaufwand drastisch an, was sich gut bei Instagram zeigt: Der Bokeh-Filter generiert zwar sehr gute Resultate, fordert aber CPU-Kerne und die Grafikeinheit stark, was zulasten der Akkulaufzeit geht. ARM zufolge sind weltweit rund vier Milliarden Smartphones in Benutzung, aber nur 500 Millionen davon hätten eine NPU integriert. Weil die Workloads kontinuierlich fordernder werden, verbauen immer mehr Hersteller einen Funktionsblock für Machine Learning. Selbst multiple CPU-Kerne schaffen kein Teraops an INT8-Leistung, auch eine Grafikeinheit wie eine Mali-G76 kommt nicht auf 2 Teraops.

Bisher ging ARM von 3 Teraops mit INT8-Genauigkeit pro Watt für den ML-Processor aus, durch eine verbesserte Effizienz und Kompression der neuronalen Netze durch den Winograd-Algorithmus sollen es nun über 5 Teraops pro Watt sein. Konkret verwendet ARM bis zu acht Kerne, um so 32 Teraops an Rechenleistung für Inferencing, also das Anwenden bereits trainierter Netze, zu erreichen. Um möglichst viele Daten für mehr Geschwindigkeit lokal vorzuhalten, hat jeder Core gleich wenigstens ein MByte an SRAM zum Puffern. Die Kerne können dabei mehrere Netze parallel bearbeiten - was häufiger der Fall ist - oder aber gemeinsam kohärent an einem rechnen. Ein Beispiel sind extrem hochauflösende Fotos wie 360-Grad-Aufnahmen oder 8K60-Videos.

Golem Akademie
  1. IT-Fachseminare der Golem Akademie
    Live-Workshops zu Schlüsselqualifikationen
  2. 1:1-Videocoaching mit Golem Shifoo
    Berufliche Herausforderungen meistern
  3. Online-Sprachkurse mit Golem & Gymglish
    Kurze Lektionen, die funktionieren
Weitere IT-Trainings

Der ML-Processor hat eigene Firmware, um bei Anwendungen wie der Entsperrung des Smartphones per Gesicht die notwendigen Daten zu schützen; überdies ist sie mit ARMs Trustzone verknüpft. Der Hersteller betont zudem, dass Sicherheit von mehr als einem IP-Block abhänge und eine System-weite Anpassung von Hardware und Software erfordere. Rein von der physischen Implementierung her, also der Fläche des ML-Processors, sagt ARM, dass die NPU deutlich kompakter sei als ein CPU-Cluster oder eine Grafikeinheit. Das verwundert wenig, denn neben der Leistung pro Watt ist auch die Geschwindigkeit pro Quadratmillimeter eine wichtige Metrik bei jedem Funktionsblock eines Smartphone-Chips.

ARM zufolge ist der ML-Processor auf 16 nm und 7 nm ausgelegt, der RTL-Code für Partner existiert bereits und es gibt multiple Lizenznehmer. Wer das ist und wann deren Designs erscheinen, wollte ARM wie üblich nicht kommentieren. Neben Apple und Huawei hat auch Mediatek eine eigene NPU, wohingegen Qualcomm eine extra Tensor-Einheit im DSP für künstliche Intelligenz entwickelt hat. Wie wichtig eine NPU ist, zeigt Google: Deren Assisstant läuft mittlerweile auf dem Gerät und nicht mehr in der Cloud.

Software-seitig nutzt ARM das eigene NN-Framework, eine Open-Source-Inferencing-Engine. Deren Performance liegt ARM zufolge deutlich über der vieler Partner-Lösungen, egal ob sie von einem Cortex-Kern, einer Mali-GPU oder einer NPU ausgeführt wird. Das NN-Framework werde daher bereits in über 250 Millionen Geräten eingesetzt.

Offenlegung: Golem.de hat auf Einladung von ARM hin am Tech Day in London teilgenommen, die Reisekosten wurden gänzlich von ARM übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben seitens Dritter.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Akkutechnik
CATL stellt erste Natrium-Ionen-Akkus für Autos vor

160 Wh pro Kilogramm. 80 Prozent Akkuladung in 15 Minuten. 90 Prozent Kapazität bei minus 20 Grad Celsius. CATL startet eine neue Ära der Akku-Technik.
Eine Analyse von Frank Wunderlich-Pfeiffer

Akkutechnik: CATL stellt erste Natrium-Ionen-Akkus für Autos vor
Artikel
  1. Erneuerbare Energien: Größte Gezeitenturbine geht vor Schottland in Betrieb
    Erneuerbare Energien
    Größte Gezeitenturbine geht vor Schottland in Betrieb

    Die Meere bieten viel Energie, die sich in elektrischen Strom wandeln lässt. In Schottland ist gerade ein neues Gezeitenkraftwerk ans Netz gegangen.

  2. Verschlüsselung: Windows-Verschlüsselung Bitlocker trotz TPM-Schutz umgangen
    Verschlüsselung
    Windows-Verschlüsselung Bitlocker trotz TPM-Schutz umgangen

    Eine mit Bitlocker verschlüsselte SSD mit TPM-Schutz lässt sich relativ einfach knacken. Ein Passwort schützt, ist aber nicht der Standard.

  3. Spionagesoftware: Israelische Behörden überprüfen Pegasus-Hersteller NSO
    Spionagesoftware
    Israelische Behörden überprüfen Pegasus-Hersteller NSO

    War es eine Razzia oder eine freundliche Besichtigung? Der diplomatische Druck auf Israel wegen des Trojaner-Herstellers NSO zeigt offenbar Wirkung.


Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Bosch Professional günstiger • Asus TUF Gaming 23,8" FHD 144Hz 169€ • Acer-Chromebooks zu Bestpreisen (u. a. 14" 64GB 229€) • Alternate (u. a. Deepcool-Gehäuselüfter ab 24,99€) • EA-Spiele (PC) günstiger (u. a. Battlefield 5 5,99€) • Philips-Fernseher 65" Ambilight 679€ [Werbung]
    •  /