Zum Hauptinhalt Zur Navigation Zur Suche

Der Raspberry Pi 3B protzt mit Speicherbandbreite

Mit einer Speicherbandbreite von rund 1,5 GByte/s beim Kopieren von Daten liegt der BCM2837 deutlich vor dem LS2K0300 mit knapp 670 MByte/s. Zwar ist bei Letzterem DDR4-RAM verbaut, der 16-Bit-Speicherbus wird allerdings nur mit 1.600 MT/s betrieben. Wir müssen uns hier jedoch vor Augen halten, dass die Speicheranbindung beim BCM2837 für vier Kerne entworfen ist.

Allerdings sind auch die Caches des Loongson-SoC dem Broadcom-Konkurrenten unterlegen. Darauf lassen die Ergebnisse des Tools Cache Calibrator(öffnet im neuen Fenster) schließen. Es analysiert die Cache-Hierarchie eines Chips sowie den Translation Lookaside Buffer (TLB). Zwar sind L1- und L2-Cache des LS2K0300 mit 32 und 512 KByte gleich groß wie beim BCM2837, während dem älteren BCM2835 nur 16 und 128 KByte zur Verfügung stehen.

Loongsons Caches brauchen lange

Der LS2K0300 weist im Vergleich zum BCM2837 allerdings deutlich höhere Latenzen auf: Ein L1-Zugriff benötigt 4 statt 3 Takte, beim L2 sind es bis zu 23 Takte, während der BCM2837 auf maximal 8 kommt.

Dieses Bild setzt sich bei Zugriffen auf den RAM fort: Beim BCM2837 dauern die lediglich 34 Takte, der LS2K0300 braucht 43 Takte. Zudem ist der TLB des LA264-Kerns deutlich kleiner als bei Broadcoms Implementierung des Cortex-A53. Der LA264 nutzt einen einstufigen TLB mit 64 Einträgen, beim Cortex-A53 sind zwei Stufen mit 12 und 512 Einträgen zu erkennen.

Während Zugriffe auf den kleineren TLB 3 Takte brauchen, sind es beim größeren 5. Der LS2K0300 liegt mit einer Latenz von 4 Zyklen dazwischen, braucht aber für die Seitenübersetzung wesentlich länger. Hier scheint die Speicherverwaltung 32-KByte-Seiten zu nutzen, weshalb der TLB des LS2K0300 trotz geringerer Größe die gleiche Speichermenge abdeckt.

Der LS2K0300 überrascht uns allerdings auch mit einer Kuriosität: Bei Zugriffsmustern, die zweimal auf die gleiche, wohl 64 Byte große Cacheline zugreifen, treten höhere Latenzen auf, wenn die Cacheline aus dem RAM gelesen werden muss. Es hat den Anschein, als würde die zugegriffene Cacheline zweimal in den Cache geladen.

Grundsätzlich kommt Loongsons Einordnung des LA264-Kerns also hin. Unsere Benchmarks zeigen aber auch: Ein leistungsfähiges SoC braucht mehr als nur einen leistungsfähigen Prozessorkern. Das relativ schwache Speichersystem schränkt in der Praxis die Leistung ein.


Relevante Themen