Notebook-CPU:Panther Lake soll mit hoher Leistung glänzen
Bis zu 16 Kerne, leistungsfähige GPU und 180 TOps KI-Rechenleistung: Intel will Apple, AMD und Qualcomm Konkurrenz machen – ein Detail gibt aber zu denken.
Panterh Lake in der Variante mit 16 CPU- und 12 Xe3-KernenBild:
Johannes Hiltscher/Golem.de
Bei der Intel Tech Tour (ITT) 2025 hat der Halbleiterhersteller seine nächste Prozessorgeneration gezeigt: Panther Lake für mobile Geräte und Clearwater Forest alias Xeon 6+ als nächsten auf Kernanzahl optimierten Server-Prozessor. Letzteren hatte Intel bereits im Rahmen der Hot Chips ausführlich vorgestellt , der Schwerpunkt der ITT war sehr deutlich Panther Lake.
Hier vereint Intel die Stärken von Lunar Lake ( Test ) – hohe Effizienz und leistungsfähige NPU – mit denen von Arrow Lake-H – viele CPU-Kerne und eine leistungsfähige GPU.
Intel setzt mit Panther Lake weiter stark auf KI, insbesondere Agenten standen im Fokus der Vorstellung. Die Chips kommen auf bis zu 180 TOps. Auf dem Package sind wieder drei Chiplets mittels Foveros-S auf einem passiven Silizium-Interposer montiert. Das Compute Tile ist dabei das größte, Intel fertigt es im Intel-18A-Prozess selbst und in zwei Varianten.
Die Basisversion kommt mit vier Performance-Kernen (P-Cores) mit neuer Cougar-Cove-Architektur und ebenso vielen auf Effizienz optimierten Darkmont-Kernen (E-Cores). Die Darkmont-Kerne bilden ein eigenes Low-Power-Cluster und sind nicht an den vermutlich 12 MByte großen L3-Cache angebunden. Auf die Details gehen wir noch ein.
Bild 1/4: Die Panther-Lake-Variante mit großer GPU, die einzelnen Dies sind gut erkennbar: oben das Platform Controller Tile zwischen zwei kleinen Filler Tiles, unten links das Compute Tile, rechts das GPU Tile. (Bild: Johannes Hiltscher/Golem.de)
Bild 2/4: Die kleinste Variante kommt mit nur einem Filler Tile rechts oben. (Bild: Johannes Hiltscher/Golem.de)
Bild 3/4: Auf diesem Wafer sind die Strukturen des großen Compute Tiles gut erkennbar. Es steht auf dem Kopf, unten die beiden E-Core-Cluster, rechts oben die NPU. (Bild: Johannes Hiltscher/Golem.de)
Bild 4/4: Die beiden Panther-Lake-Chips vor einem Wafer mit Compute Tiles. (Bild: Johannes Hiltscher/Golem.de)
Daneben wird Intel eine Variante mit bis zu 16 Kernen anbieten: Zur Grundausstattung kommen acht weitere E-Cores hinzu, die wie die P-Cores an den hier 18 MByte großen L3-Cache angebunden sind.
Drei Varianten, viele Modelle
Auch die beiden anderen Chiplets, das GPU- und Platform-Controller-Tile (PCT), gibt es in jeweils zwei Varianten. Das GPU-Tile kommt mit vier oder zwölf Xe3-Kernen, die auf 4 respektive 16 MByte L2-Cache zugreifen können. Die Kerne sind in jeweils zwei Clustern organisiert.
Bild 1/33: Trotz Xe3-Kernen zählt Intel die GPU von Panther Lake zur B-Serie. Ein C erhalten erst die erstmals erwähnten Xe3P. (Bild: Intel)
Bild 2/33: Mit Xe3 können sechs statt vier Kerne ein Cluster bilden. (Bild: Intel)
Bild 3/33: Die 12-Kern-Variante der GPU ist optisch gut erkennbar, da deutlich größer. (Bild: Intel)
Bild 4/33: Die Basisvariante der GPU besteht aus zwei Clustern mit je zwei Xe3-Kernen. (Bild: Intel)
Bild 5/33: Auch die große GPU-Variante besteht aus zwei Clustern, allerdings im Vollausbau. (Bild: Intel)
Bild 6/33: Die dynamische Reservierung von Registern und mehr Threads sind auf den ersten Blick die markantesten Neuerungen von Xe3. (Bild: Intel)
Bild 7/33: Xe3 unterscheidet sich bei der Anzahl der Operationen pro Takt nicht vom Vorgänger. Aufgrund von Optimierungen und mehr Recheneinheiten steigt die Rechenleistung aber um 80 Prozent. (Bild: Intel)
Bild 8/33: Die Funktionseinheiten von Xe3 im Überblick. (Bild: Intel)
Bild 9/33: Mikrobenchmarks zeigen die teilweise deutlichen Leistungssteigerungen der einzelnen GPU-Komponenten. (Bild: Intel)
Bild 10/33: Die Spitzenleistung der GPU steigt verglichen mit Lunar Lake deutlich. Das Plus von 50 Prozent braucht allerdings auch mehr Energie. (Bild: Intel)
Bild 11/33: Verglichen mit Arrow Lake benötigt die Xe3-GPU bei gleicher Leistung 40 Prozent weniger Energie. (Bild: Intel)
Bild 12/33: Die Verbesserungen der Xe3-GPU im Überblick. (Bild: Intel)
Bild 13/33: Die NPU 5 rechts fasst die Recheneinheiten von zwei Compute Engines zusammen, die Anzahl der anderen Komponenten bleibt gleich. (Bild: Intel)
Bild 14/33: Die NPU 5 im Detail. (Bild: Intel)
Bild 15/33: Die NPU ist in fast allem schneller - nur bei den Aktivierungsfunktionen gibt es einen Rückschritt. (Bild: Intel)
Bild 16/33: Insgesamt kommen CPU-Kerne, NPU und GPU auf 180 TOps 8-Bit-Rechenleistung. Praktisch wird aber meist wohl nur eine Einheit genutzt. (Bild: Intel)
Bild 17/33: Cougar Cove wurde in Details verbessert. (Bild: Intel)
Bild 18/33: Die P-Cores sind auf maximale Single-Thread-Leistung optimiert. (Bild: Intel)
Bild 19/33: Die Verbesserungen von Darkmont im Überblick. (Bild: Intel)
Bild 20/33: Die Darkmont E-Cores haben viele Ausführungseinheiten und drei parallel arbeitende Befehlsdecoder. (Bild: Intel)
Bild 21/33: Mit mehr und leistungsfähigeren Kernen rechnet Panther Lake bei gleicher Leistungsaufnahme 50 Prozent schneller als Lunar Lake. (Bild: Intel)
Bild 22/33: Verglichen mit Arrow Lake-H benötigt Panther Lake für die gleiche Rechenleistung 30 Prozent weniger Energie. (Bild: Intel)
Bild 23/33: Panther Lake kombiniert das Beste von Lunar Lake und Arrow Lake-H. (Bild: Intel)
Bild 24/33: Die LP-E-Cores sind nicht an den L3-Cache angebunden. Der kann so komplett abgeschaltet werden, wenn P- und E-Cores nicht benötigt werden. (Bild: Intel)
Bild 25/33: Die drei Tiles werden per Foveros-S auf einen Silizium-Interposer montiert. (Bild: Intel)
Bild 26/33: Drei Varianten, alle im selben Package: Das soll es OEMs einfach machen, auf Basis eines Mainboards mehrere Modellvarianten anzubieten. (Bild: Intel)
Bild 27/33: Die kleinste Variante von Panther Lake kommt mit 4 P-Cores, 4 LP-E-Cores und 4 Xe3-Kernen. (Bild: Intel)
Bild 28/33: Im Maximalausbau enthält das Compute Tile insgesamt 12 E-Cores, mehr als 4 P-Cores gibt es nicht. (Bild: Intel)
Bild 29/33: Die große Variante des Compute Tile gibt es auch mit 12-Kern-GPU. (Bild: Intel)
Bild 30/33: Aus drei Tiles in je zwei Varianten baut Intel drei Basismodelle von Panther Lake. (Bild: Intel)
Bild 31/33: Die einzelnen Bereiche des Compute Tiles im Überblick. (Bild: Intel)
Bild 32/33: Insbesondere die dynamische Zuweisung von Registern kann einen deutlichen Leistungssprung bringen. (Bild: Intel)
Bild 33/33: Mit Upscaling und Multi Frame Generation hat die GPU vier Bilder schneller fertig als eines ohne XeSS. (Bild: Intel)
Beim PCT machen die PCIe-Lanes den Unterschied: Es werden Varianten mit 12 oder 20 Lanes angeboten, acht davon entsprechen jeweils PCIe Gen 4, der Rest Gen 5. Beide Varianten enthalten vier Thunderbolt-4-Schnittstellen, für Thunderbolt 5 ist externe Hardware erforderlich. Zusätzlich gibt es zweimal USB 3.2 und achtmal USB 2.0.
Außerdem ist MAC-Hardware (Medium Access Control) für Wi-Fi 7 R2 und Bluetooth Core 6.0 integriert. Die Phys (Medienzugriff) werden als externe Steckkarte ergänzt. Die Xe Media Engine im Compute Tile unterstützt neben VP9, VVC und HEVC nun auch AVC, AV1 sowie Sonys XAVC.
Der Wi-Fi-MAC kann mit bis zu 320 MHz Bandbreite funken, unterstützt die 2,4-, 5- und 6-GHz-Bänder sowie neue Features wie Puncturing, wobei Teilbereiche des Spektrums etwa wegen höherer Störungen nicht genutzt werden, die dynamische Rekonfiguration von Multi-Link-Verbindungen sowie die Zusicherung fester Bandbreiten für einzelne Geräte.
Weniger Fertigung bei TSMC
Das mit Abstand größte Tile für Panther Lake fertigt Intel wie geplant wieder selbst, nachdem lange ein großer Teil der Fertigung zu TSMC ausgelagert war .
Das kleinere GPU-Tile fertigt ebenfalls Intel Foundry Services (IFS) im Intel-3-Prozess , das größere kommt von TSMC und wird mit N3E gefertigt. Auch das PCT kauft Intel wieder von TSMC zu, es wird im N6-Prozess gefertigt, der EUV-Variante von TSMCs Familie von 7-nm-Prozessen. Auch das Packaging übernimmt IFS.
Auf dieser Grundlage wird Intel drei Varianten von Panther Lake anbieten, die allerdings alle das gleiche Package nutzen. Notebook-Hersteller sollen so mit geringem Aufwand eine breite Modellvielfalt anbieten können. Die drei Varianten lassen sich recht deutlich dem Einstiegssegment (8-Kern Compute Tile, 4-Kern GPU Tile und kleines PCT), dem Gaming-Segment mit dedizierter GPU (16-Kern Compute Tile, 4-Kern GPU Tile und großes CPT) sowie kompakten High-End-Systemen (16-Kern Compute Tile, 12-Kern GPU-Tile und kleines PCT) zuordnen.
Von diesen Basisvarianten werden durch Deaktivieren von Kernen verschiedene Modelle abgeleitet. E-Cores können dabei nur als Cluster deaktiviert werden, ähnlich verhält es sich mit den Xe3-Kernen der GPU: Hier können nur vollständige Cluster deaktiviert werden. Die exakte Modellpalette wird Intel voraussichtlich zur CES vorstellen.
Durchbruch für CAMM?
Als weitere Differenzierung nutzt Intel die Transferrate des im Compute Tile integrierten 128-Bit-Speichercontrollers: Der unterstützt DDR5- und LPDDR5x-Speicher mit 6.400/6.800 und 7.200/8.533 MT/s bei Einstiegs- und Gaming-Variante, bei der Variante mit 12-Kern-GPU nannte Intel lediglich LPDDR5x mit 9.600 MT/s – weniger dürfte die GPU ausbremsen. Unterstützt werden bis zu 96 GByte LPDDR5x- oder 128 GByte DDR5-RAM. Intel weist explizit auf die Unterstützung von CAMM2 (Compression-Attached Memory Module) hin, vielleicht erlebt der Standard mit Panther Lake seinen Durchbruch.
Besondere Aufmerksamkeit hat Intel bei der Vorstellung der GPU gewidmet.
Die GPU und XeSS werden leistungsfähiger
Während die Cluster nun 50 Prozent mehr Kerne umfassen können, bleibt deren Aufbau grundsätzlich gleich: Sie bestehen aus je acht Vektor- und Matrix-Recheneinheiten, letztere dienen als KI-Beschleuniger. Pro Kern sind zudem drei Raytracing-Einheiten integriert. Neben einem Drittel mehr L1-Cache und höherer Parallelität dank 25 Prozent mehr parallel ausführbarer Threads hat Intel eine weitaus bedeutsamere Änderung integriert: Die Register der Vektoreinheiten werden nun nach Bedarf zugeteilt.
Hierdurch kann ein Auslagern der Registerinhalte in den Speicher reduziert werden, was wiederum die Leistung steigern kann – selbstverständlich hängen die Auswirkungen von den ausgeführten Shadern ab. Deutlich verlässlicher sind hingegen die Leistungssteigerungen beim Anisotropen Filtering, hier hat Intel die Anzahl der Funktionseinheiten verdoppelt, und auch beim Ray Tracing soll Panther Lake die Leistung von Lunar Lake verdoppeln.
Im Vergleich zu Lunar Lake erreicht Panther Lake eine um 50 Prozent höhere Renderleistung. Verglichen mit Arrow Lake soll Xe3 eine um 40 Prozent bessere Leistung pro Watt erreichen, den Vergleich zum Vorgänger zog Intel nicht. Interessanterweise rechnet der Hersteller die Xe3-GPU von Panther Lake der bislang die Xe2-GPUs umfassenden B Series zu. Arc-C-GPUs sollen nochmals verbesserte Xe3P-Kerne bekommen.
XeSS 3 vervierfacht die Bildrate
Die deutlich höhere Renderleistung ergänzt die dritte Generation von Super Sampling und Frame-Generierung mittels XeSS. Letztere kann zwischen zwei gerenderten Frames bis zu drei KI-generierte einfügen. Zusätzlich kann noch Super Sampling genutzt werden, um mit niedriger Auflösung gerenderte Bilder hochzuskalieren und damit die Bildrate weiter zu steigern.
Bild 1/33: Trotz Xe3-Kernen zählt Intel die GPU von Panther Lake zur B-Serie. Ein C erhalten erst die erstmals erwähnten Xe3P. (Bild: Intel)
Bild 2/33: Mit Xe3 können sechs statt vier Kerne ein Cluster bilden. (Bild: Intel)
Bild 3/33: Die 12-Kern-Variante der GPU ist optisch gut erkennbar, da deutlich größer. (Bild: Intel)
Bild 4/33: Die Basisvariante der GPU besteht aus zwei Clustern mit je zwei Xe3-Kernen. (Bild: Intel)
Bild 5/33: Auch die große GPU-Variante besteht aus zwei Clustern, allerdings im Vollausbau. (Bild: Intel)
Bild 6/33: Die dynamische Reservierung von Registern und mehr Threads sind auf den ersten Blick die markantesten Neuerungen von Xe3. (Bild: Intel)
Bild 7/33: Xe3 unterscheidet sich bei der Anzahl der Operationen pro Takt nicht vom Vorgänger. Aufgrund von Optimierungen und mehr Recheneinheiten steigt die Rechenleistung aber um 80 Prozent. (Bild: Intel)
Bild 8/33: Die Funktionseinheiten von Xe3 im Überblick. (Bild: Intel)
Bild 9/33: Mikrobenchmarks zeigen die teilweise deutlichen Leistungssteigerungen der einzelnen GPU-Komponenten. (Bild: Intel)
Bild 10/33: Die Spitzenleistung der GPU steigt verglichen mit Lunar Lake deutlich. Das Plus von 50 Prozent braucht allerdings auch mehr Energie. (Bild: Intel)
Bild 11/33: Verglichen mit Arrow Lake benötigt die Xe3-GPU bei gleicher Leistung 40 Prozent weniger Energie. (Bild: Intel)
Bild 12/33: Die Verbesserungen der Xe3-GPU im Überblick. (Bild: Intel)
Bild 13/33: Die NPU 5 rechts fasst die Recheneinheiten von zwei Compute Engines zusammen, die Anzahl der anderen Komponenten bleibt gleich. (Bild: Intel)
Bild 14/33: Die NPU 5 im Detail. (Bild: Intel)
Bild 15/33: Die NPU ist in fast allem schneller - nur bei den Aktivierungsfunktionen gibt es einen Rückschritt. (Bild: Intel)
Bild 16/33: Insgesamt kommen CPU-Kerne, NPU und GPU auf 180 TOps 8-Bit-Rechenleistung. Praktisch wird aber meist wohl nur eine Einheit genutzt. (Bild: Intel)
Bild 17/33: Cougar Cove wurde in Details verbessert. (Bild: Intel)
Bild 18/33: Die P-Cores sind auf maximale Single-Thread-Leistung optimiert. (Bild: Intel)
Bild 19/33: Die Verbesserungen von Darkmont im Überblick. (Bild: Intel)
Bild 20/33: Die Darkmont E-Cores haben viele Ausführungseinheiten und drei parallel arbeitende Befehlsdecoder. (Bild: Intel)
Bild 21/33: Mit mehr und leistungsfähigeren Kernen rechnet Panther Lake bei gleicher Leistungsaufnahme 50 Prozent schneller als Lunar Lake. (Bild: Intel)
Bild 22/33: Verglichen mit Arrow Lake-H benötigt Panther Lake für die gleiche Rechenleistung 30 Prozent weniger Energie. (Bild: Intel)
Bild 23/33: Panther Lake kombiniert das Beste von Lunar Lake und Arrow Lake-H. (Bild: Intel)
Bild 24/33: Die LP-E-Cores sind nicht an den L3-Cache angebunden. Der kann so komplett abgeschaltet werden, wenn P- und E-Cores nicht benötigt werden. (Bild: Intel)
Bild 25/33: Die drei Tiles werden per Foveros-S auf einen Silizium-Interposer montiert. (Bild: Intel)
Bild 26/33: Drei Varianten, alle im selben Package: Das soll es OEMs einfach machen, auf Basis eines Mainboards mehrere Modellvarianten anzubieten. (Bild: Intel)
Bild 27/33: Die kleinste Variante von Panther Lake kommt mit 4 P-Cores, 4 LP-E-Cores und 4 Xe3-Kernen. (Bild: Intel)
Bild 28/33: Im Maximalausbau enthält das Compute Tile insgesamt 12 E-Cores, mehr als 4 P-Cores gibt es nicht. (Bild: Intel)
Bild 29/33: Die große Variante des Compute Tile gibt es auch mit 12-Kern-GPU. (Bild: Intel)
Bild 30/33: Aus drei Tiles in je zwei Varianten baut Intel drei Basismodelle von Panther Lake. (Bild: Intel)
Bild 31/33: Die einzelnen Bereiche des Compute Tiles im Überblick. (Bild: Intel)
Bild 32/33: Insbesondere die dynamische Zuweisung von Registern kann einen deutlichen Leistungssprung bringen. (Bild: Intel)
Bild 33/33: Mit Upscaling und Multi Frame Generation hat die GPU vier Bilder schneller fertig als eines ohne XeSS. (Bild: Intel)
Für beides werden die XMX-Einheiten der Xe-Kerne verwendet, XeSS 3 soll auch auf ältere damit ausgestattete Hardware kommen. Berechnet werden die Zwischen-Frames mittels optischem Fluss, der die Veränderung des Bildinhalts quantifiziert. Gezeigt hat Intel XeSS 3 mit dem Remake von Painkiller auf der 12-Kern-GPU, das SoC lief dabei mit einer TDP von 45 Watt. Wir konnten hier selbst eine Runde spielen, wobei wir keine Artefakte bemerkten.
Durch die XMX-Einheiten steuert die GPU zumindest beim 12-Kern-Modell den Großteil der KI-Rechenleistung bei: Jede Einheit kommt mit 8-Bit-Datentypen auf 10 TOps, ebenso viel wie die CPU-Kerne. Zusammen mit der NPU kommt Panther Lake auf bis zu 180 TOps, wobei allerdings zumindest kurz erwähnt wurde, dass die Leistung der einzelnen Einheiten nicht einfach aufaddiert werden könne.
Dafür müssten auch alle Recheneinheiten genutzt werden, was oft ineffizient, teils schwer bis unmöglich wäre. Hieraus resultiert wohl der Fokus auf Agenten: Die bestehen aus mehreren Modellen, was die Verteilung auf unterschiedliche Recheneinheiten oder Clouddienste erleichtert.
Damit ist es Zeit für einen Blick auf die NPU.
Die NPU macht viele Details besser
Die im Compute Tile integrierte NPU hat Intel ebenfalls umfangreich überarbeitet: Die MAC-Leistung (Multiply-Accumulate) der NPU 5 ist mit 4.096 Operationen pro Taktzyklus (mit 8-Bit-Datentypen) doppelt so hoch wie beim Vorgängermodell. Das liegt daran, dass prinzipiell zwei Berechnungseinheiten (Compute Engines) zusammengelegt wurden.
Die NPU 5 verfügt damit über doppelt so viele Recheneinheiten wie das Vorgängermodell, die Anzahl der sonstigen Komponenten hingegen ist unverändert: Es gibt weiterhin zwei DSP-Einheiten, eine Load-Store-Einheit für Speicherzugriffe, eine für Datentypkonvertierung sowie für Aktivierungsfunktionen. Letztere verfügt nun über Look-up Tables (LUTs) mit 256 Einträgen, mit denen beliebige Aktivierungsfunktionen abgebildet werden können.
Daneben gibt es noch einige funktionale Verbesserungen: Arrays müssen nun nicht mehr aufgefüllt werden (Padding), um eine vorgegebene Blockgröße zu erreichen. Neu unterstützt werden die Datentypen BF8 und HF8, im Post-Processing können kleinere Datentypen nun in FP32 konvertiert werden, um den Austausch mit anderen Funktionseinheiten zu erleichtern.
Viel dedizierte Hardware
Die drei Neural Compute Engines teilen sich 4,5 MByte Scratchpad-Speicher und 256 kByte L2-Cache. Die NPU verfügt zudem über eine eigene Memory Management Unit (MMU) und eine DMA-Einheit, die Speicherzugriffe ausführt. All das hat seinen Preis: Die NPU belegt bei Panther Lake etwa so viel Platz wie zwei P-Cores.
Bild 1/33: Trotz Xe3-Kernen zählt Intel die GPU von Panther Lake zur B-Serie. Ein C erhalten erst die erstmals erwähnten Xe3P. (Bild: Intel)
Bild 2/33: Mit Xe3 können sechs statt vier Kerne ein Cluster bilden. (Bild: Intel)
Bild 3/33: Die 12-Kern-Variante der GPU ist optisch gut erkennbar, da deutlich größer. (Bild: Intel)
Bild 4/33: Die Basisvariante der GPU besteht aus zwei Clustern mit je zwei Xe3-Kernen. (Bild: Intel)
Bild 5/33: Auch die große GPU-Variante besteht aus zwei Clustern, allerdings im Vollausbau. (Bild: Intel)
Bild 6/33: Die dynamische Reservierung von Registern und mehr Threads sind auf den ersten Blick die markantesten Neuerungen von Xe3. (Bild: Intel)
Bild 7/33: Xe3 unterscheidet sich bei der Anzahl der Operationen pro Takt nicht vom Vorgänger. Aufgrund von Optimierungen und mehr Recheneinheiten steigt die Rechenleistung aber um 80 Prozent. (Bild: Intel)
Bild 8/33: Die Funktionseinheiten von Xe3 im Überblick. (Bild: Intel)
Bild 9/33: Mikrobenchmarks zeigen die teilweise deutlichen Leistungssteigerungen der einzelnen GPU-Komponenten. (Bild: Intel)
Bild 10/33: Die Spitzenleistung der GPU steigt verglichen mit Lunar Lake deutlich. Das Plus von 50 Prozent braucht allerdings auch mehr Energie. (Bild: Intel)
Bild 11/33: Verglichen mit Arrow Lake benötigt die Xe3-GPU bei gleicher Leistung 40 Prozent weniger Energie. (Bild: Intel)
Bild 12/33: Die Verbesserungen der Xe3-GPU im Überblick. (Bild: Intel)
Bild 13/33: Die NPU 5 rechts fasst die Recheneinheiten von zwei Compute Engines zusammen, die Anzahl der anderen Komponenten bleibt gleich. (Bild: Intel)
Bild 14/33: Die NPU 5 im Detail. (Bild: Intel)
Bild 15/33: Die NPU ist in fast allem schneller - nur bei den Aktivierungsfunktionen gibt es einen Rückschritt. (Bild: Intel)
Bild 16/33: Insgesamt kommen CPU-Kerne, NPU und GPU auf 180 TOps 8-Bit-Rechenleistung. Praktisch wird aber meist wohl nur eine Einheit genutzt. (Bild: Intel)
Bild 17/33: Cougar Cove wurde in Details verbessert. (Bild: Intel)
Bild 18/33: Die P-Cores sind auf maximale Single-Thread-Leistung optimiert. (Bild: Intel)
Bild 19/33: Die Verbesserungen von Darkmont im Überblick. (Bild: Intel)
Bild 20/33: Die Darkmont E-Cores haben viele Ausführungseinheiten und drei parallel arbeitende Befehlsdecoder. (Bild: Intel)
Bild 21/33: Mit mehr und leistungsfähigeren Kernen rechnet Panther Lake bei gleicher Leistungsaufnahme 50 Prozent schneller als Lunar Lake. (Bild: Intel)
Bild 22/33: Verglichen mit Arrow Lake-H benötigt Panther Lake für die gleiche Rechenleistung 30 Prozent weniger Energie. (Bild: Intel)
Bild 23/33: Panther Lake kombiniert das Beste von Lunar Lake und Arrow Lake-H. (Bild: Intel)
Bild 24/33: Die LP-E-Cores sind nicht an den L3-Cache angebunden. Der kann so komplett abgeschaltet werden, wenn P- und E-Cores nicht benötigt werden. (Bild: Intel)
Bild 25/33: Die drei Tiles werden per Foveros-S auf einen Silizium-Interposer montiert. (Bild: Intel)
Bild 26/33: Drei Varianten, alle im selben Package: Das soll es OEMs einfach machen, auf Basis eines Mainboards mehrere Modellvarianten anzubieten. (Bild: Intel)
Bild 27/33: Die kleinste Variante von Panther Lake kommt mit 4 P-Cores, 4 LP-E-Cores und 4 Xe3-Kernen. (Bild: Intel)
Bild 28/33: Im Maximalausbau enthält das Compute Tile insgesamt 12 E-Cores, mehr als 4 P-Cores gibt es nicht. (Bild: Intel)
Bild 29/33: Die große Variante des Compute Tile gibt es auch mit 12-Kern-GPU. (Bild: Intel)
Bild 30/33: Aus drei Tiles in je zwei Varianten baut Intel drei Basismodelle von Panther Lake. (Bild: Intel)
Bild 31/33: Die einzelnen Bereiche des Compute Tiles im Überblick. (Bild: Intel)
Bild 32/33: Insbesondere die dynamische Zuweisung von Registern kann einen deutlichen Leistungssprung bringen. (Bild: Intel)
Bild 33/33: Mit Upscaling und Multi Frame Generation hat die GPU vier Bilder schneller fertig als eines ohne XeSS. (Bild: Intel)
Dennoch ist die Flächeneffizienz gestiegen. Da neben den Recheneinheiten weniger andere Funktionseinheiten verbaut sind, die zudem dank Intel-18A-Fertigung wenig Platz benötigen, erreicht die NPU 5 bei gleicher Fläche laut Intel 40 Prozent mehr Leistung. Weil weniger DSP-Einheiten zur Verfügung stehen, sinkt allerdings auch etwa der Durchsatz für die Softmax-Funktion leicht, die über diese implementiert wird. Ausgleichen sollen das die LUTs.
Insgesamt ist das Plus bei der Rohleistung gegenüber Lunar Lake marginal – die neue NPU kommt auf bis zu 50 TOps mit 8-Bit-Datentypen, bei Lunar Lake waren es maximal 48 TOps. Durch die architektonischen Optimierungen kann der Unterschied in der Praxis allerdings deutlicher ausfallen. Intel zeigte hierzu lediglich Mikrobenchmarks, die keine Rückschlüsse auf reale Modelle ermöglichen.
Werfen wir abschließend noch einen genaueren Blick auf das Compute Tile, das neben den CPU-Kernen und der NPU noch weitere Komponenten umfasst.
Deutlich leistungsfähigere Kerne
Die Low-Power-Kerne sind, wie eingangs erwähnt, nicht an den L3-Cache angebunden. Sie sitzen mit NPU und IPU, auf die wir gleich noch eingehen, in einem eigenen Bereich. Dieser verfügt allerdings mit dem 8 MByte großen Memory-Side Cache über einen eigenen Last Level Cache (LLC), den auch NPU, IPU und Media Engine nutzen. Der soll zwar ebenfalls die Speicherlast verringern, das bedeutet aber, dass Kommunikation zwischen LP-E-Cores und den anderen Kernen eine höhere Latenz hat, da kein geteilter Cache sie verbindet.
Um dem Rechnung zu tragen, hat Intel neben dem Thread Director weitere Möglichkeiten geschaffen, dem Betriebssystem Hinweise zur Nutzung der verschiedenen Kerne zu geben. Neue Threads starten immer auf den LP-E-Cores und werden dann, abhängig von ihrem Leistungsbedarf, erst auf die regulären E-Cores und bei Bedarf auf die P-Cores migriert.
Die höhere Leistung der E-Cores sowie deren – je nach Modell – große Anzahl bedeuten dabei, dass viele Anwendungen, die bei Lunar Lake noch die P-Cores nutzten, auf Panther Lakes E-Cores ausreichend performant laufen. Grundsätzlich werden dabei alle Kerne genutzt, wenn entsprechend viele Threads aktiv sind.
Manchmal ist weniger mehr
Anders sieht das bei Spielen aus: Hier kann es sinnvoll sein, auf die LP-E-Cores komplett zu verzichten, um die höhere Latenz bei Interprozesskommunikation zu vermeiden und der GPU ein größeres Leistungsbudget zu ermöglichen. Hier kann der GPU-Treiber zusätzliche Informationen liefern, was ein zuverlässigeres Leistungsbudget für die GPU und damit flüssigeres Spielen ermöglichen soll.
Bild 1/33: Trotz Xe3-Kernen zählt Intel die GPU von Panther Lake zur B-Serie. Ein C erhalten erst die erstmals erwähnten Xe3P. (Bild: Intel)
Bild 2/33: Mit Xe3 können sechs statt vier Kerne ein Cluster bilden. (Bild: Intel)
Bild 3/33: Die 12-Kern-Variante der GPU ist optisch gut erkennbar, da deutlich größer. (Bild: Intel)
Bild 4/33: Die Basisvariante der GPU besteht aus zwei Clustern mit je zwei Xe3-Kernen. (Bild: Intel)
Bild 5/33: Auch die große GPU-Variante besteht aus zwei Clustern, allerdings im Vollausbau. (Bild: Intel)
Bild 6/33: Die dynamische Reservierung von Registern und mehr Threads sind auf den ersten Blick die markantesten Neuerungen von Xe3. (Bild: Intel)
Bild 7/33: Xe3 unterscheidet sich bei der Anzahl der Operationen pro Takt nicht vom Vorgänger. Aufgrund von Optimierungen und mehr Recheneinheiten steigt die Rechenleistung aber um 80 Prozent. (Bild: Intel)
Bild 8/33: Die Funktionseinheiten von Xe3 im Überblick. (Bild: Intel)
Bild 9/33: Mikrobenchmarks zeigen die teilweise deutlichen Leistungssteigerungen der einzelnen GPU-Komponenten. (Bild: Intel)
Bild 10/33: Die Spitzenleistung der GPU steigt verglichen mit Lunar Lake deutlich. Das Plus von 50 Prozent braucht allerdings auch mehr Energie. (Bild: Intel)
Bild 11/33: Verglichen mit Arrow Lake benötigt die Xe3-GPU bei gleicher Leistung 40 Prozent weniger Energie. (Bild: Intel)
Bild 12/33: Die Verbesserungen der Xe3-GPU im Überblick. (Bild: Intel)
Bild 13/33: Die NPU 5 rechts fasst die Recheneinheiten von zwei Compute Engines zusammen, die Anzahl der anderen Komponenten bleibt gleich. (Bild: Intel)
Bild 14/33: Die NPU 5 im Detail. (Bild: Intel)
Bild 15/33: Die NPU ist in fast allem schneller - nur bei den Aktivierungsfunktionen gibt es einen Rückschritt. (Bild: Intel)
Bild 16/33: Insgesamt kommen CPU-Kerne, NPU und GPU auf 180 TOps 8-Bit-Rechenleistung. Praktisch wird aber meist wohl nur eine Einheit genutzt. (Bild: Intel)
Bild 17/33: Cougar Cove wurde in Details verbessert. (Bild: Intel)
Bild 18/33: Die P-Cores sind auf maximale Single-Thread-Leistung optimiert. (Bild: Intel)
Bild 19/33: Die Verbesserungen von Darkmont im Überblick. (Bild: Intel)
Bild 20/33: Die Darkmont E-Cores haben viele Ausführungseinheiten und drei parallel arbeitende Befehlsdecoder. (Bild: Intel)
Bild 21/33: Mit mehr und leistungsfähigeren Kernen rechnet Panther Lake bei gleicher Leistungsaufnahme 50 Prozent schneller als Lunar Lake. (Bild: Intel)
Bild 22/33: Verglichen mit Arrow Lake-H benötigt Panther Lake für die gleiche Rechenleistung 30 Prozent weniger Energie. (Bild: Intel)
Bild 23/33: Panther Lake kombiniert das Beste von Lunar Lake und Arrow Lake-H. (Bild: Intel)
Bild 24/33: Die LP-E-Cores sind nicht an den L3-Cache angebunden. Der kann so komplett abgeschaltet werden, wenn P- und E-Cores nicht benötigt werden. (Bild: Intel)
Bild 25/33: Die drei Tiles werden per Foveros-S auf einen Silizium-Interposer montiert. (Bild: Intel)
Bild 26/33: Drei Varianten, alle im selben Package: Das soll es OEMs einfach machen, auf Basis eines Mainboards mehrere Modellvarianten anzubieten. (Bild: Intel)
Bild 27/33: Die kleinste Variante von Panther Lake kommt mit 4 P-Cores, 4 LP-E-Cores und 4 Xe3-Kernen. (Bild: Intel)
Bild 28/33: Im Maximalausbau enthält das Compute Tile insgesamt 12 E-Cores, mehr als 4 P-Cores gibt es nicht. (Bild: Intel)
Bild 29/33: Die große Variante des Compute Tile gibt es auch mit 12-Kern-GPU. (Bild: Intel)
Bild 30/33: Aus drei Tiles in je zwei Varianten baut Intel drei Basismodelle von Panther Lake. (Bild: Intel)
Bild 31/33: Die einzelnen Bereiche des Compute Tiles im Überblick. (Bild: Intel)
Bild 32/33: Insbesondere die dynamische Zuweisung von Registern kann einen deutlichen Leistungssprung bringen. (Bild: Intel)
Bild 33/33: Mit Upscaling und Multi Frame Generation hat die GPU vier Bilder schneller fertig als eines ohne XeSS. (Bild: Intel)
Die Darkmont-Kerne ähneln stark den Skymont-Kernen, die Intel auf der Hot Chips ausführlich vorgestellt hatte. Bei der ITT gab es nur wenige zusätzliche Details: Die L2-Bandbreite steigt auf 128 Byte pro Takt, der Nanocode soll mehr Befehle abdecken als bei Skymont. Hier hatte Intel dieses Konzept eingeführt, es handelt sich um eine Teilmenge des Mikrocodes, auf den alle drei Befehlsdecoder parallel zugreifen können. Damit muss der Mikrocode-Sequencer seltener genutzt werden, der immer nur einem Decoder zur Verfügung steht, was die beiden anderen blockieren und damit den Befehlsdurchsatz reduzieren kann.
Cougar Cove ist Evolution statt Revolution
Während Intel den E-Cores deutlich mehr Ressourcen spendiert hat, beschränken sich die Verbesserungen bei den P-Cores auf Details. Der Translation Lookaside Buffer (TLB) ist 50 Prozent größer, die Sprungvorhersage (g+) soll effizienter und leistungsfähiger sein. Auch hier haben mehr Ressourcen ihren Anteil, Intel hat die Tabellen für die Sprungtendenzen vergrößert und deren Auflösung erhöht – mehr Details gab es nicht.
Die markanteste Änderung nennt Intel Memory Disambiguation: Die Prefetcher sowohl von Cougar Cove als auch Darkmont sollen unverbundene Load- und Store-Anweisungen besser erkennen und damit effizienter Daten im Voraus laden können. Die Aktivität der Prefetcher soll zudem anhand nicht genauer benannter Telemetriedaten dynamisch angepasst werden.
Optimierter Bildsignalprozessor
Als letzte Komponente findet sich im Compute Tile noch die IPU (Image Processing Unit): Sie optimiert die Bilder von bis zu drei Kameras. Die IPU 7.5 kann dabei auf die NPU zurückgreifen, um deutlich bessere Bilder zu liefern als andere Lösungen. Sie arbeitet mit den Rohdaten der Kamera, was bedeutet, dass diese entsprechende Daten liefern können muss. Die Anbindung erfolgt dabei über MIPI CSI (Camera Serial Interface).
Liefert die Kamera abwechselnd Bilder mit unterschiedlicher Belichtungszeit, kann die IPU daraus ein HDR-Bild (High Dynamic Range, hoher Dynamikumfang) berechnen. Das sorgt für besser erkennbare Details und verringert Bereiche mit Über- oder Unterbelichtung. Zum Entrauschen und Entzerren sowie für die Farbkorrektur nutzt die IPU KI-Modelle. Die trainiert Intel anhand eines Referenzsystems für den Notebook-Hersteller, da sie zum verwendeten Sensor und Linsensystem passen müssen.
Intel zeigte Vergleichsbilder zu einer USB-Kamera mit integrierter IPU, wobei Intels IPU deutlich detailreichere und lebendigere Bilder lieferte. Das Bild eines Testgeräts kritisierte ein anderer Teilnehmer der ITT allerdings als zu warm. Das lässt sich zwar durch eine nachträgliche Farbkorrektur ändern, die läuft dann allerdings nicht auf der IPU.
Die hier ausgeführte Nachbearbeitung legt der Hersteller des jeweiligen Notebooks fest, über einen proprietären Intel-Treiber funktioniert die IPU auch unter Linux. Wie viele Hersteller sie aber überhaupt nutzen werden, bleibt abzuwarten – insbesondere bei günstigen Modellen werden sie vermutlich eher auf weniger aufwendige, voll integrierte USB-Kameras setzen.
Reicht das gegen die Konkurrenz?
Mit Panther Lake dürfen wir eine Serie von sehr leistungsfähigen Notebook-Prozessoren erwarten. Wie sie sich gegenüber der Konkurrenz von AMD, Apple und Qualcomm behaupten, ist derzeit aber noch nicht absehbar. Insbesondere die neuen Darkmont-E-Cores versprechen allerdings ein deutliches Leistungsplus, auch die GPU macht einen guten Eindruck.
Zu denken gibt uns allerdings die Speicheranbindung: Sie ist mit 128 Bit ein Drittel schmaler als bei Qualcomms jüngst vorgestelltem Snapdragon X2 Elite Extreme bei gleicher Transferrate, Apples M4 Pro kommuniziert mit dem Speicher gar über eine 256 Bit breite Schnittstelle . Genaueres werden Tests zeigen, mit denen Anfang 2026 zu rechnen ist.
Offenlegung: Golem.de hat auf Einladung von Intel an der ITT 2025 in Chandler, Arizona, teilgenommen. Die Reisekosten wurden von Intel übernommen. Unsere Berichterstattung ist davon nicht beeinflusst und bleibt gewohnt neutral und kritisch. Der Artikel ist, wie alle anderen auf unserem Portal, unabhängig verfasst und unterliegt keinerlei Vorgaben Dritter; diese Offenlegung dient der Transparenz.