Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CPU-Update - Von Äpfeln und Birnen (2008)

CPU-Update - Von Äpfeln und Birnen (2008)

AMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM POWER7, IBM Cell BE, Hypertransport, QuickPath, Technologie-Ausblick auf ca. 2 Jahre.

Wolfgang Stief

October 08, 2008
Tweet

More Decks by Wolfgang Stief

Other Decks in Technology

Transcript

  1. best OpenSystems Day Herbst 2008 Dornach Wolfgang Stief [email protected] Senior

    Systemingenieur best Systeme GmbH GUUG Board Member CPU-Update Von Äpfeln und Birnen
  2. „Earlier, we used 10 elements of periodic table now we

    use over ½ of periodic table.“ „Two decades ago, 1 micron was challenging and 100nm looked impossible and now we casually talk about what it takes to get to 10nm.“ Pat Gelsinger Senior Vice President General Manager, Digital Enterprise Group Intel Corporation Motivation 2008-10-08 2 / 35
  3. Trends vor einem Jahr Wie gut war die Kristallkugel dieses

    Mal? Implementierungen AMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath) Technologien für die nächsten zwei Jahre Wohin fährt der Zug? Agenda 3 / 35 2008-10-08
  4. Neuer Hypertransport 3.0 kommt mit Shanghai (AM2+, Ende 2008), 3.1

    später Mehr Multicore und Multithreading „Many-Core“, Alternative zum GHz-Rennen, Applikationen fehlen weiterhin CO 2 wird Thema Green IT, Stromsparmechanismen Speicherbandbreiten nehmen zu DDR2 → DDR3 / FB-DIMM, Bussysteme „Proximity Communication“ nichts (mehr?) zu sehen und zu hören Wie gut war die Kristallkugel? 4 / 35 2008-10-08
  5. Trends vor einem Jahr Wie gut war die Kristallkugel dieses

    Mal? Implementierungen AMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath) Technologien für die nächsten zwei Jahre Wohin fährt der Zug? Agenda 5 / 35 2008-10-08
  6. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 6 / 35 2008-10-08
  7. AMD Shanghai (ca. Ende 2008 / Anfang 2009) Quadcore, 45nm

    Prozess, AMD K10 „Facelift“ von Barcelona (65nm) HT 1.0 → HT3.0 (ab Q2/2009) DDR-667 → DDR2-800 2MB L3$ → 6MB L3$ Sockel F → „drop in“ replacement ~30%...35% mehr Rechenleistung ~30%...35% weniger Stromverbrauch verbesserte Virtualisierung (AMD-V) 7 / 35 2008-10-08
  8. AMD Istanbul and beyond Istanbul (ca. 2. HJ 2009) 45nm,

    6-Core Shanghai 3x HT-3 (3.0), RDDR-2, AMD-V, Sockel F (AM2+) Magny-Cours (1. HJ 2010) 45nm, 12-Core, 12MB L3$, Probe Filter 4x HT-3 (3.1?), DDR-3 „Maranello“-Plattform (AM3) Sao Paulo (1. HJ 2010) 45nm, 6-Core, ½ Magny-Cours „Maranello“-Plattform (AM3) 8 / 35 2008-10-08
  9. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 9 / 35 2008-10-08
  10. Intel Dunnington (seit September 2008) 6-Core, 45nm, Penryn-Core 3MB L2$

    je Dual-Core 8 / 12 / 16 MB L3$ FSB-1066 2.13 / 2.4 / 2.66 GHz 65 / 90 / 120 W Coneland Plattform → 64MB snoop filter in Northbridge (??) 10 / 35 2008-10-08
  11. Intel Dunnington (seit September 2008) (cont'd) Intel X7400 → sockelkompatibel

    mit X7300 FB-DIMM + Chipsatz ist deutlich leistungshungiger als AMD Opteron 50% mehr Cores + L3$ → „40% Performance Boost @ Microsoft Hyper-V“ Stückpreis 1100...2700 U$ (1000er) 11 / 35 2008-10-08
  12. Intel Nehalem (4. Quartal 2008) max. 8-Core, 45nm, „Intel Core

    i7“, 2 Threads/Core „shares significant portion of P6 gene pool“ Pipeline-Länge wie Penryn unwesentlich neue Instruktionen QuickPath Interconnect neues Pinout → neuer Sockel zunächst FB-DIMM2, später DDR-3 800+ 12 / 35 2008-10-08
  13. Intel Nehalem (4. Quartal 2008) (cont'd) Chips in unterschiedlicher Ausprägung

    „Havendale“ / „Auburndale“ (Mainstream, Desktop) 2-Core, 4MB L3$, 2x DDR3, 1x PCIe x16 integrierte GPU, Low End „Lynnfield“ / „Clarksfield“ (Mainstream, Performance) 4-Core, 8MB L3$, 2x DDR3, 1x PCIe x16 „Bloomfield“ (Performance) 4-Core, 8MB L3$, 3x DDR3, 1x QuickPath „Gainstown“ (Performance, High-End, Nehalem-EP) 4-Core , 8MB L3$, 3x DDR3, 2x QuickPath „Beckton“ (Performance, High-End, Nehalem-EX) 8-Core, 24MB L3$, 4x FB-DIMM2, 4x QuickPath 13 / 35 2008-10-08
  14. Intel Tukwila (IA-64, Ende 2008) 65nm, Quadcore, 2 Threads/Core Σ

    30MB Cache on Die (!) FB-DIMM QuickPath (wird mit Tukwila eingeführt) Poulson 32nm, 4 od. 8 Cores Multithreading + Parallelisierung ab 2009 (Fertigung, Prozess) Kittson kaum vor 2011 IA-64 → langfristige Planung 14 / 35 2008-10-08
  15. Intel Larrabee (GPGPU) 65nm, Many-Core, 4 Threads/Core je Core eine

    Skalar-Unit und eine Vector-FPU Subset der x86 ISA + GPU- spezifische Erweiterungen >8 „in-order“ Cores, typ. 16...24 Cores per Chip (nicht Terascale 80-Core aka Polaris) Debüt als GPU für 3D-Spiele zunächst eigenes Board mit OS als Treiber auf Systemdisk 15 / 35 2008-10-08
  16. Intel Larrabee (GPGPU) (cont'd) Cores über Ring verbunden, 256 Byte/cycle

    (wie IBM Cell B. E.) L2 Cache über alle Cores mit Cache Lock (Partitionierung) (ähnlich IBM Cell B. E.) Fixed Fuction Logic: je nach Anwendungsfall z. B. Raster- Hardware (GPU) od. Crypto-Unit (Server-CPU) 16 / 35 2008-10-08
  17. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 17 / 35 2008-10-08
  18. Sun UltraSPARC T2+ (Victoria Falls) 10GBE entfällt, dafür Chip Interconnect

    verfügbar seit 1. HJ 2008 2-Socket out of the box, 4-Socket mit „External Coherence Hub“ 8 Cores, 8 Threads → 128 Thread @ 2-Socket (2U) → 256 Thread @ 4-Socket (2U) je Socket 4x DDR2-667 FB-DIMM → 21GB/s read max. → 10GB/s write max. PCIe x8 I/O je Socket VictoriaFalls: Scaling Highly-Threaded Processor Cores (Stephen Phillips, Sun Microsystems, 2007-07) 18 / 35 2008-10-08
  19. Sun Niagara 3 16 Core / 16 Thread per Core

    → 256 Thread per CPU Codename KT geplant bis zu 8-Socket System → 8x16x16 = 2048 Threads / System (!) Entwicklung seit 2006, in Systemen ca. Ende 2009 ähnlich Rock (sh. u.), aber mehr CMT und weniger Single Thread Performance kaum Details bekannt, Modellpflege „Multicore-Rennen“? 19 / 35 2008-10-08
  20. Sun Rock 65nm, 16 Cores, 2 visible Threads / Core

    → 32 Threads per Socket 4 Core Clusters mit je 4 Cores je Cluster: → 32kB I$ → 2x 32kB D$ → 2x FGU je Core 16MB L3$ off chip <10W / Core Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08) 20 / 35 2008-10-08
  21. Sun Rock (cont'd) I/O: 8GB/s max. Memory: 48GB/s max. 256

    TB (!) adressierbarer Hauptspeicher je CPU 250W @ 2.3 GHz neue ISA → hardware scouting → thread-level speculation → thread-level parallelism → transactional memory ca. Ende 2009 (Rock 2.0 bereits im Lab) Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08) 21 / 35 2008-10-08
  22. Sun Rock (cont'd) hardware scouting / thread-level speculation → unsichtbar

    für das Betriebssystem → automatisch gestartet bei „long latency instructions“ → wärmt Caches und Sprungvorhersage vor → implementiert als Kopie der Registersätze → 40% + @ TPC-C (single thread) → 34% + @ SPECfp 2000 transactional memory → initiiert von Software → atomare Operationen → „RISC“-Ansatz thread-level parallelism / program parallelization → unsichtbar für Anwendung, macht Compiler (C/C++) bzw. JVM → Locking / Konflikte über transactional memory Rock: A SPARC CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08) 22 / 35 2008-10-08
  23. Sun Rock (cont'd) Server-Prozessor SMP-Systeme in Planung Rock: A SPARC

    CMT Processor (Shailender Chaudhry, Sun Microsystems, 2008-08) 23 / 35 2008-10-08
  24. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 24 / 35 2008-10-08
  25. Fujitsu SPARC64 VII and beyond 65nm, 4 Cores, 2 Threads

    / Core, SMP 64kB I$ + 64kB D$ je Core, 6MB shared L2$ je CPU kein L3 Cache 2.4GHz und 2.52GHz → ca. 80% + bei kommerziellen Applikationen (DB etc.) → ca. 100% + bei Floating Point je CPU 32GB Memory adressierbar, ECC drop-in Replacement → 64 Socket M9000 mit 2.52 GHz → 2023 TFlops (TOP500:1375, IBM) danach: „Venus“ (ca. 2. HJ 2009) → 45nm, 8 Core, 128 GFLOPs → „embedded memory controller“ (wie Opteron) 25 / 35 2008-10-08
  26. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 26 / 35 2008-10-08
  27. IBM Power 7 45nm, 8 Cores, 4 Threads / Core,

    2 Chips / Module 4.0GHz, in 2010 erste Systeme verfügbar 2U → 4 Modules á 2 Chips → 256 Threads (= 4-Socket T2) 32GFlops / Core (= 2x Power6) → 512 GFlops / Module bis 1024 Cores in HPC-System geplant (16x 2U) → 32TFlops, 2TB RAM (!) „Blue Waters“ → 38.900 8-Core, 620TB RAM, 5PB/s memory peak → ~100 Racks 27 / 35 2008-10-08
  28. IBM Cell Broadband Engine 65nm, 8+1 Core „Power XCell 8i“

    45nm ab ca. Ende 2008 SMP über BIC (Bus Interface Controller) SPE ist ein„very simple PowerPC 601 area processor“ (Synergistic Processing Element) ~4GHz → 256GFlops single precision → 26GFlops double precision Introducing the IBM/Sony/Toshiba Cell Processor – Part II: The Cell Architecture (Jon Stokes, Ars Technica, 2005-02) 28 / 35 2008-10-08
  29. AMD Shanghai, Istanbul ++ Intel Dunnington, Nehalem, Tukwila, Larrabee Sun

    UltraSPARC T2+, Niagara 3 und Rock Fujitsu SPARC64 VII Blick über den Tellerrand Power 7, Cell BE Bussysteme: HyperTransport, QuickPath Implementierungen 29 / 35 2008-10-08
  30. Bussysteme (bisher) Hypertransport (AMD) → aktuell bis 2.6GHz (HT 3.0)

    → evtl. Multihops Frontside Bus (Intel) → 1.6 GHz → große L2$ (4MB, 6MB) → „snoop filter“ (64MB) 30 / 35 2008-10-08
  31. Bussysteme (demnächst) Hypertransport 3.1 bis 6.4 GTransfers/s 51.6 GB/s aggr.

    Bandbreite → HT3.0: 41.6 GB/s 2.6/2.8/3.0 GHz Split-Verbindung: → 1x x16 od. 2x x8 neuer Stecker HTX3 → ca. 3x Bandbreite von HTX Intel Quick Path „Universalbus“ 16bit+4bit Busbreite 4.8...6.4 GTransfers/s 24...32 GB/s aggr. Bandbreite → FSB1600: 12.8GB/s 3 Power States: normal – low – deeper low 31 / 35 2008-10-08
  32. Trends vor einem Jahr Wie gut war die Kristallkugel dieses

    Mal? Implementierungen AMD (Shanghai, Istanbul), Intel (Dunnington, Nehalem, Tukwila, Larrabee), Sun (T2+, Niagara 3, Rock), Fujitsu SPARC64, IBM Power7, IBM Cell BE, Bussysteme (Hypertransport, QuickPath) Technologien für die nächsten zwei Jahre Wohin fährt der Zug? Agenda 32 / 35 2008-10-08
  33. Many-Cores (> 2 Cores) Das neue MHz-Rennen? Strom sparen (Green

    IT) CPU, Memory (!), Grafik Special Purpose CPUs, GPGPUs NVidia, Sun Niagara, Cell BE weiterhin höhere Integration System on a Chip (Embedded CPUs) Grafik on Die 3D-Chips 32nm (alle) und 28nm Strukturbreite (IBM, TSMC*) Wo fährt der Zug hin? * Taiwan Semiconductor Manufacturing Company (Chiphersteller) 33 / 35 2008-10-08
  34. Blogs @ Intel, AMD, Sun, IBM http://blogs.intel.com/ http://developer.amd.com/ http://forums.amd.com/devblog/ http://blogs.sun.com/

    http://www.ibm.com/developerworks/blogs/page/powerarchitecture Ars Technica Jon Stokes http://www.arstechnica.com/ The Register Ashlee Vance u. Timothy Prickett Morgan http://www.theregister.co.uk/ Wikipedia http://en.wikipedia.org/ Quellen 34 / 35 2008-10-08
  35. best OpenSystems Day Herbst 2008 Unterföhring Wolfgang Stief [email protected] Senior

    Systemingenieur best Systeme GmbH GUUG Board Member Danke für die Aufmerksamkeit. Fragen?