Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CPU-Update 2007

CPU-Update 2007

Was war, was ist, was wird? Multicore und Multithread, Virtualisierung in Hardware, RDIMM, FBDIMM, AMD Opteron, Intel Xeon, Sun UltraSPARC T2, Sun Rock (UltraSPARC V), Fujitsu SPARC64 VI+ und VII, IBM POWER6, IBM Cell Processor, Intel Polaris

Wolfgang Stief

November 14, 2007
Tweet

More Decks by Wolfgang Stief

Other Decks in Technology

Transcript

  1. best OpenSystems Day Herbst 2007 Unterföhring Wolfgang Stief [email protected] Senior

    Systemingenieur best Systeme GmbH GUUG Board Member CPU-Update
  2. Trends vor einem Jahr? Wie gut war die Kristallkugel? Technologien

    für die nächsten zwei Jahre Konkretes oder Kaffeesatz? Implementierungen AMD Opteron, Intel Xeon, Sun UltraSPARC T2, Sun Rock (UltraSPARC V), Fujitsu SPARC64 VI+/VII, IBM Power6, IBM Cell Processor, Intel Polaris Agenda 2007-11-14 Seite 2 von 41
  3. Multithreaded, 2...8 Threads ⇒weiterhin gültig über alle Hersteller Multicore, 2...8

    Cores ⇒ und mehr (16, 64, 80) „Das neue Megahertz-Rennen?“ Special Purpose Units (SPU) on Chip ⇒ wird weiter ausgebaut: Sun Niagara II → 2x 10GBE (Anfang 2008) AMD Fusion → GPU on Die (2009) Intel → GPU on Die (2009) Trends vor einem Jahr I 2007-11-14 Seite 3 von 41
  4. 64bit durchgängig ⇒ bleibt noch eine Weile aktuell ⇒ 128bit

    derzeit nicht in Sicht ⇒ Problem: Strukturbreiten, Anzahl Pins Virtualisierung in Hardware ⇒ großteils schon da, wird ausgebaut und verbessert LDom (Sun), LPAR (IBM), Pacifica (AMD), Vanderpool (Intel) Trends vor einem Jahr II 2007-11-14 Seite 4 von 41
  5. Was kommt in den nächsten zwei Jahren? AMD Hypertransport wird

    schneller (HT2.0 → HT3.0) Multicore u. Multithread wird weiter ausgebaut → Änderungen am Programming Model notwendig → Bewußtsein darüber muss bei den Programmierern ankommen CO 2 ist plötzlich ein Thema! → Leistungsdichte im Rack / RZ zu hoch → Kosten f. Stromversorgung und Klima → Stromsparfunktionen notwendig 2007-11-14 Seite 6 von 41
  6. Was kommt in den nächsten zwei Jahren? Speicherbandbreiten müssen zunehmen!

    → schnellere RAMs → Wandel von DDR zu FB → Zugriffsalgorithmen und -methodik (Microcode) CSI @ Intel → ähnliches Konzept wie Hypertransport Proximity Communication @ Sun → weitere Miniaturisierung außerhalb Prozess → Erhöhung der „Pin-Dichte“ 2007-11-14 Seite 7 von 41
  7. Speicherbandbreiten zu langsam (memory latency) physikalische Nähe und kurze Wege

    bringen Geschwindigkeit → „SMP on Die“ Prozesstechnologie / Struktur- breite sinkt weiter (65nm, 45nm, 32nm) L2$ (L3$) Sharing wird einfacher core(n) profitiert u. U. von Cacheoperation des core(n-1) Wichtig: Programming-Model muss überdacht werden! Warum eigentlich Multicores und Multithreading 2007-11-14 Seite 8 von 41
  8. Pufferchips, um mehr Memory nutzen zu können Registered DIMM (RDIMM)

    → Puffer nur für Adressleitungen Fully Buffered DIMM (FBDIMM) → Advanced Memory Buffer (AMB) → Adress- und Datensignale → sehr viel weniger Leitungen → mehr Speicherkanäle → höhere Latenz → höhere Bandbreite, weil mehr Parallelität FBDIMM / AMB braucht mehr Leistung 2GB - 32GB Memory Ausbau = 16W – 48W mehr je Server 1 Rack mit 42x 1HE-Server → 0.5kW – 2kW mehr Was tut sich bei DIMMs? 2007-11-14 Seite 9 von 41
  9. AMD64 – Quadcore Opteron (Barcelona), current state (I) 65nm, 2GHz

    SSE4a (128bit), Pacifica Nested Paging Stromsparfunktionen, Cache- und Memory Optimierung 2007-11-14 Seite 11 von 41
  10. AMD64 – Quadcore Opteron (Barcelona), current state (II) SSE4a: 64bit

    → 128bit Datenpfade (Multimedia) Pacifica Nested Paging + tagged TLBs ≈ 25% weniger Umschaltzeit zwischen VM DICE – Dynamic Independent Core Engagement dynamische Anpassung der Taktfrequenz je Core Split Powerplane: separate Spannungsversorgung von Core und Northbridge/Memory-Controller/HT CoolCore: Stromabschaltung einzelner Blöcke möglich Balanced Smart Cache L3$ inclusive (shared) oder exclusive (non-shared) Memory Optimizer Technology reordering von Memory Access 2007-11-14 Seite 12 von 41
  11. AMD64 – die Zukunft (I) Budapest (ca. 1. Hälfte 2008)

    → single socket → HT3.0, DDR2-1066 Shanghai (ca. 1. Hälfte 2008) → 2MB L2$ + 6MB L3$ → Sockel F+ → kompatibel zu F → 4x HT3.0 → DDR2-800 DIMM 2007-11-14 Seite 13 von 41
  12. AMD64 – die Zukunft (II) HT3.0 schaltbar in 4x16bit od.

    8x8bit voll vermaschtes 8-Sockel-System möglich Vorteil: memory latency 2007-11-14 Seite 14 von 41
  13. AMD64 – die Zukunft (III) 2007-11-14 HT2.0 HT3.0 1.4GHz 1.8

    ... 2.6GHz Clock Throughput 5.6GB/s 10.4GB/s HT3.0 ist kompatibel zu HT2.0 (Pinout, # Connects) CRC, Link-splitting Enhanced Power Management http://www.hypertransport.org/ Seite 15 von 41
  14. AMD64 – die Zukunft (IV) Architektur „Bulldozer“ mit 1. CPU

    „Sandtiger“ (aka „Fusion“, ca. 2009) 8-16 Cores, 45nm, DDR3 RAM Direct Connect 2.0, HT3.0 SSE5 → geplant ohne Intel-Kompatibilität Integrierter Grafikprozessor on Chip (ATI) wahrscheinlich PCIe-Interface on Chip 10W ... 100W in Mobile-Ausführung (1W++) als „Bobcat“ 2007-11-14 Seite 16 von 41
  15. Intel EM64T – current state verwirrende Namensfülle, umfangreiche Roadmap Xeon,

    Penryn, Harpertown, Wolfdale, Yorkfield, Tigerton, Cranberry, Garlow, Truland, Caneland, Bensley Problem: Memory u. I/O muss immer über Northbridge ⇒ Chipsatz spielt eine große Rolle! 2007-11-14 Seite 17 von 41
  16. Intel EM64T – die Zukunft (I) Feautures für die Zukunft:

    1, 2 oder 4 Sockets je System ECC DIMMs PCI-X und PCIe S-ATA bzw. S-ATA 2 Unterscheidung nach: Taktung Systembus (667, 800, 1066, 1333 MHz) Memory-Art (DDR2-400, DDR2-667, FB-DIMM) Memory-Ausbau (bis 256GB/System) 2007-11-14 Seite 18 von 41
  17. Intel EM64T – die Zukunft (II) – Harpertown 45nm, 3GHz

    12MB L2$ (memory bandwidth) FSB1600 VT u. SSE4 Verbesserungen 2007-11-14 Seite 19 von 41
  18. Intel EM64T – die Zukunft (III) Nehalem 45nm, nativer Quadcore,

    in 2008 bis max. 8 Cores, 3GHz++, 1600MHz FSB 3MB L2$ je Core „Deep Power Down“ Technologie „Common System Interconnect“ – CSI ≈ 24-36GB/s Bandbreite verlinkt bis zu 6x CPU/IO/„accelerated devices“ wird zuerst in Tukwila auftauchen (IA-64) 2007-11-14 Seite 20 von 41
  19. SPARC64 VI, aka Olympus 90nm, 2.4GHz, 120W 2 Core á

    2 Strands (aka Threads) 6MB L2$, aber kein L3$ Cache mit ECC strand switch on event (L2$ miss, timer, interrupt) CPU degradation @ core level (RAS) Fujitsu SPARC64 – current state 2007-11-14 Seite 23 von 41
  20. SPARC64 VII aka Jupiter (manchmal auch SPARC64 VI+) 65nm, 2.7GHz

    (Anfang 2008) 4 Core á 2 Strands SMT, vertical multithreading gemeinsamer L2$ 6MB über alle Cores Entwicklungsziel: → starke Performance im Singlethread → bis 512 Sockel (mit Solaris) sockelkompatibel zu Olympus Fujitsu SPARC64 – die Zukunft 2007-11-14 Seite 24 von 41
  21. Rock (UltraSPARC V?), 65nm Multicore / Multisocket, 16 Cores á

    2 Strands Server-CPU, 2. Hälfte 2008 OpenSolaris bootet bereits, derzeit Systemdesign 8-Socket-System switchless mehr möglich, derzeit nicht vorgesehen PCIe x16 on chip Scout Thread → bis 1000 Instruktionen voraus → soll Caches füllen Transactional Memory Concurrent Memory Access @ CMT http://research.sun.com/ Sun UltraSPARC – die Zukunft (I) – Rock 2007-11-14 Rock Pinout ∑ 2395 Pins = 812 data + 1514 power + 69 not used Seite 25 von 41
  22. offiziell: UltraSPARC T2, ca. 1. Hälfte 2008 65nm CMOS, 84W,

    8 Core á 8 Strands 4MB shared L2$, FPU + Crypto Unit je Core True Random Generator → thermisches Widerstandsrauschen 2x 10GBE on chip → Crypto in Wirespeed PCIe x8 on chip Sparc V9 Core → OpenSource http://www.opensparc.net/ Sun UltraSPARC – die Zukunft (II) – Niagara 2 2007-11-14 Seite 26 von 41
  23. 1-Socket UltraSPARC T2 deutlich schneller als 2- Socket Quadcore Clovertown

    8 Threads T2 (12.5% utilization) sind deutlich schneller als 8 Cores Clovertown bei 100% Auslastung! OpenSSL 0.9.8e /usr/sfw/bin/gcc OpenSSL speed test (x86) Crypto Microbenchmark, developed by Sun (T2) Quelle: http://blogs.sun.com/sprack/entry/aes_128_performance Sun UltraSPARC – die Zukunft (IV) – Niagara 2 Performance 2007-11-14 Seite 28 von 41
  24. 65nm CMOS entspricht im Prinzip Niagara II, aber: kein 10GBE

    on chip stattdessen „Multichip Coherence Link“ (snoop) Dual Socket per direkter Verschaltung Quad Socket per „External Coherence Hub“ → 32 SPARC V9 Cores → 256 Threads → 16x FB-DIMM Kanäle aggregiert 48MB/s read, 42MB/s write System skaliert von 1:1.8 bis 1:1.92 abhängig von Workload-Typ Sun UltraSPARC – die Zukunft (V) – Victoria Falls 2007-11-14 Seite 29 von 41
  25. Datenübertragung per kapazitiver Kopplung wenig Leistungsaufnahme wenig Latenz extrem hohe

    Dichten möglich Switch Fabric mit 1000++ Ports bei Tbps++ Bandbreite Anwendungen: → Cluster Interconnect → Data Center Backbone → Interconnects bei Blade-Systemen http://research.sun.com/ Sun UltraSPARC – die Zukunft (VI) – Proximity Communication 2007-11-14 Seite 30 von 41
  26. 65nm CMOS, 790 Mio. Transistoren auf 341mm2 seit Juni 2007

    erhältlich, 3.5/4.3/4.7GHz 2 Cores á 2 Threads (2-way SMT) Multichip-Module (MCM, 4 CPU-Dice + L3$) Je Core 2x Integer Unit, 2x FPU, 1x Decimal FPU http://www2.hursley.ibm.com/decimal/ 4MB L2$, „semi-shared“ 32MB L3$ off-die aber on-chip, 80MB/s Anbindung Systeme mit max. 32 Sockel bei 50GB/s Interconnect max. 1024 LPARs, „Virtual Page Key Protection“ verbessertes AltiVec IBM POWER6 – current state 2007-11-14 Seite 32 von 41
  27. 1x PowerPC Core (Master, Management) 8x SPU → Synergistic Processor

    Unit → SIMD, local store area → kein Management Memory-Erweiterungen http://www.ibm.com/developerworks/power/cell IBM Cell Processor – current state 2007-11-14 Seite 33 von 41
  28. 65nm CMOS 100 Mio. Transistoren 275mm2 80 Tiles á 3mm2

    10x8 Tile Mesh 2 FPU je Core (Tile) Intel Polaris – 80 Core special purpose CPU 2007-11-14 3.1GHz 4.68GHz 6.26GHz 1TFLOP 1.5TFLOP 2TFLOP 46W 94W 181W Seite 34 von 41
  29. Andreas Stiller Parade der Quadrigen AMDs Barcelona-Architektur im Vergleich zum

    alten Opteron K8 und Intel Core c't, 20/2007 Christoph Windeck Vier gegen Vier AMDs Vierkern-Serverprozessor „Barcelona“ c't, 20/2007 Christoph Windeck Spar-o-Matic Stromsparfunktionen moderner x86-Prozessoren c't, 15/2007 Timothy Prickett Morgan AMD's Chip Roadmaps: Beyond Barcelona http://www.itjungle.com/tug/tug083007-story01.html Quellen und Links 2007-11-14 Seite 36 von 41
  30. Intel Roadmap 2008 - Workstation/Server http://www.tomshardware.com/de/review_print.php?p1=239664 David Kanter The Common

    System Interface: Intel's Future Interconnect http://www.realworldtech.com/page.cfm?ArticleID=RWT082807020032 Takumi Maruyama SPARC64 VI/VI+ Next Generation Processor Timothy Prickett Morgan Fujitsu Draws Sparc64 Roadmap Past 2010 http://www.itjungle.com/tug/tug022306-story01.html Umesh Gajanan Nawathe et. al. An 8-core, 64-thread, 64-bit, power efficient SPARC SoC (Niagara2) Sun Microsystems Inc., Sunnyvale, CA Marc Tremblay Multithreaded Multicores – An Update from Sun SC2006 Workshop Tampa Bay November 2006 Quellen und Links 2007-11-14 Seite 37 von 41
  31. RWTH Aachen – Rechen- und Kommunikationszentrum The UltraSPARC T2 („Niagara

    2“) Processor http://www.rz.rwth-aachen.de/ca/k/raw/?lang=en Allan Packer CMT Comes Of Age http://blogs.sun.com/allanp/entry/cmt_comes_of_age Weblog, Linksammlung zu technischen Artikeln über Niagara 2 Stephen Phillips VictoriaFalls: Scaling Highly-Threaded Processor Cores Distinguished Engineer, Sun Microsystems, 2007-21-08 Robert Drost Proximity Communication Sun Microsystems Research Laboratories, 2004 Sun Labs Open House Robert Drost Multiplying Moore's Law with Proximity Communication Sun Microsystems Laboratories, 2007 Sun Labs Open House Quellen und Links 2007-11-14 Seite 38 von 41
  32. Bradley McCredie POWER Roadmap IBM Systems &Technology Group, Development, 2006

    Power Architecture technology http://www.ibm.com/developerworks/power/ Webportal bei IBM zur Power-Architektur Jim Mitchell at. al. IBM POWER6 Processor-based Systems: Designed for Reliability IBM Corp., June 2007 International Business Machines Corporation Cell Broadband Engine Architecture October 11, 2007 H. Peter Hofstee Introduction to the Cell Broadband Engine IBM Corp., 2005 Quellen und Links 2007-11-14 Seite 39 von 41
  33. HyperTransport Technology Consortium HyperTransportTM I/O Link Specification Revision 3.00 2006

    – The Year of HyperTransport 3.0 HyperTransport Consortium, 2006 Krste Asanovic et. al. The Landscape of Parallel Computing Research: A View from Berkeley Electrical Engineering and Computer Sciences University of California at Berkeley, December 2006 Jack Dongarra An Overview of High Performance Computing and Challenges for the Future Innovative Computer Laboratory, University of Tennessee Oak Ridge National Laboratory, 2007 Rolf Kersten Die CO2 Bilanz des Internets Sun Microsystems GmbH Quellen und Links 2007-11-14 Seite 40 von 41
  34. Danke für die Aufmerksamkeit. Fragen? Wolfgang Stief [email protected] Senior Systemingenieur

    best Systeme GmbH GUUG Board Member best OpenSystems Day Herbst 2007 Unterföhring