Was war, was ist, was wird? Multicore und Multithread, Virtualisierung in Hardware, RDIMM, FBDIMM, AMD Opteron, Intel Xeon, Sun UltraSPARC T2, Sun Rock (UltraSPARC V), Fujitsu SPARC64 VI+ und VII, IBM POWER6, IBM Cell Processor, Intel Polaris
für die nächsten zwei Jahre Konkretes oder Kaffeesatz? Implementierungen AMD Opteron, Intel Xeon, Sun UltraSPARC T2, Sun Rock (UltraSPARC V), Fujitsu SPARC64 VI+/VII, IBM Power6, IBM Cell Processor, Intel Polaris Agenda 2007-11-14 Seite 2 von 41
Cores ⇒ und mehr (16, 64, 80) „Das neue Megahertz-Rennen?“ Special Purpose Units (SPU) on Chip ⇒ wird weiter ausgebaut: Sun Niagara II → 2x 10GBE (Anfang 2008) AMD Fusion → GPU on Die (2009) Intel → GPU on Die (2009) Trends vor einem Jahr I 2007-11-14 Seite 3 von 41
derzeit nicht in Sicht ⇒ Problem: Strukturbreiten, Anzahl Pins Virtualisierung in Hardware ⇒ großteils schon da, wird ausgebaut und verbessert LDom (Sun), LPAR (IBM), Pacifica (AMD), Vanderpool (Intel) Trends vor einem Jahr II 2007-11-14 Seite 4 von 41
schneller (HT2.0 → HT3.0) Multicore u. Multithread wird weiter ausgebaut → Änderungen am Programming Model notwendig → Bewußtsein darüber muss bei den Programmierern ankommen CO 2 ist plötzlich ein Thema! → Leistungsdichte im Rack / RZ zu hoch → Kosten f. Stromversorgung und Klima → Stromsparfunktionen notwendig 2007-11-14 Seite 6 von 41
→ schnellere RAMs → Wandel von DDR zu FB → Zugriffsalgorithmen und -methodik (Microcode) CSI @ Intel → ähnliches Konzept wie Hypertransport Proximity Communication @ Sun → weitere Miniaturisierung außerhalb Prozess → Erhöhung der „Pin-Dichte“ 2007-11-14 Seite 7 von 41
bringen Geschwindigkeit → „SMP on Die“ Prozesstechnologie / Struktur- breite sinkt weiter (65nm, 45nm, 32nm) L2$ (L3$) Sharing wird einfacher core(n) profitiert u. U. von Cacheoperation des core(n-1) Wichtig: Programming-Model muss überdacht werden! Warum eigentlich Multicores und Multithreading 2007-11-14 Seite 8 von 41
→ Puffer nur für Adressleitungen Fully Buffered DIMM (FBDIMM) → Advanced Memory Buffer (AMB) → Adress- und Datensignale → sehr viel weniger Leitungen → mehr Speicherkanäle → höhere Latenz → höhere Bandbreite, weil mehr Parallelität FBDIMM / AMB braucht mehr Leistung 2GB - 32GB Memory Ausbau = 16W – 48W mehr je Server 1 Rack mit 42x 1HE-Server → 0.5kW – 2kW mehr Was tut sich bei DIMMs? 2007-11-14 Seite 9 von 41
... 2.6GHz Clock Throughput 5.6GB/s 10.4GB/s HT3.0 ist kompatibel zu HT2.0 (Pinout, # Connects) CRC, Link-splitting Enhanced Power Management http://www.hypertransport.org/ Seite 15 von 41
„Sandtiger“ (aka „Fusion“, ca. 2009) 8-16 Cores, 45nm, DDR3 RAM Direct Connect 2.0, HT3.0 SSE5 → geplant ohne Intel-Kompatibilität Integrierter Grafikprozessor on Chip (ATI) wahrscheinlich PCIe-Interface on Chip 10W ... 100W in Mobile-Ausführung (1W++) als „Bobcat“ 2007-11-14 Seite 16 von 41
Penryn, Harpertown, Wolfdale, Yorkfield, Tigerton, Cranberry, Garlow, Truland, Caneland, Bensley Problem: Memory u. I/O muss immer über Northbridge ⇒ Chipsatz spielt eine große Rolle! 2007-11-14 Seite 17 von 41
in 2008 bis max. 8 Cores, 3GHz++, 1600MHz FSB 3MB L2$ je Core „Deep Power Down“ Technologie „Common System Interconnect“ – CSI ≈ 24-36GB/s Bandbreite verlinkt bis zu 6x CPU/IO/„accelerated devices“ wird zuerst in Tukwila auftauchen (IA-64) 2007-11-14 Seite 20 von 41
2 Strands (aka Threads) 6MB L2$, aber kein L3$ Cache mit ECC strand switch on event (L2$ miss, timer, interrupt) CPU degradation @ core level (RAS) Fujitsu SPARC64 – current state 2007-11-14 Seite 23 von 41
(Anfang 2008) 4 Core á 2 Strands SMT, vertical multithreading gemeinsamer L2$ 6MB über alle Cores Entwicklungsziel: → starke Performance im Singlethread → bis 512 Sockel (mit Solaris) sockelkompatibel zu Olympus Fujitsu SPARC64 – die Zukunft 2007-11-14 Seite 24 von 41
2 Strands Server-CPU, 2. Hälfte 2008 OpenSolaris bootet bereits, derzeit Systemdesign 8-Socket-System switchless mehr möglich, derzeit nicht vorgesehen PCIe x16 on chip Scout Thread → bis 1000 Instruktionen voraus → soll Caches füllen Transactional Memory Concurrent Memory Access @ CMT http://research.sun.com/ Sun UltraSPARC – die Zukunft (I) – Rock 2007-11-14 Rock Pinout ∑ 2395 Pins = 812 data + 1514 power + 69 not used Seite 25 von 41
8 Core á 8 Strands 4MB shared L2$, FPU + Crypto Unit je Core True Random Generator → thermisches Widerstandsrauschen 2x 10GBE on chip → Crypto in Wirespeed PCIe x8 on chip Sparc V9 Core → OpenSource http://www.opensparc.net/ Sun UltraSPARC – die Zukunft (II) – Niagara 2 2007-11-14 Seite 26 von 41
8 Threads T2 (12.5% utilization) sind deutlich schneller als 8 Cores Clovertown bei 100% Auslastung! OpenSSL 0.9.8e /usr/sfw/bin/gcc OpenSSL speed test (x86) Crypto Microbenchmark, developed by Sun (T2) Quelle: http://blogs.sun.com/sprack/entry/aes_128_performance Sun UltraSPARC – die Zukunft (IV) – Niagara 2 Performance 2007-11-14 Seite 28 von 41
on chip stattdessen „Multichip Coherence Link“ (snoop) Dual Socket per direkter Verschaltung Quad Socket per „External Coherence Hub“ → 32 SPARC V9 Cores → 256 Threads → 16x FB-DIMM Kanäle aggregiert 48MB/s read, 42MB/s write System skaliert von 1:1.8 bis 1:1.92 abhängig von Workload-Typ Sun UltraSPARC – die Zukunft (V) – Victoria Falls 2007-11-14 Seite 29 von 41
Dichten möglich Switch Fabric mit 1000++ Ports bei Tbps++ Bandbreite Anwendungen: → Cluster Interconnect → Data Center Backbone → Interconnects bei Blade-Systemen http://research.sun.com/ Sun UltraSPARC – die Zukunft (VI) – Proximity Communication 2007-11-14 Seite 30 von 41
Unit → SIMD, local store area → kein Management Memory-Erweiterungen http://www.ibm.com/developerworks/power/cell IBM Cell Processor – current state 2007-11-14 Seite 33 von 41
alten Opteron K8 und Intel Core c't, 20/2007 Christoph Windeck Vier gegen Vier AMDs Vierkern-Serverprozessor „Barcelona“ c't, 20/2007 Christoph Windeck Spar-o-Matic Stromsparfunktionen moderner x86-Prozessoren c't, 15/2007 Timothy Prickett Morgan AMD's Chip Roadmaps: Beyond Barcelona http://www.itjungle.com/tug/tug083007-story01.html Quellen und Links 2007-11-14 Seite 36 von 41
System Interface: Intel's Future Interconnect http://www.realworldtech.com/page.cfm?ArticleID=RWT082807020032 Takumi Maruyama SPARC64 VI/VI+ Next Generation Processor Timothy Prickett Morgan Fujitsu Draws Sparc64 Roadmap Past 2010 http://www.itjungle.com/tug/tug022306-story01.html Umesh Gajanan Nawathe et. al. An 8-core, 64-thread, 64-bit, power efficient SPARC SoC (Niagara2) Sun Microsystems Inc., Sunnyvale, CA Marc Tremblay Multithreaded Multicores – An Update from Sun SC2006 Workshop Tampa Bay November 2006 Quellen und Links 2007-11-14 Seite 37 von 41
2“) Processor http://www.rz.rwth-aachen.de/ca/k/raw/?lang=en Allan Packer CMT Comes Of Age http://blogs.sun.com/allanp/entry/cmt_comes_of_age Weblog, Linksammlung zu technischen Artikeln über Niagara 2 Stephen Phillips VictoriaFalls: Scaling Highly-Threaded Processor Cores Distinguished Engineer, Sun Microsystems, 2007-21-08 Robert Drost Proximity Communication Sun Microsystems Research Laboratories, 2004 Sun Labs Open House Robert Drost Multiplying Moore's Law with Proximity Communication Sun Microsystems Laboratories, 2007 Sun Labs Open House Quellen und Links 2007-11-14 Seite 38 von 41
Power Architecture technology http://www.ibm.com/developerworks/power/ Webportal bei IBM zur Power-Architektur Jim Mitchell at. al. IBM POWER6 Processor-based Systems: Designed for Reliability IBM Corp., June 2007 International Business Machines Corporation Cell Broadband Engine Architecture October 11, 2007 H. Peter Hofstee Introduction to the Cell Broadband Engine IBM Corp., 2005 Quellen und Links 2007-11-14 Seite 39 von 41
– The Year of HyperTransport 3.0 HyperTransport Consortium, 2006 Krste Asanovic et. al. The Landscape of Parallel Computing Research: A View from Berkeley Electrical Engineering and Computer Sciences University of California at Berkeley, December 2006 Jack Dongarra An Overview of High Performance Computing and Challenges for the Future Innovative Computer Laboratory, University of Tennessee Oak Ridge National Laboratory, 2007 Rolf Kersten Die CO2 Bilanz des Internets Sun Microsystems GmbH Quellen und Links 2007-11-14 Seite 40 von 41