Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CPU Update Juni 2017

CPU Update Juni 2017

Am 20. Juni stellte AMD ihre neue Generation Server-Prozessoren vor. Das Webinar geht etwas genauer auf ein paar wesentliche technische Neuerungen des AMD Epyc ein. Außerdem beleuchten wir die neue Prozessorgeneration der AMD-Mitstreiter: Intel Skylake-EP, IBM Power 9, und Nvidia V100.

Wolfgang Stief

June 23, 2017
Tweet

More Decks by Wolfgang Stief

Other Decks in Technology

Transcript

  1. Boston Webinar CPU Update – Was tut sich bei den

    Rechenknechten? Wolfgang Stief Senior Consultant
  2. §  Gegründet 1992 – 25 Jahre Innovation §  Supermicros ältester

    & größter globaler Partner — seit über 20 Jahren §  Lösungshersteller mit Fokus auf Technologie (First-to-Market Strategie) §  London HQ, Niederlassungen in London City, München, Mumbai, Bangalore, New York. Weitere Expansion geplant. §  Experten im Lösungs- und HPC-System-Design unter Verwendung von Premium-Komponenten von Supermicro und ausgewählten Partnern §  Supermicros Fastest Growing Partner Über uns
  3. §  Cores, Cores und noch mal Cores Multithreading, Multicore, Manycore

    – ein paar Grundlagen §  Der Weg durch die Instanzen AMD Epyc, Intel Skylake-SP, Intel Kaby Lake, IBM POWER, Nvidia Volta, Exoten §  Ein kurzer Blick in die Glaskugel §  Das Lieferprogramm von Boston §  Zum Weiterlesen Agenda
  4. §  Geschwindigkeitslücke CPU ⟷ Memory anfangs Cache, dann mehr Cache,

    noch mehr Cache, später Parallelisierung §  Dual-Core, Quad-Core ++ ab ca. 1970, IBM, CDC, Cray u. a. §  Multithreading 2, 4, 6++ Threads ähnliche Technologie bei allen §  Herausforderung immer: Synchronisation Cache-Kohärenz Taktfrequenz vs. Anzahl Cores Warum die Cores immer mehr wurden (1)
  5. curve shows transistor count doubling every two years 2,300 10,000

    100,000 1,000,000 10,000,000 100,000,000 1,000,000,000 2,600,000,000 1971 1980 1990 2000 2011 Date of introduction 4004 8008 8080 RCA 1802 8085 8088 Z80 MOS 6502 6809 8086 80186 6800 68000 80286 80386 80486 Pentium AMD K5 Pentium II Pentium III AMD K6 AMD K6-III AMD K7 Pentium 4 Barton Atom AMD K8 Itanium 2 Cell Core 2 Duo AMD K10 Itanium 2 with 9MB cache POWER6 Core i7 (Quad) Six-Core Opteron 2400 8-Core Xeon Nehalem-EX Quad-Core Itanium Tukwila Quad-core z196 8-core POWER7 10-Core Xeon Westmere-EX 16-Core SPARC T3 Six-Core Core i7 Six-Core Xeon 7400 Dual-Core Itanium 2 AMD K10 Microprocessor Transistor Counts 1971-2011 & Moore's Law Transistor count §  Verbesserung im Herstellungsprozess immer kleinere Strukturbreiten aktuell 14 nm, 10 nm, 7 nm (wenige Atomlagen) menschliches Haar: 40.000 nm (!) §  Mooresches Gesetz Etwa alle 18 Monate verdoppelt sich die Anzahl der Schaltkreiselemente eines integrierten Schaltkreises. Gordon Moore, 1965 (Mitgründer von Intel) §  Also: immer mehr Funktion auf gleicher Chip-Fläche (Cache, Cores, SoC) Warum die Cores immer mehr wurden (2) Bild: By Wgsimon - Own work, CC BY-SA 3.0 https://commons.wikimedia.org/w/index.php?curid=15193542
  6. §  Die PS müssen ja auch irgendwie auf die Straße.

    §  Das Fahrwerk muss zum Motor passen. §  Kunst, Magie und Erfahrung der Board- und System- hersteller Aber! Gigahertz und Multicore ist nicht alles!
  7. §  32 Core / 64 Threads (max) Zen Architektur, 7

    nm gleicher Core wie AMD Ryzen §  8 Memory Channels / Sockel 16 DIMMs / Sockel (derzeit 2 TB) 8x 21.6 GB/s Memory Bandwidth (Skylake-EP: 127.8 GB/s total) §  128 PCIe 3.0 Lanes / Sockel 2-Sockel-System: 64 Lanes für Interconnect/CPU (Infinity Fabric) §  Launch: 20. Juni 2017 AMD Epyc (aka Naples) (1) Bild: AMD
  8. §  Multichip Modul (MCM) Infinite Fabric: cache coherent Hypertransport § 

    8/16/24/32 Core Modelle kommen alle als MCM alle Modelle haben volle Memory Bandbreite balanced architecture über 1- und 2-Sockel-Systeme §  nur AVX128 (Intel AVX256/512) deshalb schlechtere LINPACK-Leistung als Xeon AMD: rechenintensive Aufgaben an GPU auslagern §  Security Prozessor Memory Crypt (z. B. persistenter Hauptspeicher) AMD Epyc (aka Naples) (2) Bild: AMD Bild: AMD
  9. §  SoC Design NVMe Support on Chip Server Controller Hub

    (statt PCH) §  +40% SPECint, +60% SPECfp im Vergleich zu Intel E5-2699Av4 1 ➛ 2 Sockel: 1.98x Performance §  neuartige Branch Prediction nutzt Techniken neuronaler Netze für genauere Sprungvorhersagen falsche Vorhersagen sind „teuer“ §  Next: Zen 2 „Rome“ und Zen 3 AMD Epyc (aka Naples) (3)
  10. §  28 Core, 112 Threads max 2.5 GHz / 3.8

    GHz (Turbo) max §  1 MB L2 Cache je Core Broadwell-EP: 256 kB §  38.5 MB L3 Cache (max) Xeon Platinum 8180 §  AVX512 Vektor-Einheit, SIMD, Gleitkomma- Berechnungen §  Modelle mit integriertem I/O OmniPath (bisher KNL only), Ethernet Intel Skylake-SP (1) Bild: Intel
  11. §  Wechsel Ring ➛ Mesh ähnlich Xeon Phi aka KNL

    Ring für große Anzahl Cores ungeeignet Mesh hat höhere Transferraten bei geringerer Latenz §  Neue Bezeichnungen Bronze, Silver, Gold, Platinum §  Neue Buchstaben SP ➛ Scalable Performance F ➛ Fabric OmniPath P ➛ FPGA on Module Intel Skylake-SP (2) Bild: Intel
  12. §  7. Generation Intel Core Architecture Refresh soll noch in

    2017 erscheinen §  ähnlich zu Skylake („Modellpflege“) höherer Takt, schnelleres Speed Shift, verbesserte Grafik-Funktionen, bis zu 16x PCIe 3 Lanes direkt an der CPU, Support für Intel Optane (3D XPoint Memory) §  Server-Modelle 4-Core, 14 nm, 8 MB L3 Cache, 3...4 GHz unteres Server-Segment, preisgünstiger Einstieg, Cloud-Anbieter §  Fokus der CPU auf Ultrabooks, Notebooks, Desktop Intel Kaby Lake
  13. §  Coffee Lake (?) 14 nm, 6 Cores max, integrierte

    Grafik, Desktop/Mobile §  Cannonlake (?) 10 nm, Die-Shrink von Kaby Lake, ca. Ende 2017, Fertigung läuft zwischenzeitlich §  Ice Lake ca. 2019, Prozess bleibt (10 nm), Mikroarchitektur wird überarbeitet (neue Features etc.), Designphase abgeschlossen Und was kommt nach Kaby Lake?
  14. §  Xeon Phi Knights Mill Manycore-Architektur, Optimierungen für AI, ca.

    Ende 2017, ca. 4x Performance FP16 zu KNL §  Altera Arria 10 FPGA Koprozessor-Karte, „Deep Learning Inference Accelerator“ (DLIA), soll alternativ auch integriert mit Broadwell in einem Gehäuse kommen §  Nervana Engine Codename Lake Crest, CPU + Memory auf Interposer-Board, PCI-Karte, je CPU 12x 100 GB/s Highspeed Link, ca. 1 TB/s (!) Memory-Bandbreite (4 GB DVD in 4 µs) §  AI/Machine Learning, „Acqui-Hire“ Aber Intel kann noch mehr!
  15. §  12 Core / 96 Threads max 22 nm, Markteinführung

    2014 Modelle mit 4, 6, 8, 10, 12 Core §  Abstraktion Memory-Interface, buffered Memory ➛ Centaur CPU ⟷ Centaur ist festgelegt und unter IBM-Kontrolle Centaur ⟷ DIMM ist flexibel und „leicht“ änderbar. 3x 9.6 GB/s je Centaur @ 40 ns Latenz, 2:1 read:write max. 8 Centaur-Interfaces je CPU §  Coherent Accelerator Processor Interface (CAPI) (Power 8+) Interconnect auf Basis PCIe 3.0 kann auch für NVLink genutzt werden (➛ Nvidia P100/V100) IBM Power 8
  16. §  24 Core, SMT4 und SMT8 14 nm, 4 GHz

    max., 120 MB L3 Cache (!), 8 TB RAM je Sockel, ca. 2. HJ 2017 SMT4: Linux Ecosystem optimized SMT8: PowerVM Ecosystem (=AIX) §  ScaleOut (SO) vs. ScaleUp (SU) SO: 8x DDR4, 4 TB max. (256 GB Module), optimiert auf 2 Sockel SU: 8x Centaur Buffered Memory / Sockel, 128 MB L4 Cache (16 MB/Centaur), optimiert für 4+ Sockel IBM Power 9 (1) Bild: IBM
  17. §  PCIe Gen4 48 Lanes á 16 Gbit/s (Σ96 GB/s)

    PCIe Gen3: 8 Gbit/s je Lane §  IBM BlueLink 48 Lanes á 25 Gbit/s (Σ150 GB/s) lässt sich z. B. als NVLink 2 betreiben auch als FPGA Connect denkbar IBM Power 9 (2) Bild: IBM
  18. §  80 (84) SM Modules Streaming Multiprocessor 64 CUDA-Cores 8

    Tensor-Cores §  Tensor Core D = A×B + C (Matrix × Matrix) + Matrix Kern des grundlegenden Algorithmus bei Machine Learning „MAC“-Operation §  GP100 ➛ GV100 ca. 9.3x schneller bei AI wg. Tensor-Cores Nvidia Volta (1) Bild: Nvidia
  19. §  5120 CUDA-Cores 640 Tensor-Cores 12 nm, 815 mm² § 

    1.455 GHz 300 W TDP §  ab Q3/2017 Nvidia Volta (2) Bild: Nvidia
  20. §  1x GV100 + 4x HBM2 auf Interposer Board ➛

    V100 Modul für Mainboard (NVLink 2) PCIe-Karte §  900 GB/s Memory Throughput @ HBM2 (ca. 10...30 ns Latenz) §  NVLink 2 6 Links / GPU, á 50 GB/s (beide Richtungen) Kohärenz, atomic transfers GPU ⟷ GPU (Boston ANNA) oder GPU ⟷ CPU (IBM Power 8+ und Power 9) Nvidia Volta (3)
  21. §  Cavium Thunder X-2 54x ARM64 Core, Microsoft Windows Server

    verfügbar (Cloud only) §  NEC Aurora Vektor-CPU als PCIe-Karte mit HBM2 Memory, voraussichtlich 8...10 Core §  Google TPU Tensor Processing Unit, 65536x 8-Bit Integer Units spezialisiert auf MAC-Operationen §  Intel Kittson (IA64) letzter jemals gebauter Itanium, 4-/8-Core, 2.66 GHz max, HP-UX §  Oracle SPARC S7/M7, Fujitsu SPARC64 XII Crypto Units (wire speed), teilweise SoC, Memory Security, „Software in Silicon“ Exotik
  22. §  CPUs und GPUs als Einzelstücke (auch größere Mengen) Intel,

    AMD, Nvidia §  Mainboards passend für AMD- oder Intel-CPUs Supermicro §  Komplettsysteme mit AMD- oder Intel-CPUs §  komplette Palette NVidia GPUs §  Boston ANNA Machine Learning Appliance Nvidia P100/V100 §  Systeme mit IBM Power 8+ und Nvidia P100 (NVlink) Bei Boston derzeit erhältlich
  23. §  Koprozessoren für AI/Machine Learning FPGA, GPGPU, Tensor-Einheiten in „normaler“

    CPU §  persistentes Memory NVMeoF / NVDIMM hat Latenzen nahe DIMMs „Storage Class Memory“ (SCM) §  SoC I/O möglichst nahe an der CPU, hohe Bandbreite, geringe Latenz §  Software in Silicon Funktionseinheiten für spezielle Anwendungsfälle Glaskugelkaffeesatz
  24. §  c‘t Prozessorgeflüster zweiwöchentliche Kolumne, auch online (kostenfrei) §  The

    Register und The Next Platform https://www.theregister.co.uk https://www.nextplatform.com/ §  Golem https://www.golem.de §  Fach- und Lehrbücher zu Prozessor- und Computerarchitektur nachfragen bei [email protected] Zum Weiterlesen
  25. Werbeblock – Boston Solution Day 2017 §  Mittwoch, 28. Juni

    2017, Gutsgasthof Stangl, Neufarn bei Anzing https://www.boston-it.de/news/events/uebersicht-bstd17/ §  Fachvorträge und Ausstellung - Erfolgreiche IoT-Geschäftsmodelle – Chancen & Gestaltungsoptionen - Blockchain & Crypto Währungen - Neues aus den Boston Labs - NDA Showroom: Intel Purley Plattform, IBM Power mit Nvidia GPU u. a.