Дотянуться до кремния. HighLoad Python: SIMD, GPU – Пётр Андреев, PythoNN

МФТИ - ФОПФ’19, ФПМИ’21: - CPython Internals - classic ML
(sems) tech-проекты фин.сектор ВШЭ, Иннополис CPython music

October: • Finland • Sweden December: Indonesia September: Ghana November:
Ireland

автор tg: @PyotrAndreev 5 Marketing Internals Each year: faster: 20%
energy: less consumption

автор tg: @PyotrAndreev 8 Transistor Internals silicon wafer / crystal
manufacturing Что сегодня на обед ?

manufacturing SMT / SIMD GPU +industry +future Что сегодня на обед ?

manufacturing / sand -> wafer

manufacturing / sand -> wafer / time / crystalline silicon • Time: days-month • 1420°C • 265kg ≈ 300mm x 2m

manufacturing / sand -> wafer / time / crystalline silicon to Instagram: • Time: days-month • 1420°C • 265kg ≈ 300mm x 2m

автор tg: @PyotrAndreev 21 Transistor Silicon wafer: • ultra clean,
выращенная • 30 sm • ≈$100 buy here Internals making micro-chip

автор tg: @PyotrAndreev 25 Photo-lithograph Internals making micro-chip TSMC Taiwan
$170M

автор tg: @PyotrAndreev 26 Photo-lithograph Internals making micro-chip TSMC Netherlands
Taiwan $170M <- ASML: EUV-сканеры

автор tg: @PyotrAndreev 27 Photo-lithograph Internals making micro-chip TSMC Netherlands
Germany Taiwan $170M <- ASML: EUV-сканеры <- Carl Zeiss SMT: оптика

автор tg: @PyotrAndreev 28 Photo-lithograph Internals making micro-chip / chip
manufacturing • 13nm – EUV • $300th – photo mask cost • ≈25kW - light energy (initial)

manufacturing • 13nm – EUV • $300th – photo mask cost • ≈25kW - light energy (initial) chips on 300mm wafer: (in the end) • or ≈100 GPUs • or ≈200 CPUs • or ≈1000 DRAM

автор tg: @PyotrAndreev 34 Photo-lithograph Internals

автор tg: @PyotrAndreev 35 Photo-lithograph Internals

автор tg: @PyotrAndreev 36 Photo-lithograph Internals ≈ 100$ 3 months
≈1000steps

автор tg: @PyotrAndreev 37 Photo-lithograph Internals ≈ 100$ ≈ 150
000$ 3 months ≈1000steps ≈200 CPUs 1 CPU: ≈26B transistors

000$ wafer 125 gram ≈ gold gram x10 ≈ 1kg of gold PRICE: 3 months ≈1000steps ≈200 CPUs 1 CPU: ≈26B transistors

000$ wafer 125 gram ≈ gold gram x10 ≈ 1kg of gold PRICE: 3 months ≈1000steps ≈200 CPUs 1 CPU: ≈26B transistors monthly: 50th wafers ≈ $7.5B

manufacturing

автор tg: @PyotrAndreev 44 TSMC In time infestor report /
A14 process / specialty technology / 3D fabric И куда мы движемся?

автор tg: @PyotrAndreev 45 TSMC In time infestor report /
A14 process / specialty technology / 3D fabric Technology: • tech-process И куда мы движемся?

автор tg: @PyotrAndreev 46 TSMC History TSMC Tech Symposium Produce
chips ≥ min тех.процесс Страшный график:

автор tg: @PyotrAndreev 47 TSMC History TSMC Tech Symposium Produce
chips ≥ min тех.процесс Страшный график:

автор tg: @PyotrAndreev 48 TSMC RoadMap TSMC Tech Symposium Source
маркетинга: Each year: faster: 20% energy: less consumption

автор tg: @PyotrAndreev 52 Transistor Sizes image Когда вы купили
свой компьютер?

автор tg: @PyotrAndreev 53 Transistor Sizes image Когда вы купили
свой компьютер?

автор tg: @PyotrAndreev 54 Transistor Sizes CPU inners Transisor vs.
daily objects

daily objects

автор tg: @PyotrAndreev 58 Transistor Principles transistors in CPU

автор tg: @PyotrAndreev 64 Transistor Architectures transistor evolution / GAA
FET types / <10nm / CFET

автор tg: @PyotrAndreev 68 Transistor Architectures transistors in CPU /
simple CPU Transistors:

Logic Gates: transistor combinations автор tg: @PyotrAndreev 69 Transistor Architectures
transistors in CPU / simple CPU Transistors:

transistors in CPU / simple CPU Transistors: elementary Math: sum, mul, … Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations

transistors in CPU / simple CPU Transistors: Chip: elementary Math: sum, mul, … Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations

transistors in CPU / simple CPU Transistors: Chip: elementary Math: sum, mul, … Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations Всё для чего?

автор tg: @PyotrAndreev 74 Transistor Future <A10: 2D materials /
transistor roadmap / Interuniversity Microelectronics Centre Сложное будущее:

автор tg: @PyotrAndreev 75 Transistor Future <A10: 2D materials /
transistor roadmap / Interuniversity Microelectronics Centre Сложное будущее:

energy: less consumption Простой слайд:

автор tg: @PyotrAndreev 77 processing units Internals CPU architecture /
CPU works / G/CPU schemes GPU: много, просто, одновременно CPU: мало, сложно, быстро

автор tg: @PyotrAndreev 78 processing units Internals • ≤ 128
ядер – решение общих задача • сильные ядра + предсказание ветвлений, большие кеши • параллельность: ядра + векторизация + … • лучше для: одной большой задачи за раз CPU architecture / CPU works / G/CPU schemes GPU: много, просто, одновременно CPU: мало, сложно, быстро

автор tg: @PyotrAndreev 79 processing units Internals • ≤ 128
ядер – решение общих задача • сильные ядра + предсказание ветвлений, большие кеши • параллельность: ядра + векторизация + … • лучше для: одной большой задачи за раз CPU architecture / CPU works / G/CPU schemes • ~ 100 спец.ядер: • оптимизация: пропускная способность • параллельность: ~ 10th потоков • лучше для: many the same independent simple tasks GPU: много, просто, одновременно CPU: мало, сложно, быстро

автор tg: @PyotrAndreev 80 CPU Internals $ python3 -c 'print(1+1)'
2 $ python3 -m timeit -s '1000' -c 1000 50000000 loops, best of 5: 5.31 nsec per loop

автор tg: @PyotrAndreev 81 CPU Internals elementary Math: sum, mul,
… Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations $ python3 -c 'print(1+1)' 2 $ python3 -m timeit -s '1000' -c 1000 50000000 loops, best of 5: 5.31 nsec per loop

… Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations $ python3 -c 'print(1+1)' 2 $ python3 -m timeit -s '1000' -c 1000 50000000 loops, best of 5: 5.31 nsec per loop Byte-codes C compiled CPython for CPU

… Units: logic gate combinations IP Core: unit combinations Core: IP Core combinations $ python3 -c 'print(1+1)' 2 $ python3 -m timeit -s '1000' -c 1000 50000000 loops, best of 5: 5.31 nsec per loop Byte-codes ISA Instruction Set Architecture = CPU language micro-ops CPU decodes ISA to µ-ops C compiled CPython for CPU

автор tg: @PyotrAndreev 84 CPU SMT/Hyper-Threading in core 1 core
– many logical cores. Each logical has independent: • счётчики команд, физ.регистры но общие: • исполнительные блоки, кэши, буферы Площадь кристалла ограничена: -дублирование и межъядерная инфра энергопотребление/выделение тепла в рамках logical cores is 10–40% compute power: • L2/L3-miss, TLB-miss, mispredict, … Оба лог.ядра конкурируют за общие ресурсы. два аппаратных контекста и общий исполнительный тракт SMT — физически реализованная многопоточность внутри одного ядра logic core SP: указатель стека IP: счётчик команд GPR, флаги/статус, контекст предсказателя, … core logic core SP: указатель стека IP: счётчик команд GPR, флаги/статус, контекст предсказателя, … scheduler, branch predictor, TLB, блоки исполнения, кэши, шины, частота, термобюджет, Load/Store Unit, SIMD* cache-miss

автор tg: @PyotrAndreev 85 CPU: SIMD AVX/SVE Сколько «чисел» влезает
в вектор (примерно, зависит от выбранного формата) • 128 бит (NEON/XMM): 16×int8, 8×int16, 4×float32, 2×float64 • 256 бит (YMM): 32×int8, 16×int16, 8×float32, 4×float64 • 512 бит (ZMM): 64×int8, 32×int16, 16×float32, 8×float64 • SVE 2048 бит: 256×int8 или 32×float64. где SIMD упирается в память и когда стоит идти в кластер/шардинг

автор tg: @PyotrAndreev 86 GPU Internals

автор tg: @PyotrAndreev 87 GPU Internals

автор tg: @PyotrAndreev 88 Benchmarks maths out = sin(a*b +
c) + sqrt(|a-b|) pure_python.py 0.043s / N=2*105 / float32 numba_simd.py 0.012s / N=107 / float32

автор tg: @PyotrAndreev 89 CuPy High performance with GPU doc:
cupy.dev out = sin(a*b + c) + sqrt(|a-b|)

автор tg: @PyotrAndreev 90 PyCuda Internals 1. от сообщества: А.Клекнер
2. питонячая обёртка над CUDA -> верхнеуровневый доступ к API CUDA pycuda: github / doc

автор tg: @PyotrAndreev 91 t.me/py_up Python Powers Global Code

Дотянуться до кремния. HighLoad Python: SIMD, G...

Дотянуться до кремния. HighLoad Python: SIMD, GPU – Пётр Андреев, PythoNN

More Decks by Sobolev Nikita

Other Decks in Programming

Featured

Transcript