LLM時代の半導体・集積回路

Slide 1

Slide 1 text

『LLM時代の半導体・集積回路』吉岡健太郎慶應大学理工学部電気情報工学科専任講師

Slide 2

Slide 2 text

◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大客員研究員 ◼ 2021-電気情報工学科専任講師 ◼ 専門：集積回路（LSI）、ロボットセンシング自己紹介

Slide 3

Slide 3 text

◼ 慶應大石黒研究室 ◼ 東芝研究開発センター入社(2014) ◼研究の軸足：回路設計技術自己紹介

Slide 4

Slide 4 text

5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大石黒研究室 ◼ 東芝研究開発センター入社(2014) ◼研究の軸足：回路設計技術

Slide 5

Slide 5 text

ムーアの法則～集積回路の発展～ Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .

Slide 6

Slide 6 text

Slide 7

Slide 7 text

ムーアの法則～集積回路の発展～ Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス：10um ムーアの法則：集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス：5nm

Slide 8

Slide 8 text

ムーアの法則とトランジスタ（出典）日経エレクトロニクス 2017年9月号現在の先端LSIで使われているトランジスタ構造。物理限界に逼迫し性能限界。（原子1つ=0.1nm)

Slide 9

Slide 9 text

ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化：・CPU性能自体はここ10年で飽和・CPU動作周波数も変わっていない

Slide 10

Slide 10 text

ムーアの法則の恩恵・iPhoneの速度 GeekBenchベンチマーク https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上！

Slide 11

Slide 11 text

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html 4世代でたった1.6倍の性能向上？ iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上！・iPhoneの速度 GeekBenchベンチマーク

Slide 12

Slide 12 text

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上！ 4世代でたった1.6倍の性能向上？昔は5倍・iPhoneの速度 GeekBenchベンチマーク

Slide 13

Slide 13 text

もう集積回路は終わり？

Slide 14

Slide 14 text

ビヨンドムーア～ドメイン特化～ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ https://www.joc.or.jp/sports/athletics_combined.html オリンピック・ディスタンスのレースは、合計51.5km （スイム1.5km・バイク40km・ラン10km）アイアンマン・ディスタンスのレースは合計約226km （スイム3.8km・バイク180km・ラン42.195km）

Slide 15

Slide 15 text

ビヨンドムーア～ドメイン特化～ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機（CPU）から専用計算機へ – 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ（GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html

Slide 16

Slide 16 text

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算（画像処理等）に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない） – TPUに至ってはキャッシュ機能すらない CPU core

Slide 17

Slide 17 text

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算（画像処理等）に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない） – TPUに至ってはキャッシュ機能すらない CPU core TPU core

Slide 18

Slide 18 text

◼ 構造的にはGPU ◼ 膨大な認識を瞬時に！ ◆自動車メーカ、ソフトウェア会社が半導体設計する時代。 Tesla社の自動運転用プロセッサ Kentaro Yoshioka(18/17)

Slide 19

Slide 19 text

データセンター用プロセッサ(TPU) • Googleの発表したニューラルネットプロセッサ – GPUよりも更に単純化、ニューラルネットに特化 – “積和演算”や”内積”の計算処理に特化した回路で構成 – ソフトウェア会社が半導体設計する時代。 https://cloud.google.com/tpu/docs/system-architecture?hl=ja

Slide 20

Slide 20 text

アクセラレータの重要な研究課題 • ①チップ内データ移動の最小化 – Dataflow問題やスケジューリング問題としてコンピュータアーキテクチャ分野で活発 ⇨チップ内メモリ、演算器に入り切らないほどのデータをどのように処理するか？データ分割、チャネル分割、レイヤ分割・・etc. – 主な考え方：データを極力Off-chipに出さず、On-chip Bufferに留めながら可能な限りデータ処理を行いたい

Slide 21

Slide 21 text

◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ（Fusing)、さらに行列計算を分割すること(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例： FlashAttention Kentaro Yoshioka(21/17)

Slide 22

Slide 22 text

◼ FusingとTilingはHigh-performance Computing(HPC)分野ではよく知られたテクニック ◆https://halide-lang.org/ ◼ ただプログラミングが難しい（最適化はCUDAとGPUハードウェアを知り尽くしていないとできない）ので気軽には実現できない.. LLM研究例： FlashAttention Kentaro Yoshioka(22/17)

Slide 23

Slide 23 text

◼ TensorRT: 上記のようなカーネル最適化をCUDAを直接書かずに実施してくれる nvidiaのライブラリ ◆グラフ最適化：3x3 conv->bias->reluといった処理を一つの計算にまとめ、メモリアクセスを最適化 ◆量子化：データ表現をINT8bitといった少ないbit数で表現することで、メモリアクセス数を削減 ◆→結果として10倍ほどの速度向上も可能 LLM研究例： TensorRT Kentaro Yoshioka(23/17)

Slide 24

Slide 24 text

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる LLM研究例： TensorRT-LLM Kentaro Yoshioka(24/17)

Slide 25

Slide 25 text

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる →そのためEND tokenが出たbatchから順次”次”のシーケンスを投入し、GPU使用を効率化 LLM研究例： TensorRT-LLM Kentaro Yoshioka(25/17)

Slide 26

Slide 26 text

変数の型とメモリの使い方型ビット数整数型 int16 16 int32 32 int64 64 実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号（0:正，1:負）指数部仮数部 64 ・・・・ 1 11 52 32

Slide 27

Slide 27 text

変数の型と表現できる数値の範囲（32bit/64bit CPU）型ビット数数値の範囲整数型 int16 16／16 ±32,767 int32 32／32 ±2,147,483,647 int64 64／64 ±9,223,372,036,854,775,807 実数型 float 32／32 ±10-38～1038 有効桁７桁 double 64／64 ±10-308～10308 有効桁１５桁

Slide 28

Slide 28 text

余談：機械学習とデータ型でも..データ型はとりあえず大きいの使っておけばいいんじゃないの？ニューラルネットのパラメータ数は膨大しかしGPU、メモリ間の帯域は限定 ⇨出来るだけメモリを喰わないデータ形式を使いたい！

Slide 29

Slide 29 text

余談：機械学習とデータ型最新GPU（Ampere世代）よりTensorFloat32(実質FP19)が登場 FP32の仮数部を23bit⇨10bitに削減しつつニューラルネットの学習精度を維持 GoogleTPUのデータ形式： BrainFloat16 Pytorch/Tensorflowデフォルトデータ形式： TensorFloat32 Nvidiablogより

Slide 30

Slide 30 text

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより

Slide 31

Slide 31 text

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより →更に4bなど小さい表現も模索されている

Slide 32

Slide 32 text

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより FP8より小さくするのは難しそう..一方で性能向上がないとGPUは売れない。次の進化はどうする？

Slide 33

Slide 33 text

◼ 集積回路は単面積内のトランジスタ数（集積度）を増やす方向に今まで進化 ◆一方で集積化は物理限界に近づいている（原子サイズ=0.1nmに肉薄） ⚫ 無理をすると歩留まりが非常に悪い・・ ◆また集積度は最新のプロセスノード (3nm:次のGPUノード）では伸びておらず飽和しそう？集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(33/17)

Slide 34

Slide 34 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(34/17)

Slide 35

Slide 35 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある ◆インタポーザと呼ばれる精密基板上でチップ間を接続する ◆チップ自体は縦積み(3D)ではなく、横並び(2D)なので2.5D集積とも呼ばれる集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(35/17)

Slide 36

Slide 36 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(36/17)

Slide 37

Slide 37 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(37/17)

Slide 38

Slide 38 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(38/17) Nvidia Blackwell

Slide 39

Slide 39 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(39/17) GPU1 GPU2 I O ? Nvidia Blackwell

Slide 40

Slide 40 text

◼ IEEE SSCS(Solid-State Circuits Society 集積回路）系 ◆Tier 1: ISSCC, VLSI (世界大会） ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜） ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation）系 ◆Tier 1: DAC, ICCAD(世界大会） ◆Tier 2: DATE, ASP-DAC(地域選抜） ◆元々は設計技術、ツールに関する学会だったが、最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring

Slide 41

Slide 41 text

• AI系のCVPR, Neurips的な学会 – 中国勢の台頭で近年レベルが大きく上がった。辛い。 – 前職では回路研究者には”ISSCCに通せる者”と” 通せない者”の２通りしかいないと言われたり..？ ISSCC(International Solid-State Circuit Conference)

Slide 42

Slide 42 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(42/17)

Slide 43

Slide 43 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(43/17)

Slide 44

Slide 44 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(44/17)

Slide 45

Slide 45 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(45/17)

Slide 46

Slide 46 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(46/17) ・MLは様々な分野に分散・高度分業されたサブコミッティー制度（吉岡の専門はData converter/Imager) 他はわからない。

Slide 47

Slide 47 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(47/17) ・日本は厳しい。・通せるプレイヤーはわずか。企業頑張れ。・中国の躍進は凄く、アメリカを抜いた。

Slide 48

Slide 48 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(48/17) 踏ん張ってはいるが・・

Slide 49

Slide 49 text

◼ チップレット用の次世代有線技術 Wireline.. Kentaro Yoshioka(49/17)