Slide 1

Slide 1 text

『LLM時代の半導体・集積回路』 吉岡 健太郎 慶應大学理工学部 電気情報工学科 専任講師

Slide 2

Slide 2 text

◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大 客員研究員 ◼ 2021-電気情報工学科専任講師 ◼ 専門:集積回路(LSI)、ロボットセンシング 自己紹介

Slide 3

Slide 3 text

◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術 自己紹介

Slide 4

Slide 4 text

5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術

Slide 5

Slide 5 text

ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .

Slide 6

Slide 6 text

ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250

Slide 7

Slide 7 text

ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス:10um ムーアの法則:集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス:5nm

Slide 8

Slide 8 text

ムーアの法則とトランジスタ (出典) 日経エレクトロニクス 2017年9月号 現在の先端LSIで使われている トランジスタ構造。 物理限界に逼迫し性能限界。 (原子1つ=0.1nm)

Slide 9

Slide 9 text

ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化: ・CPU性能自体はここ10年で飽和 ・CPU動作周波数も変わっていない

Slide 10

Slide 10 text

ムーアの法則の恩恵 ・iPhoneの速度 GeekBenchベンチマーク https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上!

Slide 11

Slide 11 text

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html 4世代で たった1.6倍の性能向上? iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上! ・iPhoneの速度 GeekBenchベンチマーク

Slide 12

Slide 12 text

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上! 4世代で たった1.6倍の性能向上? 昔は5倍 ・iPhoneの速度 GeekBenchベンチマーク

Slide 13

Slide 13 text

もう集積回路は終わり?

Slide 14

Slide 14 text

ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ https://www.joc.or.jp/sports/athletics_combined.html オリンピック・ディスタンスのレースは、合計51.5km (スイム1.5km・バイク40km・ラン10km) アイアンマン・ディスタンスのレースは合計約226km (スイム3.8km・バイク180km・ラン42.195km)

Slide 15

Slide 15 text

ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機(CPU)から専用計算機へ – 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ(GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html

Slide 16

Slide 16 text

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算(画像処理等)に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない) – TPUに至ってはキャッシュ機能すらない CPU core

Slide 17

Slide 17 text

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算(画像処理等)に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない) – TPUに至ってはキャッシュ機能すらない CPU core TPU core

Slide 18

Slide 18 text

◼ 構造的にはGPU ◼ 膨大な認識を瞬時に! ◆自動車メーカ、ソフトウェア会社 が半導体設計する時代。 Tesla社の自動運転用プロセッサ Kentaro Yoshioka(18/17)

Slide 19

Slide 19 text

データセンター用プロセッサ(TPU) • Googleの発表したニューラルネットプロセッサ – GPUよりも更に単純化、ニューラルネットに特化 – “積和演算”や”内積”の計算処理に特化した回路で構成 – ソフトウェア会社が半導体設計する時代。 https://cloud.google.com/tpu/docs/system-architecture?hl=ja

Slide 20

Slide 20 text

アクセラレータの重要な研究課題 • ①チップ内データ移動の最小化 – Dataflow問題やスケジューリング問題としてコンピュータアーキテクチャ分野で活発 ⇨チップ内メモリ、演算器に入り切らないほどのデータをどのように処理するか? データ分割、チャネル分割、レイヤ分割・・etc. – 主な考え方:データを極力Off-chipに出さず、On-chip Bufferに留めながら可能な限り データ処理を行いたい

Slide 21

Slide 21 text

◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ(Fusing)、さらに行列計算を分割するこ と(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例: FlashAttention Kentaro Yoshioka(21/17)

Slide 22

Slide 22 text

◼ FusingとTilingはHigh-performance Computing(HPC)分野ではよく知られたテクニック ◆https://halide-lang.org/ ◼ ただプログラミングが難しい(最適化はCUDAとGPUハードウェアを知り尽くしていないとできない)ので 気軽には実現できない.. LLM研究例: FlashAttention Kentaro Yoshioka(22/17)

Slide 23

Slide 23 text

◼ TensorRT: 上記のようなカーネル最適化をCUDAを直接書かずに実施してくれる nvidiaのライブラリ ◆グラフ最適化:3x3 conv->bias->reluといった処理を一つの計算にまとめ、メモリアクセス を最適化 ◆量子化:データ表現をINT8bitといった少ないbit数で表現することで、 メモリアクセス数を削減 ◆→結果として10倍ほどの速度向上も可能 LLM研究例: TensorRT Kentaro Yoshioka(23/17)

Slide 24

Slide 24 text

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる LLM研究例: TensorRT-LLM Kentaro Yoshioka(24/17)

Slide 25

Slide 25 text

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる →そのためEND tokenが出たbatchから順次”次”の シーケンスを投入し、GPU使用を効率化 LLM研究例: TensorRT-LLM Kentaro Yoshioka(25/17)

Slide 26

Slide 26 text

変数の型とメモリの使い方 型 ビット数 整数型 int16 16 int32 32 int64 64 実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号(0:正,1:負) 指数部 仮数部 64 ・・・・ 1 11 52 32

Slide 27

Slide 27 text

変数の型と表現できる数値の範囲 (32bit/64bit CPU) 型 ビット数 数値の範囲 整数型 int16 16/16 ±32,767 int32 32/32 ±2,147,483,647 int64 64/64 ±9,223,372,036,854,775,807 実数型 float 32/32 ±10-38~1038 有効桁 7 桁 double 64/64 ±10-308~10308 有効桁 15桁

Slide 28

Slide 28 text

余談:機械学習とデータ型 でも..データ型はとりあえず大きいの使っておけばいいんじゃないの? ニューラルネットのパラメータ数は膨大 しかしGPU、メモリ間の帯域は限定 ⇨出来るだけメモリを喰わないデータ形式 を使いたい!

Slide 29

Slide 29 text

余談:機械学習とデータ型 最新GPU(Ampere世代)よりTensorFloat32(実質FP19)が登場 FP32の仮数部を23bit⇨10bitに削減しつつニューラルネットの 学習精度を維持 GoogleTPUのデータ形式: BrainFloat16 Pytorch/Tensorflowデフォルトデータ形式: TensorFloat32 Nvidiablogより

Slide 30

Slide 30 text

余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより

Slide 31

Slide 31 text

余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより →更に4bなど小さい表現も模索されている

Slide 32

Slide 32 text

余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより FP8より小さくするのは難しそう..一方で性能向上がないとGPUは売れない。 次の進化はどうする?

Slide 33

Slide 33 text

◼ 集積回路は単面積内のトランジスタ数(集積度)を増やす方向に今まで進化 ◆一方で集積化は物理限界に近づいている(原子サイズ=0.1nmに肉薄) ⚫ 無理をすると歩留まりが非常に悪い・・ ◆また集積度は最新のプロセスノード (3nm:次のGPUノード)では伸びておらず 飽和しそう? 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(33/17)

Slide 34

Slide 34 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(34/17)

Slide 35

Slide 35 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある ◆インタポーザと呼ばれる精密基板上でチップ間を接続する ◆チップ自体は縦積み(3D)ではなく、横並び(2D)なので2.5D集積とも呼ばれる 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(35/17)

Slide 36

Slide 36 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(36/17)

Slide 37

Slide 37 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(37/17)

Slide 38

Slide 38 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(38/17) Nvidia Blackwell

Slide 39

Slide 39 text

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(39/17) GPU1 GPU2 I O ? Nvidia Blackwell

Slide 40

Slide 40 text

◼ IEEE SSCS(Solid-State Circuits Society 集積回路)系 ◆Tier 1: ISSCC, VLSI (世界大会) ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜) ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation)系 ◆Tier 1: DAC, ICCAD(世界大会) ◆Tier 2: DATE, ASP-DAC(地域選抜) ◆元々は設計技術、ツールに関する学会だったが、 最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど 集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring

Slide 41

Slide 41 text

• AI系のCVPR, Neurips的な学会 – 中国勢の台頭で近年レベルが大きく上がった。辛い。 – 前職では回路研究者には”ISSCCに通せる者”と” 通せない者”の2通りしかいないと言われたり..? ISSCC(International Solid-State Circuit Conference)

Slide 42

Slide 42 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(42/17)

Slide 43

Slide 43 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(43/17)

Slide 44

Slide 44 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(44/17)

Slide 45

Slide 45 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(45/17)

Slide 46

Slide 46 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(46/17) ・MLは様々な分野に分散 ・高度分業されたサブコミッティー制度 (吉岡の専門はData converter/Imager) 他はわからない。

Slide 47

Slide 47 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(47/17) ・日本は厳しい。 ・通せるプレイヤーはわずか。企業頑張れ。 ・中国の躍進は凄く、アメリカを抜いた。

Slide 48

Slide 48 text

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(48/17) 踏ん張ってはいるが・・

Slide 49

Slide 49 text

◼ チップレット用の次世代有線技術 Wireline.. Kentaro Yoshioka(49/17)