Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM時代の半導体・集積回路
Search
Yoshioka Lab (Keio CSG)
July 17, 2024
Research
1.6k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLM時代の半導体・集積回路
Yoshioka Lab (Keio CSG)
July 17, 2024
More Decks by Yoshioka Lab (Keio CSG)
See All by Yoshioka Lab (Keio CSG)
LiDARセキュリティ最前線(2025年)
kentaroy47
0
720
吉岡研究室紹介(2025年度)
kentaroy47
1
2k
高精度、高効率アナログCompute-in-Memory回路に向けて
kentaroy47
2
820
LiDARセキュリティ最前線
kentaroy47
0
920
”良い”データセット構築を考える
kentaroy47
4
1.2k
論文を読むコツ/Paper reading
kentaroy47
3
2.6k
アナログが世界を救う? アナログコンピューティングの応用と課題
kentaroy47
0
1.7k
A 0.7V 12b 160MS/s 12.8fJ/conv-step Pipelined-SAR ADC in 28nm CMOS with Digital Amplifier Technique
kentaroy47
0
120
吉岡研究室紹介(2022年度)
kentaroy47
0
3.4k
Other Decks in Research
See All in Research
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
120
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2.2k
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
140
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
790
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Scalable dynamic origin-destination demand estimation enhanced by high-resolution satellite imagery data
satai
3
270
人間中心の意思決定支援AI
yukinobaba
PRO
5
2.6k
SOTAのさらに先へ:厳しい推論制約下での高性能モデルのPost-Training
analokmaus
0
1.2k
Using our influence and power for patient safety
helenbevan
0
360
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
850
Claude Code × autoresearch 実践
mathbullet
0
150
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
280
Featured
See All Featured
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
770
Skip the Path - Find Your Career Trail
mkilby
1
140
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
How GitHub (no longer) Works
holman
316
150k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
420
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
210
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Technical Leadership for Architectural Decision Making
baasie
3
400
Docker and Python
trallard
47
3.9k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Transcript
『LLM時代の半導体・集積回路』 吉岡 健太郎 慶應大学理工学部 電気情報工学科 専任講師
◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大 客員研究員
◼ 2021-電気情報工学科専任講師 ◼ 専門:集積回路(LSI)、ロボットセンシング 自己紹介
◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術 自己紹介
5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA
for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術
ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .
ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250
ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス:10um ムーアの法則:集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス:5nm
ムーアの法則とトランジスタ (出典) 日経エレクトロニクス 2017年9月号 現在の先端LSIで使われている トランジスタ構造。 物理限界に逼迫し性能限界。 (原子1つ=0.1nm)
ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化: ・CPU性能自体はここ10年で飽和 ・CPU動作周波数も変わっていない
ムーアの法則の恩恵 ・iPhoneの速度 GeekBenchベンチマーク https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021
10年で30倍の性能向上!
ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html 4世代で たった1.6倍の性能向上? iPhone 4S: 2011 iPhone 12: 2021
10年で30倍の性能向上! ・iPhoneの速度 GeekBenchベンチマーク
ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上! 4世代で
たった1.6倍の性能向上? 昔は5倍 ・iPhoneの速度 GeekBenchベンチマーク
もう集積回路は終わり?
ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ https://www.joc.or.jp/sports/athletics_combined.html オリンピック・ディスタンスのレースは、合計51.5km
(スイム1.5km・バイク40km・ラン10km) アイアンマン・ディスタンスのレースは合計約226km (スイム3.8km・バイク180km・ラン42.195km)
ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機(CPU)から専用計算機へ
– 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ(GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html
DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算(画像処理等)に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない) – TPUに至ってはキャッシュ機能すらない CPU
core
DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算(画像処理等)に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない) – TPUに至ってはキャッシュ機能すらない CPU
core TPU core
◼ 構造的にはGPU ◼ 膨大な認識を瞬時に! ◆自動車メーカ、ソフトウェア会社 が半導体設計する時代。 Tesla社の自動運転用プロセッサ Kentaro Yoshioka(18/17)
データセンター用プロセッサ(TPU) • Googleの発表したニューラルネットプロセッサ – GPUよりも更に単純化、ニューラルネットに特化 – “積和演算”や”内積”の計算処理に特化した回路で構成 – ソフトウェア会社が半導体設計する時代。 https://cloud.google.com/tpu/docs/system-architecture?hl=ja
アクセラレータの重要な研究課題 • ①チップ内データ移動の最小化 – Dataflow問題やスケジューリング問題としてコンピュータアーキテクチャ分野で活発 ⇨チップ内メモリ、演算器に入り切らないほどのデータをどのように処理するか? データ分割、チャネル分割、レイヤ分割・・etc. – 主な考え方:データを極力Off-chipに出さず、On-chip Bufferに留めながら可能な限り
データ処理を行いたい
◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri
Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ(Fusing)、さらに行列計算を分割するこ と(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例: FlashAttention Kentaro Yoshioka(21/17)
◼ FusingとTilingはHigh-performance Computing(HPC)分野ではよく知られたテクニック ◆https://halide-lang.org/ ◼ ただプログラミングが難しい(最適化はCUDAとGPUハードウェアを知り尽くしていないとできない)ので 気軽には実現できない.. LLM研究例: FlashAttention Kentaro
Yoshioka(22/17)
◼ TensorRT: 上記のようなカーネル最適化をCUDAを直接書かずに実施してくれる nvidiaのライブラリ ◆グラフ最適化:3x3 conv->bias->reluといった処理を一つの計算にまとめ、メモリアクセス を最適化 ◆量子化:データ表現をINT8bitといった少ないbit数で表現することで、 メモリアクセス数を削減 ◆→結果として10倍ほどの速度向上も可能
LLM研究例: TensorRT Kentaro Yoshioka(23/17)
◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる LLM研究例:
TensorRT-LLM Kentaro Yoshioka(24/17)
◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる →そのためEND
tokenが出たbatchから順次”次”の シーケンスを投入し、GPU使用を効率化 LLM研究例: TensorRT-LLM Kentaro Yoshioka(25/17)
変数の型とメモリの使い方 型 ビット数 整数型 int16 16 int32 32 int64 64
実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号(0:正,1:負) 指数部 仮数部 64 ・・・・ 1 11 52 32
変数の型と表現できる数値の範囲 (32bit/64bit CPU) 型 ビット数 数値の範囲 整数型 int16 16/16 ±32,767
int32 32/32 ±2,147,483,647 int64 64/64 ±9,223,372,036,854,775,807 実数型 float 32/32 ±10-38~1038 有効桁 7 桁 double 64/64 ±10-308~10308 有効桁 15桁
余談:機械学習とデータ型 でも..データ型はとりあえず大きいの使っておけばいいんじゃないの? ニューラルネットのパラメータ数は膨大 しかしGPU、メモリ間の帯域は限定 ⇨出来るだけメモリを喰わないデータ形式 を使いたい!
余談:機械学習とデータ型 最新GPU(Ampere世代)よりTensorFloat32(実質FP19)が登場 FP32の仮数部を23bit⇨10bitに削減しつつニューラルネットの 学習精度を維持 GoogleTPUのデータ形式: BrainFloat16 Pytorch/Tensorflowデフォルトデータ形式: TensorFloat32 Nvidiablogより
余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより
余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより →更に4bなど小さい表現も模索されている
余談:機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大 最新GPU(Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより FP8より小さくするのは難しそう..一方で性能向上がないとGPUは売れない。 次の進化はどうする?
◼ 集積回路は単面積内のトランジスタ数(集積度)を増やす方向に今まで進化 ◆一方で集積化は物理限界に近づいている(原子サイズ=0.1nmに肉薄) ⚫ 無理をすると歩留まりが非常に悪い・・ ◆また集積度は最新のプロセスノード (3nm:次のGPUノード)では伸びておらず 飽和しそう? 集積回路の進化方向:2Dから3Dへ Kentaro
Yoshioka(33/17)
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(34/17)
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある ◆インタポーザと呼ばれる精密基板上でチップ間を接続する ◆チップ自体は縦積み(3D)ではなく、横並び(2D)なので2.5D集積とも呼ばれる 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(35/17)
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(36/17)
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(37/17)
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(38/17) Nvidia Blackwell
◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある 集積回路の進化方向:2Dから3Dへ Kentaro Yoshioka(39/17) GPU1 GPU2 I O
? Nvidia Blackwell
◼ IEEE SSCS(Solid-State Circuits Society 集積回路)系 ◆Tier 1: ISSCC, VLSI
(世界大会) ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜) ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation)系 ◆Tier 1: DAC, ICCAD(世界大会) ◆Tier 2: DATE, ASP-DAC(地域選抜) ◆元々は設計技術、ツールに関する学会だったが、 最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど 集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring
• AI系のCVPR, Neurips的な学会 – 中国勢の台頭で近年レベルが大きく上がった。辛い。 – 前職では回路研究者には”ISSCCに通せる者”と” 通せない者”の2通りしかいないと言われたり..? ISSCC(International Solid-State
Circuit Conference)
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(42/17)
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(43/17)
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(44/17)
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(45/17)
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(46/17) ・MLは様々な分野に分散 ・高度分業されたサブコミッティー制度 (吉岡の専門はData converter/Imager) 他はわからない。
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(47/17) ・日本は厳しい。 ・通せるプレイヤーはわずか。企業頑張れ。 ・中国の躍進は凄く、アメリカを抜いた。
◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(48/17) 踏ん張ってはいるが・・
◼ チップレット用の次世代有線技術 Wireline.. Kentaro Yoshioka(49/17)