LLM時代の半導体・集積回路

『LLM時代の半導体・集積回路』吉岡健太郎慶應大学理工学部電気情報工学科専任講師

◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大客員研究員
◼ 2021-電気情報工学科専任講師 ◼ 専門：集積回路（LSI）、ロボットセンシング自己紹介

◼ 慶應大石黒研究室 ◼ 東芝研究開発センター入社(2014) ◼研究の軸足：回路設計技術自己紹介

5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA
for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大石黒研究室 ◼ 東芝研究開発センター入社(2014) ◼研究の軸足：回路設計技術

ムーアの法則～集積回路の発展～ Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .

Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250

Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス：10um ムーアの法則：集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス：5nm

ムーアの法則とトランジスタ（出典）日経エレクトロニクス 2017年9月号現在の先端LSIで使われているトランジスタ構造。物理限界に逼迫し性能限界。（原子1つ=0.1nm)

ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of
Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化：・CPU性能自体はここ10年で飽和・CPU動作周波数も変わっていない

ムーアの法則の恩恵・iPhoneの速度 GeekBenchベンチマーク https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021
10年で30倍の性能向上！

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html 4世代でたった1.6倍の性能向上？ iPhone 4S: 2011 iPhone 12: 2021
10年で30倍の性能向上！・iPhoneの速度 GeekBenchベンチマーク

ムーアの法則と限界 https://pcfreebook.com/article/smartfone-cpu-list.html iPhone 4S: 2011 iPhone 12: 2021 10年で30倍の性能向上！ 4世代で
たった1.6倍の性能向上？昔は5倍・iPhoneの速度 GeekBenchベンチマーク

もう集積回路は終わり？

ビヨンドムーア～ドメイン特化～ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ https://www.joc.or.jp/sports/athletics_combined.html オリンピック・ディスタンスのレースは、合計51.5km
（スイム1.5km・バイク40km・ラン10km）アイアンマン・ディスタンスのレースは合計約226km （スイム3.8km・バイク180km・ラン42.195km）

ビヨンドムーア～ドメイン特化～ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機（CPU）から専用計算機へ
– 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ（GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算（画像処理等）に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない） – TPUに至ってはキャッシュ機能すらない CPU
core

DNNアクセラレータ例 • 並列計算に特化したアーキテクチャ – 並列計算（画像処理等）に特化するため、小型ALUを多数配置 – 汎用的な機能は捨てる(Windowsは走らない） – TPUに至ってはキャッシュ機能すらない CPU
core TPU core

◼ 構造的にはGPU ◼ 膨大な認識を瞬時に！ ◆自動車メーカ、ソフトウェア会社が半導体設計する時代。 Tesla社の自動運転用プロセッサ Kentaro Yoshioka(18/17)

データセンター用プロセッサ(TPU) • Googleの発表したニューラルネットプロセッサ – GPUよりも更に単純化、ニューラルネットに特化 – “積和演算”や”内積”の計算処理に特化した回路で構成 – ソフトウェア会社が半導体設計する時代。 https://cloud.google.com/tpu/docs/system-architecture?hl=ja

アクセラレータの重要な研究課題 • ①チップ内データ移動の最小化 – Dataflow問題やスケジューリング問題としてコンピュータアーキテクチャ分野で活発 ⇨チップ内メモリ、演算器に入り切らないほどのデータをどのように処理するか？データ分割、チャネル分割、レイヤ分割・・etc. – 主な考え方：データを極力Off-chipに出さず、On-chip Bufferに留めながら可能な限り
データ処理を行いたい

◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri
Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ（Fusing)、さらに行列計算を分割すること(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例： FlashAttention Kentaro Yoshioka(21/17)

◼ FusingとTilingはHigh-performance Computing(HPC)分野ではよく知られたテクニック ◆https://halide-lang.org/ ◼ ただプログラミングが難しい（最適化はCUDAとGPUハードウェアを知り尽くしていないとできない）ので気軽には実現できない.. LLM研究例： FlashAttention Kentaro
Yoshioka(22/17)

◼ TensorRT: 上記のようなカーネル最適化をCUDAを直接書かずに実施してくれる nvidiaのライブラリ ◆グラフ最適化：3x3 conv->bias->reluといった処理を一つの計算にまとめ、メモリアクセスを最適化 ◆量子化：データ表現をINT8bitといった少ないbit数で表現することで、メモリアクセス数を削減 ◆→結果として10倍ほどの速度向上も可能
LLM研究例： TensorRT Kentaro Yoshioka(23/17)

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる LLM研究例：
TensorRT-LLM Kentaro Yoshioka(24/17)

◼ TensorRT-LLM:TensorRTに加え、LLM推論に必要な技術を更に加えたライブラリ ◆グラフ最適化、4b量子化もサポート ◼ In-flight batchingをサポート ◆LLMではEnd tokenが出るタイミングはデータ依存 ◆そのためGPU使用率にムラが生じる →そのためEND
tokenが出たbatchから順次”次”のシーケンスを投入し、GPU使用を効率化 LLM研究例： TensorRT-LLM Kentaro Yoshioka(25/17)

変数の型とメモリの使い方型ビット数整数型 int16 16 int32 32 int64 64
実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号（0:正，1:負）指数部仮数部 64 ・・・・ 1 11 52 32

変数の型と表現できる数値の範囲（32bit/64bit CPU）型ビット数数値の範囲整数型 int16 16／16 ±32,767
int32 32／32 ±2,147,483,647 int64 64／64 ±9,223,372,036,854,775,807 実数型 float 32／32 ±10-38～1038 有効桁７桁 double 64／64 ±10-308～10308 有効桁１５桁

余談：機械学習とデータ型でも..データ型はとりあえず大きいの使っておけばいいんじゃないの？ニューラルネットのパラメータ数は膨大しかしGPU、メモリ間の帯域は限定 ⇨出来るだけメモリを喰わないデータ形式を使いたい！

余談：機械学習とデータ型最新GPU（Ampere世代）よりTensorFloat32(実質FP19)が登場 FP32の仮数部を23bit⇨10bitに削減しつつニューラルネットの学習精度を維持 GoogleTPUのデータ形式： BrainFloat16 Pytorch/Tensorflowデフォルトデータ形式： TensorFloat32 Nvidiablogより

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより →更に4bなど小さい表現も模索されている

余談：機械学習とデータ型 ChatGPTを始めとするTransformer型LLMは更にパラメータ数が膨大最新GPU（Hopper)ではTransformer内のデータをFP8という新フォーマットで計算 Nvidiablogより FP8より小さくするのは難しそう..一方で性能向上がないとGPUは売れない。次の進化はどうする？

◼ 集積回路は単面積内のトランジスタ数（集積度）を増やす方向に今まで進化 ◆一方で集積化は物理限界に近づいている（原子サイズ=0.1nmに肉薄） ⚫ 無理をすると歩留まりが非常に悪い・・ ◆また集積度は最新のプロセスノード (3nm:次のGPUノード）では伸びておらず飽和しそう？集積回路の進化方向：2Dから3Dへ Kentaro
Yoshioka(33/17)

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(34/17)

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある ◆インタポーザと呼ばれる精密基板上でチップ間を接続する ◆チップ自体は縦積み(3D)ではなく、横並び(2D)なので2.5D集積とも呼ばれる集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(35/17)

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(38/17) Nvidia Blackwell

◼ 複数チップを3D集積化で組み合わせ、巨大チップに統合する “チップレット”アプローチが主流になりつつある集積回路の進化方向：2Dから3Dへ Kentaro Yoshioka(39/17) GPU1 GPU2 I O
? Nvidia Blackwell

◼ IEEE SSCS(Solid-State Circuits Society 集積回路）系 ◆Tier 1: ISSCC, VLSI
(世界大会） ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜） ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation）系 ◆Tier 1: DAC, ICCAD(世界大会） ◆Tier 2: DATE, ASP-DAC(地域選抜） ◆元々は設計技術、ツールに関する学会だったが、最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring

• AI系のCVPR, Neurips的な学会 – 中国勢の台頭で近年レベルが大きく上がった。辛い。 – 前職では回路研究者には”ISSCCに通せる者”と” 通せない者”の２通りしかいないと言われたり..？ ISSCC(International Solid-State
Circuit Conference)

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(42/17)

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(46/17) ・MLは様々な分野に分散・高度分業されたサブコミッティー制度（吉岡の専門はData converter/Imager) 他はわからない。

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(47/17) ・日本は厳しい。・通せるプレイヤーはわずか。企業頑張れ。・中国の躍進は凄く、アメリカを抜いた。

◼ https://pc.watch.impress.co.jp/docs/column/semicon/1561724.html ISSCC Kentaro Yoshioka(48/17) 踏ん張ってはいるが・・

◼ チップレット用の次世代有線技術 Wireline.. Kentaro Yoshioka(49/17)

LLM時代の半導体・集積回路

LLM時代の半導体・集積回路

More Decks by Yoshioka Lab (Keio CSG)

Other Decks in Research

Featured

Transcript