Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM時代の半導体・集積回路

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 LLM時代の半導体・集積回路

Avatar for Yoshioka Lab (Keio CSG)

Yoshioka Lab (Keio CSG)

July 17, 2024
Tweet

More Decks by Yoshioka Lab (Keio CSG)

Other Decks in Research

Transcript

  1. ◼ 2014 慶應理工学部電子工学科卒 ◼ 2014-2021 株式会社東芝 ◼ 2017-2018 スタンフォード大 客員研究員

    ◼ 2021-電気情報工学科専任講師 ◼ 専門:集積回路(LSI)、ロボットセンシング 自己紹介
  2. 5mm 2.5mm PLL+ BGR 22ch TIA for TDC 22ch TIA

    for ADC 22ch TDC 11ch ADC 11ch ADC Digital Circuits 自己紹介 ◼ 慶應大 石黒研究室 ◼ 東芝 研究開発センター 入社(2014) ◼研究の軸足:回路設計技術
  3. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ .
  4. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250
  5. ムーアの法則~集積回路の発展~ Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . 世界初のCPU Intel 4004 トランジスタ数:2250 CMOSプロセス:10um ムーアの法則:集積されるトランジスタ数は2年で倍に →CPUのトランジスタ数は1000万倍向上 Apple M2 Pro トランジスタ数:400億 CMOSプロセス:5nm
  6. ムーアの法則と限界 Figure in courtesy of K. Rupp, “42 years of

    Microprocessor Trend Data”, https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ . ムーアの法則の鈍化: ・CPU性能自体はここ10年で飽和 ・CPU動作周波数も変わっていない
  7. ビヨンドムーア ~ドメイン特化~ • 集積回路は新しい時代に突入 – トランジスタの性能に頼り切ったムーア時代から脱却 – ビヨンドムーアの時代へ • 汎用計算機(CPU)から専用計算機へ

    – 特定処理を加速するアクセラレータ型プロセッサの台頭 – グラフィックアクセラレータ(GPU) • 汎用性のためDNN学習に活用 – DNNアクセラレータ • TPU、NPU等多数 https://www.joc.or.jp/sports/athletics_combined.html
  8. ◼ FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri

    Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré ◼ AttentionはLLMで多様されるものの、その演算方法はGPU上で最適化されてない ◆MatMulといったレイヤ毎に全出力をメモリに書き出すのは非効率 ◆→そこでAttentionを一つの演算ブロックにまとめ(Fusing)、さらに行列計算を分割するこ と(Tiling)で可能な限り中間データをローカルメモリ内に留める LLM研究例: FlashAttention Kentaro Yoshioka(21/17)
  9. 変数の型とメモリの使い方 型 ビット数 整数型 int16 16 int32 32 int64 64

    実数型 float 32 double 64 ・・・・ 16 ・・・・・・・・・・・ 32 ・・・・・・・・・・・ 64 ・・・・ 1 8 23 符号(0:正,1:負) 指数部 仮数部 64 ・・・・ 1 11 52 32
  10. 変数の型と表現できる数値の範囲 (32bit/64bit CPU) 型 ビット数 数値の範囲 整数型 int16 16/16 ±32,767

    int32 32/32 ±2,147,483,647 int64 64/64 ±9,223,372,036,854,775,807 実数型 float 32/32 ±10-38~1038 有効桁 7 桁 double 64/64 ±10-308~10308 有効桁 15桁
  11. ◼ IEEE SSCS(Solid-State Circuits Society 集積回路)系 ◆Tier 1: ISSCC, VLSI

    (世界大会) ◆Tier 2: CICC, ESSCIRC, ASSCC(地域選抜) ◆学会投稿にはシリコン試作が必須なのが特徴 ◼ IEEE EDA (Electronic Design Automation)系 ◆Tier 1: DAC, ICCAD(世界大会) ◆Tier 2: DATE, ASP-DAC(地域選抜) ◆元々は設計技術、ツールに関する学会だったが、 最近は回路設計自体についての論文も受け付けている ⚫ 回路はシミュレーションがほとんど 集積回路学会について Kentaro Yoshioka(40/17) IO/Register circuits 1088x78 AR-CIM CTRL WL/IN ADC Output Misc. 1270um 320um 60um Register wiring