Slide 1

Slide 1 text

MN-Coreの展望 的矢 知樹 AIコンピューティング事業本部 事業戦略・プロダクトマーケティング部 部長 株式会社Preferred Networks

Slide 2

Slide 2 text

2 2022 ~ 2025 Preferred Networks ● MN-Core 製品企画 ● マーケティング もともと離散アルゴリズムとか深層学習アルゴリズム等 自己紹介

Slide 3

Slide 3 text

3 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI / HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習の発展の歴史を振り返りながら、 MN-Core シリーズの位置づけと今後の展望を紹介します

Slide 4

Slide 4 text

半導体技術 計算機 アーキテクチャ アプリケーション

Slide 5

Slide 5 text

5 主要なコンピュータアーキテクチャは、 半導体技術の進化とともに変化してきた 時期 主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ 1990s~2000s 超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ ???? 技術の変化 支配的ボトルネック コンピュータの誕生 プロセスの改善 磁気コアメモリから 半導体メモリ 増加した1システムゲート数活用の壁 高速メモリの活用 プロセスの改善 プロセッサ間の配線の壁 プロセスの改善 増加した1チップ実装可能ゲート数活用の壁 ??? ???

Slide 6

Slide 6 text

6 深層学習モデルの歴史と 対応する半導体技術

Slide 7

Slide 7 text

7 2012年 : AlexNet 2020年~2022年 : Scaling Law 2022年~ : Chat GPT 深層学習の発展 大きく分けて 3つの段階に分かれている 深層学習の研究開発の時代 大規模モデルの時代 深層学習のサービス化

Slide 8

Slide 8 text

8 主なイベント AlexNetの発明 ● 画像認識コンペで圧倒的一位 ● ニューラルネットの復権と何回目かのAIブームのスタート 行われたこと 様々なニューラルネットが提案される ● 基本的には行列積の固まりである 深層学習研究時代 : 2012年 ~ 2018年 ImageNet Classification with Deep Convolutional Neural Networks

Slide 9

Slide 9 text

9 複数のアクセラレータ(GPU)により分散してモデル学習を行うように 主なイベント 2021年 Scaling lawの発表 ● ある特定のモデルを、ある特定のタスクを用いて学習すれば投入計算リソースにより、 上限なく性能が伸ばせるという発見 分散深層学習時代 : 2018年~

Slide 10

Slide 10 text

10 深層学習が研究成果から社会インフラへ移行した 主なイベント ChatGPTの発表 ● 実際に多くの人が活用するサービスのバックエンドとして深層学習が必要とさ れ始めた ● 実際の人の業務をどんどんと置換していく段階に ○ この資料もめっちゃChat GPTに作ってもらいました 深層学習サービス化時代 : 2023年 ~

Slide 11

Slide 11 text

11 計算資源を投入すれば投入するだけ、「モデルの性能」を上げることが可能 競合よりも強力なモデルを保持していることで、市場を独占することが可能 → 計算資源を大量に投入することのビジネス的な裏付けが登場 Scaling Lawのインパクト : 計算資源投入の効果が予期可能に

Slide 12

Slide 12 text

12 背景 ● Scaling lawの発見により、計算資源を費やせば費やすほどモデルの性能を上げられ る事が判明 ● GPUの電力あたり性能は頭打ち 起きたこと ● 複数のGPUを用いた分散計算をすることでより精度の高いモデルを学習できるように ● 分散計算が可能であるような深層学習モデルの発展が起きた。 重要パラメータ : システムとしての演算力 (分散計算を可能とするようなネットワークとアル ゴリズム) 分散深層学習時代における大規模スケーリング

Slide 13

Slide 13 text

13 ニューラルネットは1950年代から研究され、 ● パーセプトロン(1950年代) ● 誤差逆伝播(1960年代の基礎づけ) ● 畳み込みニューラルネットワーク(1990年代) といった土台が積み上がっていた。 2012年はニューラルネットの誕生したタイミングではなかった なぜ深層学習が 2012年に成功したのか? ニューラルネットは古典的分野

Slide 14

Slide 14 text

14 背景 : デナード・スケーリングの終焉(2003〜2007年ごろ) ● 90nm を下回るあたりから、クロック周波数の伸びが停滞 ○ 単一コア性能の伸びが鈍化 ● 半導体技術の向上の恩恵を受けるには、単純なシングルCPUの性能向上ではない手法が 必要に ● マルチコアCPUへ移り、その後まもなく GPU の汎用計算利用へ (CUDA 2006年、OpenCL 2009年) アルゴリズム発展の方向性 : 並列計算機を上手く活用することで半導体技術の進歩を享受可能に ● 並列演算に向いたアルゴリズムの必要性 ● 行列積主体で構成されている「深層学習」の発見により、アルゴリズム的なブレイクス ルーが発生した。 深層学習は 並列計算機を効率的に活用可能なアルゴリズムであった

Slide 15

Slide 15 text

15 主要なコンピュータアーキテクチャは、半導体技術の進 化とともに変化してきた 時期 主要なプロセッサ ~1970年代 スカラプロセッサ 1970年代~1990年代 ベクトルプロセッサ 1990年代~2000年代 超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化 解消したボトルネック コンピュータの誕生 プロセスの進化 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数の増加、高速 メモリの誕生を活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない ??? ??? 深層学習が 活用に成功

Slide 16

Slide 16 text

16 背景 ● 深層学習モデルは、並列計算機(=GPU)を適切に活用するため、行列演算 主体の構成であった ● 行列演算力が高い事がキーファクター MN-Core, MN-Core 2の目指したもの ● 競合よりも高い行列演算性能の実現 MN-Core, MN-Core 2の位置づけ 詳しくは次の講演で

Slide 17

Slide 17 text

17 現在の主要 AI需要に求められる計算

Slide 18

Slide 18 text

18 2012年 : AlexNet 2021年 : Scaling Law 2023年 : Chat GPT 現在の深層学習モデル : Chat GPTの登場により実需要が大量に発生 深層学習の研究開発の時代 →CPU性能の頭打ちによる、並列演算器の必要性 分散深層学習の時代 深層学習のサービス化

Slide 19

Slide 19 text

19 推論処理の概要 LLMは推論時の演算器活用が難しい構造 出力 出力 出力 出力 出力 出力 入力 入力 入力 入力 入力 入力 出力 出力 出力 出力 出力 入力 入力 入力 入力 入力 KVキャッシュ KVキャッシュ KVキャッシュ 計算順序依存性 があるため 計算効率が悪い KVキャッシュは 入出力の長さで 増大していく KVキャッシュのバンド幅が問題となる (バッチサイズを上げても解決せず)

Slide 20

Slide 20 text

20 KV cacheが長くなり、B/F比が向上せず 出力の速度がUXに大きく影響 出力 出力 出力 入力 入力 入力 出力 出力 出力 出力 出力 入力 入力 入力 入力 入力 KVキャッシュ KVキャッシュ KVキャッシュ 最近の生成AI : Reasoning, Thinkingを行い、多 くのTokenを出力することで性能向上 “s1: Simple test-time scaling” (Muennighoff et al.), arXiv:2501.19393, 2025. 特に長い推論では、よりバンド幅を要求

Slide 21

Slide 21 text

21 現在開発が進んでいモデル : Transformer Transformerの特徴:大規模並列学習に最適 (GPUで伸びる) 研究開発で最適化されたもの:学習スルー プット サービス投入時の効率的な推論よりも学習ス ループットが優先される 結果:サービス時に高いB/Fが要求される なぜ、B/F比が課題となるようなモデルが広まっているか 2012年 : AlexNet 2021年 : Scaling Law 2023年 : Chat GPT 深層学習 研究開発の時代 大規模学習 (Scaling)の時代 深層学習 サービス化

Slide 22

Slide 22 text

22 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI / HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習研究開発の時代 大規模学習 (Scaling)の時代 深層学習サービス化の時代

Slide 23

Slide 23 text

23 MN-Core Lシリーズの位置づけ

Slide 24

Slide 24 text

24 共有メモリ : 全ての演算器が同じメモリ を読み書きする ● データ移動距離が長い 計算機システムは、分散メモリと共有メモリが存在 データの移動距離が大きく異なる 分散メモリ : 対応するメモリのみを読み 書きする ● データの移動距離が大幅に減少 メモリ 演算器 演算器 演算器 メモリ 演算器 演算器 演算器 メモリ メモリ

Slide 25

Slide 25 text

25 GPUは、共有 L2キャッシュによ り、チップ内共有メモリを実現 GPUはチップ内における共有メモリ構造をとっている L2 キャッシュ L1 キャッシュ L1 キャッシュ L1 キャッシュ メモリ 演算器 演算器 演算器 DRAM帯域が向上する一方、 L2キャッシュ帯域 は数 TB/s程度で伸びが鈍化 DRAM帯域 L2キャッシュ帯域 ※A100以降は、L2キャッシュが内部的に複数に分かれており、 対応するL2キャッシュかどうかでバンド幅が変わる 最新世代ではDRAMに全力でアクセスす るだけで、数百Wの電力を消費

Slide 26

Slide 26 text

26 Memory Technology MN-Core L Series Architecture Logic Mem (HBM) NVIDIA SambaNova Google AWS Intel AMD etc… Logic Mem (SRAM) Logic Memory Groq Cerebras 👍 Speed 👍 Capacity 👍👍👍Speed 😐 Capacity 👍👍👍 Speed 👍 Capacity Fully Distributed Memory Architecture 3D Stacked DRAM Processing Units in chip network ①Short data move ②Data stays near-memory 3D-Stacked DRAM HBM SRAM

Slide 27

Slide 27 text

27 主要なコンピュータアーキテクチャは、半導体技術の進 化とともに変化してきた 時期 主要なプロセッサ ~1970年代 スカラプロセッサ 1970年代~1990年代 ベクトルプロセッサ 1990年代~2000年代 超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化 解消したボトルネック コンピュータの誕生 プロセスの進化 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数の増加、高速 メモリの誕生を活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない ??? ??? 深層学習が成功

Slide 28

Slide 28 text

28 MN-Coreは、半導体技術の進化と GPUのボトルネック を解消した、次世代のプロセッサである。 時期 主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ 1990s~2000s 超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ MN-Core L 技術の変化 解消したボトルネック コンピュータの誕生 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数が増えたこ と、高速メモリを活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない 3D積層メモリ チップ内のデータ移動が支配的に 深層学習が成功 Transformer推論に適合! 他のアプリケーションも? 詳しい説明は 次の講演者の発表で

Slide 29

Slide 29 text

29 MN-Core ロードマップと今後の展望

Slide 30

Slide 30 text

30 MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI / HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale

Slide 31

Slide 31 text

31 完全分散メモリアーキテクチャと超広帯域メモリ 分散メモリアーキテクチャ 3D Stacked DRAM Processing Units in chip network ①Short data move ②Data stays near-memory 物理的にも分散

Slide 32

Slide 32 text

32 Confidential 我々のプラン : 2027年, MN-Core L1000 シリーズが、推論を 10倍速に

Slide 33

Slide 33 text

半導体技術 計算機 アーキテクチャ アプリケーション