MN-Coreの展望/MTC25

MN-Coreの展望的矢知樹 AIコンピューティング事業本部事業戦略・プロダクトマーケティング部部長株式会社Preferred Networks

2 2022 ~ 2025 Preferred Networks • MN-Core 製品企画 •
マーケティングもともと離散アルゴリズムとか深層学習アルゴリズム等自己紹介

3 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI
/ HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. Future Gen. MN-Core L1000 MN-Core L2000 2016 　　　 2020 2024 　　　 2026 　 2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習の発展の歴史を振り返りながら、 MN-Core シリーズの位置づけと今後の展望を紹介します

半導体技術計算機アーキテクチャアプリケーション

5 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ 1990s~2000s
超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ ???? 技術の変化支配的ボトルネックコンピュータの誕生プロセスの改善磁気コアメモリから半導体メモリ増加した1システムゲート数活用の壁高速メモリの活用プロセスの改善プロセッサ間の配線の壁プロセスの改善増加した1チップ実装可能ゲート数活用の壁 ??? ???

6 深層学習モデルの歴史と対応する半導体技術

7 2012年 : AlexNet 2020年~2022年 : Scaling Law 2022年~ :
Chat GPT 深層学習の発展大きく分けて 3つの段階に分かれている深層学習の研究開発の時代大規模モデルの時代深層学習のサービス化

8 主なイベント AlexNetの発明 • 画像認識コンペで圧倒的一位 • ニューラルネットの復権と何回目かのAIブームのスタート行われたこと様々なニューラルネットが提案される •
基本的には行列積の固まりである深層学習研究時代 : 2012年 ~ 2018年 ImageNet Classification with Deep Convolutional Neural Networks

9 複数のアクセラレータ（GPU）により分散してモデル学習を行うように主なイベント 2021年 Scaling lawの発表 • ある特定のモデルを、ある特定のタスクを用いて学習すれば投入計算リソースにより、上限なく性能が伸ばせるという発見分散深層学習時代
: 2018年～

10 深層学習が研究成果から社会インフラへ移行した主なイベント ChatGPTの発表 • 実際に多くの人が活用するサービスのバックエンドとして深層学習が必要とされ始めた • 実際の人の業務をどんどんと置換していく段階に ◦
この資料もめっちゃChat GPTに作ってもらいました深層学習サービス化時代 : 2023年 ~

11 計算資源を投入すれば投入するだけ、「モデルの性能」を上げることが可能競合よりも強力なモデルを保持していることで、市場を独占することが可能 →　計算資源を大量に投入することのビジネス的な裏付けが登場 Scaling Lawのインパクト : 計算資源投入の効果が予期可能に

12 背景 • Scaling lawの発見により、計算資源を費やせば費やすほどモデルの性能を上げられる事が判明 • GPUの電力あたり性能は頭打ち起きたこと •
複数のGPUを用いた分散計算をすることでより精度の高いモデルを学習できるように • 分散計算が可能であるような深層学習モデルの発展が起きた。重要パラメータ : システムとしての演算力（分散計算を可能とするようなネットワークとアルゴリズム）分散深層学習時代における大規模スケーリング

13 ニューラルネットは1950年代から研究され、 • パーセプトロン（1950年代） • 誤差逆伝播（1960年代の基礎づけ） • 畳み込みニューラルネットワーク（1990年代）といった土台が積み上がっていた。 2012年はニューラルネットの誕生したタイミングではなかった
なぜ深層学習が 2012年に成功したのか？ニューラルネットは古典的分野

14 背景 : デナード・スケーリングの終焉（2003〜2007年ごろ） • 90nm を下回るあたりから、クロック周波数の伸びが停滞 ◦ 単一コア性能の伸びが鈍化 •
半導体技術の向上の恩恵を受けるには、単純なシングルCPUの性能向上ではない手法が必要に • マルチコアCPUへ移り、その後まもなく GPU の汎用計算利用へ（CUDA 2006年、OpenCL 2009年）アルゴリズム発展の方向性 : 並列計算機を上手く活用することで半導体技術の進歩を享受可能に • 並列演算に向いたアルゴリズムの必要性 • 行列積主体で構成されている「深層学習」の発見により、アルゴリズム的なブレイクスルーが発生した。深層学習は並列計算機を効率的に活用可能なアルゴリズムであった

15 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970年代スカラプロセッサ 1970年代~1990年代ベクトルプロセッサ 1990年代~2000年代
超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化解消したボトルネックコンピュータの誕生プロセスの進化磁気コアメモリから半導体メモリ 1システムに実装出来るゲート数の増加、高速メモリの誕生を活用困難プロセスの進化プロセッサ間の配線が困難にプロセスの進化 1チップに実装出来るゲート数が増えたことを活用出来ない ??? ??? 深層学習が活用に成功

16 背景 • 深層学習モデルは、並列計算機（＝GPU）を適切に活用するため、行列演算主体の構成であった • 行列演算力が高い事がキーファクター MN-Core, MN-Core 2の目指したもの
• 競合よりも高い行列演算性能の実現 MN-Core, MN-Core 2の位置づけ詳しくは次の講演で

17 現在の主要 AI需要に求められる計算

18 2012年 : AlexNet 2021年 : Scaling Law 2023年 :
Chat GPT 現在の深層学習モデル : Chat GPTの登場により実需要が大量に発生深層学習の研究開発の時代 →CPU性能の頭打ちによる、並列演算器の必要性分散深層学習の時代深層学習のサービス化

19 推論処理の概要 LLMは推論時の演算器活用が難しい構造出力出力出力出力出力出力入力
入力入力入力入力入力出力出力出力出力出力入力入力入力入力入力 KVキャッシュ KVキャッシュ KVキャッシュ計算順序依存性があるため計算効率が悪い KVキャッシュは入出力の長さで増大していく KVキャッシュのバンド幅が問題となる（バッチサイズを上げても解決せず）

20 KV cacheが長くなり、B/F比が向上せず出力の速度がUXに大きく影響出力出力出力入力入力入力
出力出力出力出力出力入力入力入力入力入力 KVキャッシュ KVキャッシュ KVキャッシュ最近の生成AI : Reasoning, Thinkingを行い、多くのTokenを出力することで性能向上 “s1: Simple test-time scaling” (Muennighoff et al.), arXiv:2501.19393, 2025. 特に長い推論では、よりバンド幅を要求

21 現在開発が進んでいモデル : Transformer Transformerの特徴：大規模並列学習に最適（GPUで伸びる）研究開発で最適化されたもの：学習スループットサービス投入時の効率的な推論よりも学習スループットが優先される
結果：サービス時に高いB/Fが要求されるなぜ、B/F比が課題となるようなモデルが広まっているか 2012年 : AlexNet 2021年 : Scaling Law 2023年 : Chat GPT 深層学習研究開発の時代大規模学習（Scaling）の時代深層学習サービス化

22 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI
/ HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016 　　　 2020 2024 　　　 2026 　 2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習研究開発の時代大規模学習（Scaling）の時代深層学習サービス化の時代

23 MN-Core Lシリーズの位置づけ

24 共有メモリ : 全ての演算器が同じメモリを読み書きする • データ移動距離が長い計算機システムは、分散メモリと共有メモリが存在データの移動距離が大きく異なる分散メモリ
: 対応するメモリのみを読み書きする • データの移動距離が大幅に減少メモリ演算器演算器演算器メモリ演算器演算器演算器メモリメモリ

25 GPUは、共有 L2キャッシュにより、チップ内共有メモリを実現 GPUはチップ内における共有メモリ構造をとっている L2 キャッシュ L1 キャッシュ L1
キャッシュ L1 キャッシュメモリ演算器演算器演算器 DRAM帯域が向上する一方、 L2キャッシュ帯域は数 TB/s程度で伸びが鈍化 DRAM帯域 L2キャッシュ帯域 ※A100以降は、L2キャッシュが内部的に複数に分かれており、対応するL2キャッシュかどうかでバンド幅が変わる最新世代ではDRAMに全力でアクセスするだけで、数百Wの電力を消費

26 Memory Technology MN-Core L Series Architecture Logic Mem (HBM)
NVIDIA SambaNova Google AWS Intel AMD etc… Logic Mem (SRAM) Logic Memory Groq Cerebras 👍 Speed 👍 Capacity 👍👍👍Speed 😐 Capacity 👍👍👍 Speed 👍 Capacity Fully Distributed Memory Architecture 3D Stacked DRAM Processing Units in chip network ①Short data move ②Data stays near-memory 3D-Stacked DRAM HBM SRAM

27 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970年代スカラプロセッサ 1970年代~1990年代ベクトルプロセッサ 1990年代~2000年代
超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化解消したボトルネックコンピュータの誕生プロセスの進化磁気コアメモリから半導体メモリ 1システムに実装出来るゲート数の増加、高速メモリの誕生を活用困難プロセスの進化プロセッサ間の配線が困難にプロセスの進化 1チップに実装出来るゲート数が増えたことを活用出来ない ??? ??? 深層学習が成功

28 MN-Coreは、半導体技術の進化と GPUのボトルネックを解消した、次世代のプロセッサである。時期主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ
1990s~2000s 超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ MN-Core L 技術の変化解消したボトルネックコンピュータの誕生磁気コアメモリから半導体メモリ 1システムに実装出来るゲート数が増えたこと、高速メモリを活用困難プロセスの進化プロセッサ間の配線が困難にプロセスの進化 1チップに実装出来るゲート数が増えたことを活用出来ない 3D積層メモリチップ内のデータ移動が支配的に深層学習が成功 Transformer推論に適合！他のアプリケーションも？詳しい説明は次の講演者の発表で

29 MN-Core ロードマップと今後の展望

30 MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI /
HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016 　　　 2020 2024 　　　 2026 　 2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale

31 完全分散メモリアーキテクチャと超広帯域メモリ分散メモリアーキテクチャ 3D Stacked DRAM Processing Units in chip
network ①Short data move ②Data stays near-memory 物理的にも分散

32 Confidential 我々のプラン : 2027年, MN-Core L1000 シリーズが、推論を 10倍速に

半導体技術計算機アーキテクチャアプリケーション

MN-Coreの展望/MTC25

MN-Coreの展望/MTC25

Preferred Networks PRO

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

MN-Coreの展望的矢知樹 AIコンピューティング事業本部事業戦略・プロダクトマーケティング部部長株式会社Preferred Networks

2 2022 ~ 2025 Preferred Networks • MN-Core 製品企画 •

3 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI

半導体技術計算機アーキテクチャアプリケーション

5 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ 1990s~2000s

6 深層学習モデルの歴史と対応する半導体技術

7 2012年 : AlexNet 2020年~2022年 : Scaling Law 2022年~ :

8 主なイベント AlexNetの発明 • 画像認識コンペで圧倒的一位 • ニューラルネットの復権と何回目かのAIブームのスタート行われたこと様々なニューラルネットが提案される •

12 背景 • Scaling lawの発見により、計算資源を費やせば費やすほどモデルの性能を上げられる事が判明 • GPUの電力あたり性能は頭打ち起きたこと •

14 背景 : デナード・スケーリングの終焉（2003〜2007年ごろ） • 90nm を下回るあたりから、クロック周波数の伸びが停滞 ◦ 単一コア性能の伸びが鈍化 •

15 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970年代スカラプロセッサ 1970年代~1990年代ベクトルプロセッサ 1990年代~2000年代

16 背景 • 深層学習モデルは、並列計算機（＝GPU）を適切に活用するため、行列演算主体の構成であった • 行列演算力が高い事がキーファクター MN-Core, MN-Core 2の目指したもの

17 現在の主要 AI需要に求められる計算

18 2012年 : AlexNet 2021年 : Scaling Law 2023年 :

19 推論処理の概要 LLMは推論時の演算器活用が難しい構造出力出力出力出力出力出力入力

20 KV cacheが長くなり、B/F比が向上せず出力の速度がUXに大きく影響出力出力出力入力入力入力

21 現在開発が進んでいモデル : Transformer Transformerの特徴：大規模並列学習に最適（GPUで伸びる）研究開発で最適化されたもの：学習スループットサービス投入時の効率的な推論よりも学習スループットが優先される

22 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI

23 MN-Core Lシリーズの位置づけ

24 共有メモリ : 全ての演算器が同じメモリを読み書きする • データ移動距離が長い計算機システムは、分散メモリと共有メモリが存在データの移動距離が大きく異なる分散メモリ

25 GPUは、共有 L2キャッシュにより、チップ内共有メモリを実現 GPUはチップ内における共有メモリ構造をとっている L2 キャッシュ L1 キャッシュ L1

26 Memory Technology MN-Core L Series Architecture Logic Mem (HBM)

27 主要なコンピュータアーキテクチャは、半導体技術の進化とともに変化してきた時期主要なプロセッサ ~1970年代スカラプロセッサ 1970年代~1990年代ベクトルプロセッサ 1990年代~2000年代

28 MN-Coreは、半導体技術の進化と GPUのボトルネックを解消した、次世代のプロセッサである。時期主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ

29 MN-Core ロードマップと今後の展望

30 MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI /

31 完全分散メモリアーキテクチャと超広帯域メモリ分散メモリアーキテクチャ 3D Stacked DRAM Processing Units in chip

32 Confidential 我々のプラン : 2027年, MN-Core L1000 シリーズが、推論を 10倍速に

半導体技術計算機アーキテクチャアプリケーション