MN-Coreの展望/MTC25

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 MN-Coreの展望/MTC25

2025年12月16日に東京ミッドタウンホール&カンファレンスで開催された『MN-Core Technology Conference 25』の講演スライドです。本スライドは、以下のスケジュールで行われたセッションの発表資料です。

A会場
1.MN-Coreの展望 的矢 知樹(AIコンピューティング事業本部 事業戦略・プロダクトマーケティング部 部長)
2.MN-Coreの設計思想 牧野 淳一郎(コンピュータアーキテクチャ担当CTO)
3.MN-Core Arch deep dive 真島 優輔(AIコンピューティング事業本部 MN-Core 開発部 Engineering Manager)
4.誰もがMN-Coreを利用できるAIクラウドサービス: Preferred Computing Platform 照屋 大地(AIコンピューティング事業本部 基盤技術部 部長)

B会場
MN-Coreの性能を引き出す技術〜HPL/姫野ベンチマーク編〜 安達 知也(AIコンピューティング事業本部 ソフトウェア開発部 エンジニア)
MN-Core SDK × LLM推論  樋口 兼一(AIコンピューティング事業本部 ソフトウェア開発部) /坂本 亮(AIコンピューティング事業本部 ソフトウェア開発部 部長)

Avatar for Preferred Networks

Preferred Networks PRO

January 14, 2026
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. 2 2022 ~ 2025 Preferred Networks • MN-Core 製品企画 •

    マーケティング もともと離散アルゴリズムとか深層学習アルゴリズム等 自己紹介
  2. 3 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI

    / HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習の発展の歴史を振り返りながら、 MN-Core シリーズの位置づけと今後の展望を紹介します
  3. 5 主要なコンピュータアーキテクチャは、 半導体技術の進化とともに変化してきた 時期 主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ 1990s~2000s

    超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ ???? 技術の変化 支配的ボトルネック コンピュータの誕生 プロセスの改善 磁気コアメモリから 半導体メモリ 増加した1システムゲート数活用の壁 高速メモリの活用 プロセスの改善 プロセッサ間の配線の壁 プロセスの改善 増加した1チップ実装可能ゲート数活用の壁 ??? ???
  4. 7 2012年 : AlexNet 2020年~2022年 : Scaling Law 2022年~ :

    Chat GPT 深層学習の発展 大きく分けて 3つの段階に分かれている 深層学習の研究開発の時代 大規模モデルの時代 深層学習のサービス化
  5. 12 背景 • Scaling lawの発見により、計算資源を費やせば費やすほどモデルの性能を上げられ る事が判明 • GPUの電力あたり性能は頭打ち 起きたこと •

    複数のGPUを用いた分散計算をすることでより精度の高いモデルを学習できるように • 分散計算が可能であるような深層学習モデルの発展が起きた。 重要パラメータ : システムとしての演算力 (分散計算を可能とするようなネットワークとアル ゴリズム) 分散深層学習時代における大規模スケーリング
  6. 14 背景 : デナード・スケーリングの終焉(2003〜2007年ごろ) • 90nm を下回るあたりから、クロック周波数の伸びが停滞 ◦ 単一コア性能の伸びが鈍化 •

    半導体技術の向上の恩恵を受けるには、単純なシングルCPUの性能向上ではない手法が 必要に • マルチコアCPUへ移り、その後まもなく GPU の汎用計算利用へ (CUDA 2006年、OpenCL 2009年) アルゴリズム発展の方向性 : 並列計算機を上手く活用することで半導体技術の進歩を享受可能に • 並列演算に向いたアルゴリズムの必要性 • 行列積主体で構成されている「深層学習」の発見により、アルゴリズム的なブレイクス ルーが発生した。 深層学習は 並列計算機を効率的に活用可能なアルゴリズムであった
  7. 15 主要なコンピュータアーキテクチャは、半導体技術の進 化とともに変化してきた 時期 主要なプロセッサ ~1970年代 スカラプロセッサ 1970年代~1990年代 ベクトルプロセッサ 1990年代~2000年代

    超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化 解消したボトルネック コンピュータの誕生 プロセスの進化 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数の増加、高速 メモリの誕生を活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない ??? ??? 深層学習が 活用に成功
  8. 18 2012年 : AlexNet 2021年 : Scaling Law 2023年 :

    Chat GPT 現在の深層学習モデル : Chat GPTの登場により実需要が大量に発生 深層学習の研究開発の時代 →CPU性能の頭打ちによる、並列演算器の必要性 分散深層学習の時代 深層学習のサービス化
  9. 19 推論処理の概要 LLMは推論時の演算器活用が難しい構造 出力 出力 出力 出力 出力 出力 入力

    入力 入力 入力 入力 入力 出力 出力 出力 出力 出力 入力 入力 入力 入力 入力 KVキャッシュ KVキャッシュ KVキャッシュ 計算順序依存性 があるため 計算効率が悪い KVキャッシュは 入出力の長さで 増大していく KVキャッシュのバンド幅が問題となる (バッチサイズを上げても解決せず)
  10. 20 KV cacheが長くなり、B/F比が向上せず 出力の速度がUXに大きく影響 出力 出力 出力 入力 入力 入力

    出力 出力 出力 出力 出力 入力 入力 入力 入力 入力 KVキャッシュ KVキャッシュ KVキャッシュ 最近の生成AI : Reasoning, Thinkingを行い、多 くのTokenを出力することで性能向上 “s1: Simple test-time scaling” (Muennighoff et al.), arXiv:2501.19393, 2025. 特に長い推論では、よりバンド幅を要求
  11. 21 現在開発が進んでいモデル : Transformer Transformerの特徴:大規模並列学習に最適 (GPUで伸びる) 研究開発で最適化されたもの:学習スルー プット サービス投入時の効率的な推論よりも学習ス ループットが優先される

    結果:サービス時に高いB/Fが要求される なぜ、B/F比が課題となるようなモデルが広まっているか 2012年 : AlexNet 2021年 : Scaling Law 2023年 : Chat GPT 深層学習 研究開発の時代 大規模学習 (Scaling)の時代 深層学習 サービス化
  12. 22 Confidential MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI

    / HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale 深層学習研究開発の時代 大規模学習 (Scaling)の時代 深層学習サービス化の時代
  13. 24 共有メモリ : 全ての演算器が同じメモリ を読み書きする • データ移動距離が長い 計算機システムは、分散メモリと共有メモリが存在 データの移動距離が大きく異なる 分散メモリ

    : 対応するメモリのみを読み 書きする • データの移動距離が大幅に減少 メモリ 演算器 演算器 演算器 メモリ 演算器 演算器 演算器 メモリ メモリ
  14. 25 GPUは、共有 L2キャッシュによ り、チップ内共有メモリを実現 GPUはチップ内における共有メモリ構造をとっている L2 キャッシュ L1 キャッシュ L1

    キャッシュ L1 キャッシュ メモリ 演算器 演算器 演算器 DRAM帯域が向上する一方、 L2キャッシュ帯域 は数 TB/s程度で伸びが鈍化 DRAM帯域 L2キャッシュ帯域 ※A100以降は、L2キャッシュが内部的に複数に分かれており、 対応するL2キャッシュかどうかでバンド幅が変わる 最新世代ではDRAMに全力でアクセスす るだけで、数百Wの電力を消費
  15. 26 Memory Technology MN-Core L Series Architecture Logic Mem (HBM)

    NVIDIA SambaNova Google AWS Intel AMD etc… Logic Mem (SRAM) Logic Memory Groq Cerebras 👍 Speed 👍 Capacity 👍👍👍Speed 😐 Capacity 👍👍👍 Speed 👍 Capacity Fully Distributed Memory Architecture 3D Stacked DRAM Processing Units in chip network ①Short data move ②Data stays near-memory 3D-Stacked DRAM HBM SRAM
  16. 27 主要なコンピュータアーキテクチャは、半導体技術の進 化とともに変化してきた 時期 主要なプロセッサ ~1970年代 スカラプロセッサ 1970年代~1990年代 ベクトルプロセッサ 1990年代~2000年代

    超並列クラスタ 2000年代 ~ 2020年代 GPGPU 2020年代 ~ ???? 技術の変化 解消したボトルネック コンピュータの誕生 プロセスの進化 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数の増加、高速 メモリの誕生を活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない ??? ??? 深層学習が成功
  17. 28 MN-Coreは、半導体技術の進化と GPUのボトルネック を解消した、次世代のプロセッサである。 時期 主要なプロセッサ ~1970s スカラプロセッサ 1970s~1990s ベクトルプロセッサ

    1990s~2000s 超並列クラスタ 2000s ~ 2020s GPGPU 2020s ~ MN-Core L 技術の変化 解消したボトルネック コンピュータの誕生 磁気コアメモリから 半導体メモリ 1システムに実装出来るゲート数が増えたこ と、高速メモリを活用困難 プロセスの進化 プロセッサ間の配線が困難に プロセスの進化 1チップに実装出来るゲート数が増えたことを 活用出来ない 3D積層メモリ チップ内のデータ移動が支配的に 深層学習が成功 Transformer推論に適合! 他のアプリケーションも? 詳しい説明は 次の講演者の発表で
  18. 30 MN-Core™ Series Roadmap MN-Core (TSMC 12nm) Flagship GenAI /

    HPC Inference MN-Core2 (TSMC 7nm) 3rd Gen. (Samsung 2nm) Future Gen. MN-Core L1000 MN-Core L2000 2016     2020 2024     2026   2027 Internal Use On-Premises, Cloud Development In Development Planning In Development In Development For sale