MN-Coreの設計思想/MTC25

Avatar for Preferred Networks Preferred Networks PRO
January 15, 2026
45

 MN-Coreの設計思想/MTC25

2025年12月16日に東京ミッドタウンホール&カンファレンスで開催された『MN-Core Technology Conference 25』の講演スライドです。本スライドは、以下のスケジュールで行われたセッションの発表資料です。

A会場
1. MN-Coreの展望 的矢 知樹(AIコンピューティング事業本部 事業戦略・プロダクトマーケティング部 部長)
2. MN-Coreの設計思想 牧野 淳一郎(コンピュータアーキテクチャ担当CTO)
3. MN-Core Arch deep dive 真島 優輔(AIコンピューティング事業本部 MN-Core 開発部 Engineering Manager)
4. 誰もがMN-Coreを利用できるAIクラウドサービス: Preferred Computing Platform 照屋 大地(AIコンピューティング事業本部 基盤技術部 部長)

B会場
1. MN-Coreの性能を引き出す技術 HPL/姫野ベンチマーク編 安達 知也(AIコンピューティング事業本部 ソフトウェア開発部 エンジニア)
2. MN-Core SDK × LLM推論  樋口 兼一(AIコンピューティング事業本部 ソフトウェア開発部) /坂本 亮(AIコンピューティング事業本部 ソフトウェア開発部 部長)

Avatar for Preferred Networks

Preferred Networks PRO

January 15, 2026
Tweet

More Decks by Preferred Networks

Transcript

  1. 2 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前の それ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった

    GRAPE-DR。西川さんがコンパイラ書い てくれたりした • 京の時、富岳の時にアクセラレータとして入れようという話はあったがこけた • 富岳でこけた頃にPFNができて、深層学習用プロセッサ作ろうよと • ポスト富岳向けにはメモリバンド幅が大きいものを検討したが、また文科省からはいら ないよと言われた。 • LLMはメモリバンド幅超重要、ということで、そっち向けのを作ろうよと 概要
  2. 3 • GRAPE • GRAPE-DR • MN-Core • MN-Core Lxxx

    に至る道 ◦ ポスト富岳FS検討の概要 ◦ LLM推論でのメモリアクセス ◦ どんなものを作ろうとしているか • まとめ 発表構成
  3. 4 • 最初:1988年、近田さん(当時野辺 山助教授)提案。夏の学校 • 「学部3年で多体問題は難しいと いう話を聞いた」 • 近田提案は単なるO(N2)の重力を 計算するプロセッサ

    • 実際に作ったものは色々工夫 • 牧野はこの時D2。夏の学校はいっ てなかった。指導教官の杉本が 乗ったので始まった GRAPE 近田さん
  4. 6 • 汎用計算機でやっている計算をそのまま専用回路にする必要があるとは限らない。やってる計 算・シミュレーション対象の系に応じた精度、フォーマットがある ◦ 適切なフォーマットにできれば回路規模が何桁も減る「こともある」 • 計算量がへるアルゴリズムに対応することも重要(GRAPE-1ではあえてやってない) ◦ GRAPE-1A(福重さんの卒業研究):

    Barnes-Hut tree algorithm に対応 ◦ GRAPE-2(最終的には伊藤さん): 独立時間刻み法に対応 GRAPE-1色々 • 適切な通信速度をもたせることが性能には重要(GRAPE-1: GPIB、1A, 2, 3: VME) ◦ IFカードベンダ提供のI/Oライブラリでちゃんと速度がで るとは限らない。GPIBでもデバイスドライバ書いた
  5. 7 • 相互作用計算パイプラインを1チップ(5, 6 で は複数パイプラインを1チップ)にいれて、それ を多数並べたボードをさらに複数並べてシス テム • 90年代にはNREは安かった(とはいえ後半に

    は億を超えた、、、) • ソフトウェアからみた並列度・レイテンシを下 げるために放送・総和ネットワークを考案 専用LSI化と並列化
  6. 9 • チップ内のネットワークはGRAPE-6のボード 上ネットワークと同様な放送・縮約(「汎用」な ので加算以外もできる) • プロセッサはFPUにメモリ要素をつけたもの。 Weitek 3364 とかとあまり変わらないが16語

    とかじゃなくて 256語のメモリもつけた。これく らいあるとDGEMM でピーク性能だせる • 京のFSで、これベースで重要なアプリケー ションは大体動く、というレポート出したけど、 「汎用で目標達成できるからアクセラレータは 不要」となった GRAPE-DR
  7. 10 • 非常に単純化すると、GRAPE-6 までの並列パイプラインプロセッサ(複数パイプラインへの放 送機能、パイプライングループ間の縮約機能あり)のアプリケーション専用パイプラインの代わ りに浮動小数点演算器+ローカルメモリをおいたもの • コア間ネットワーク以外、つまりプロセッサコアそのものは1980-90年代の大規模 SIMD プロ

    セッサとあまり変わらない。大きな違い:主記憶が分散ではなくて共有のオフチップメモリ ◦ 90nm のプロセッサとしては非常に高いピーク性能を実現できた。 500MHz で 256 DP/512SP GF。CELL は FP32 25.6GF ◦ 40nm の Fermi には負けてる。 • 専用パイプラインを汎用演算器に置き換えた分、トランジスタあたりの性能はだいぶ下がる。 Fermi 以降がMasPar 的な SIMD コアになったこともあって圧倒的優位とはいい難い感 じになった GRAPE-DRの「思想」とその限界
  8. 11 • 2011年にレポートがでて2012-2013 年に FS をやった。N, F, H 3社がベク トル、スカラー、アクセラレータをやるという枠組み。牧野は東工大から理研

    に移動 • アクセラレータは諸般の事情で結局やらないことに。 2016/3 から牧野は神 戸大学本務に • 牧野はこの辺から行列乗算専用ユニットありでいいのではと色々考えてい た • 記録によると、2016/2/25 に奥田さんからメイルもらって、2/26 にまだ本郷3 丁目にあった PFN オフィスにいった模様。なんかやろうと言い出した最初は 村主さん? • NEDO「次世代人工知能技術・ロボット中核技術開発」に 5月に村主さん代 表で応募。採択されて GPFN1始まる。さらにPFN自己資金で GPFN2 も。 ポスト「京」 FSと MN-Core 村主さん
  9. 12 40nm でのテストチップ(NEDO予算で入る範囲)で、機械学習に使える行列乗算 (GPFNx の場合は行列ベクトル積)ができるプロセッサコアを GRAPE-DR のコ アベースででっち上げる • 256ビット幅(なので

    FP16 では 16x16、 FP32 では 8x8、FP64 では 4x4) の行列と対応する長さのベクトルの乗算ユニットに、 GRAPE-DR のコア4 個をくっつける感じ • 真似した元: TMC CM-2。1ビットプロセッサの超並列SIMDプロセッサだっ たが、 R. ファインマンがこれに浮動小数点ユニットつけたらすごいスパコン になる、と言い出して 32プロセッサに1つ Weitek のFPUつけたもの GPFN1 https://upload.wikimedia.org/wikipedia/co mmons/1/1a/RichardFeynman-PaineMans ionWoods1984_copyrightTamikoThiel_bw .jpg https://upload.wikimedia.org/wikipedia/commons/thumb/9/ 94/MoMA_Exhibition%2C_CM-2_%2838801396912%29_ %28clip1%29.jpg/960px-MoMA_Exhibition%2C_CM-2_% 2838801396912%29_%28clip1%29.jpg
  10. 13 CM は MIT AI lab で始まったプロジェクトなので、native なプログラミング環境は Lisp •

    1986年に Josh Barnes (BH treeの)が使った時には本当に Lisp しかなかった。 開発してる人たちはみんな Lisper なのでそれでいいと思ってた模様。 Josh は Lisp 大好きっ子なので特に疑問なく使ってた ◦ 格子QCDのコードは誰かが書いてた。あとは、、、 • 牧野が 1987年に使った時には C* という Cuda のお爺さんくらいの言語が、ちょっ と複雑な式書くとコンパイラが嘘コードを出すくらいで動いていた。 Fortran は開発 用ディレクトリ予定地をみたような記憶が • 90年くらいには CM-Fortran (Fortran 90の配列拡張で SIMD演算を表現)が動い てた模様。これが HPF の原型になる。ここでようやく色々な人が使えるように ◦ CM-Fortranではマシンモデルが変わって、  1ビットプロセッサではなくてそれ を32個まとめたものを32ビットプロセッサとみなす感じに 蛇足:CM-2 のプログラミング環境 Josh Barnes Guy Steele
  11. 14 • MN-Core: N12 ででかいチップ作る。 ◦ 4PE に行列乗算ユニットをつけるのは GPFN1と同じ ◦

    GRAPE-DR に比べてPE数も多いので、3階層ネットワークに ◦ 4ダイ1パッケージで 532 FP16 TF と、パッケージあたり性能で N7 のA100より上。電力性能 でも A100 を上回れた ◦ NVIDIA も V100 で Tensor Core 導入したので、勝ってはいるが圧倒的とまでは、、、 • MN-Core 2: N7 でのアップデート ◦ 性能高いがやはり圧倒的とまでは、、、 ◦ とはいえ、ダイ面積あたり性能は同じ N7で A100 の2倍くらい。他社の AIプロセッサは軒並み A7 より面積あたり性能低いので、わりと画期的 GPFN2/3 (MN-Core, MN-Core 2)  とはいえなにかもう一 つ飛び道具が欲しい
  12. 16 • 2022年から2024年まで。アーキテクチャ検討は理研と神戸大学・PFNの2チーム • 我々はMN-Core アーキテクチャに 3D積層DRAMをつけるアーキテクチャを検討した。 • MN-Core はもともとチップ内で共有キャッシュを持たない分散メモリアーキテクチャで、外付

    けDRAMは共有 • ポスト富岳検討では、基本的に DRAM も非常に多数のブロックに分けて、演算コア毎につ ける。もともとあるオンチップのSRAMに加えてDRAMをつける想定とした。 • SIMDで、多くのアプリケーションでは全コアで同じアドレスをアクセスするようにできるので、 row アドレスアクセスやプリチャージは同期し、性能低下要因にならない • FP64 B/F で 2程度までを実現可能になり、多くのアプリケーションに関して古典ベクトル機 並の実行効率が期待できる ポスト富岳 FS検討の概要 でもポスト富岳には採用されな かった(京、富岳に続き3度目)
  13. 17 メモリ技術の歴史 • 黎明期(1950年代):水銀遅延線・ウィリアム ス管 • 初期(60年代): 磁気ドラム・磁気コア • そのあと現代まで:半導体メモリ(DRAM) •

    磁気コアからDRAMへの変化でアクセスタイム ・バンド幅の両方が桁違いに向上。Cray-1 の ようなベクトルアーキテクチャを可能にした • そのあと50年間DRAMが世界を支配 なぜ3次元積層メモリ? Wikipedia から。 EDSACメモリ Wikipedia から。 IBM701のウィリアムス管 Wikipedia から。 CDC6600の磁気コ アメモリ Wikipedia から。 Intel 1103 DRAM(1970年発表)
  14. 18 DRAMの進化 • 容量は (2010年頃までは)指数関数的に増えた ◦ 1971: 1kbits, 2020: 8Gbits。7桁増えた

    • 速度は、、、 ◦ RAS サイクルタイム 1971: 580ns 今のDDR4: 40ns くらい。50年間で15倍 • Fast Page mode: row address をいれてから column アドレスを何度も入れられる • Synchronous DRAM: 制御回路とデータ I/O 回路をクロック同期に。 • DDR DRAM: クロック上下でデータやりとり • DDR2, 3, 4, 5, 6: データ転送のクロックどんどんあげる。 • GDDRx: データ転送のクロックもっとあげる • LPDDRx: 特に I/O の電圧さげて消費電力を下げる
  15. 19 DRAMの消費電力とバンド幅 • サイクルタイムは遅いが原理的なバンド幅は大きい ◦ 例: 64Mbit DRAM, row address

    11bit, column address 11 bit, 16 bit幅, プロセスによるが 0.2mm2くらい ◦ page size = 32kbits (2k x 32k のアレイ) ◦ 「原理的には」 40ns で 32kbits 読み書きできる= 100GB/s, 電力は 0.1pJ/bit 以下。 ◦ 100mm2のチップで50TB/s 40W ◦ 「原理的」の意味は、column address いれないで32kbits 全部読み書きすれば。 ◦ 普通に16ビット幅で I/O すると、 1GHz DDR でまわしても 4GB/s. 消費電力は配線長できまる • DRAMのバンド幅、消費エネルギーはここ 15年くらいはプロセス技術とあんまり関係なくて、パッケー ジングとインターフェース規格だけで決まる ◦ メモリセルのキャパシタンスは微細化しても減らせないが、そもそも消費電力の主要な部分では ない ◦ 電力のほとんどはメモリチップとロジックチップの間の配線の充放電に使われる
  16. 20 最近のDRAMの変化 our goal DDR 〜 20pJ/bit GDDR ~ 10pJ/bit

    HBM 〜 4pJ/bit アクセスレイテンシは基本的に変わらない。 DRAMセル自体の内部構造には変化がないため。プリチャージサイクルが 40ns とか アクセスエネルギーは DIMM メモリから HBM までで1/5 程度。配線が短くなって電力がへる GPUの演算性能は(低精度化もあって)結構上がるのにメモリバンド幅は上がらなくなっている
  17. 21 HBMの次 • DRAMのアクセスエネルギーの主要部 分は配線の充放電。これはドライブ電 圧と配線の長さだけで決まる。(グラウ ンドプレーン上の配線1本のキャパシタ ンス=0.2pF/mm) • 100mm

    あると 20pF。1Vで10pJ/bit • 2mm くらいにできると 0.2pJとか。 • DRAM自体は色々で 0.3-0.5pJ/bit • 2mm にするには積層しかない • 必要な要素技術は揃っている TSVとハイブリッドボンディング
  18. 22 3D積層DRAMの要素技術 • TSV:ダイに穴あけて配線通す。技術的には 1μm以下のピッチが可能 • 接合技術 ◦ ハイブリッドボンディング:技術的には 1μm以下のピッチが可能。量産での採用例はソニーの

    CMOSセン サの他、キオクシアの NAND, AMD Zen等 ◦ マイクロバンプ 技術的には5 μmくらいまで Wikipedia HBMの項目から 穴開けるのがTSV HBMではダイ間接合はマイクロバンプ • したいことはカスタ ム設計のDRAMとロ ジックの積層 • 数社のDRAMベンダ が提供開始している • 量産製品はまだな い(マイニング用で なんかある)
  19. 23 • これまでの機械学習モデルとは全然違う ◦ モデルパラメータ数が桁違い。「Large」の由来。そこそこ賢いモデルは 400Bパラメー タとか。一方、従来の画像認識だと40Mとか。4桁違う。 ◦ この全パラメータを繰り返しアクセス(出力1単語毎に全部とか) ◦

    KVキャッシュといわれる、ユーザー毎に作るデータ構造もあり、こちらはバッチサイズ に無関係にメモリアクセスが多く、必要メモリも大きい • 「知識」がモデルパラメータに表現されるので、モデルパラメータが大きいのは多分今後ずっ とそう • 非常に頻繁に(無駄にも見える)アクセスをするのもかなりしょうがない(MoE とか、アクセス する領域をある程度減らすのはもちろん行われているが、何桁も下がることはなさそう?) LLM推論におけるメモリアクセス
  20. 24 • わりと本当にポスト富岳FSでの提案通り、MN-Core の演算コアにDRAMつけたもの • ポスト富岳FSで次世代に神戸大学/PFN提案が採用されないと決まった時に社内で開始 • お金もないし、LLM推論向けだけだとそんなに演算速度いらないので、ロジックのプロセスは古いも のを使う •

    DRAMは、カスタム設計で積層DRAMを作ってくれるDRAMベンダーと話をして開発すすめている ◦ メモリのプロセスも古い。20nm あたり。最先端とは4倍くらい違う。ビット単価はHBMに比べ ればはるかに安い • 基本的に社内プロジェクト • 防衛省ファンディングもいただいた • 性能とか詳しい話はもうちょっと先。来年の今頃にはなんかできてるはずなのでその辺で • まあでも、HBM4 とか使ったものに比べて1桁上のメモリバンド幅は実現できそう どんなものを作ろうとしているか?
  21. 25 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前の それ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった

    GRAPE-DR。西川さんがコンパイラ書い てくれたりした • 京の時、富岳の時にアクセラレータとして入れようという話はあったがこけた • 富岳でこけた頃にPFNができて、深層学習用プロセッサ作ろうよと • ポスト富岳向けにはメモリバンド幅が大きいものを検討したが、また文科省からはいら ないよと言われた。 • LLMはメモリバンド幅超重要、ということで、そっち向けのを作ろうよと まとめ