MN-Coreの設計思想/MTC25

MN-Coreの設計思想牧野淳一郎コンピュータアーキテクチャ担当CTO 株式会社Preferred Networks

2 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前のそれ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった
GRAPE-DR。西川さんがコンパイラ書いてくれたりした • 京の時、富岳の時にアクセラレータとして入れようという話はあったがこけた • 富岳でこけた頃にPFNができて、深層学習用プロセッサ作ろうよと • ポスト富岳向けにはメモリバンド幅が大きいものを検討したが、また文科省からはいらないよと言われた。 • LLMはメモリバンド幅超重要、ということで、そっち向けのを作ろうよと概要

3 • GRAPE • GRAPE-DR • MN-Core • MN-Core Lxxx
に至る道 ◦ ポスト富岳FS検討の概要 ◦ LLM推論でのメモリアクセス ◦ どんなものを作ろうとしているか • まとめ発表構成

4 • 最初：1988年、近田さん(当時野辺山助教授)提案。夏の学校 • 「学部３年で多体問題は難しいという話を聞いた」 • 近田提案は単なるO(N2)の重力を計算するプロセッサ
• 実際に作ったものは色々工夫 • 牧野はこの時D2。夏の学校はいってなかった。指導教官の杉本が乗ったので始まった GRAPE 近田さん

5 • 1989年にM1に来た伊藤智義さんが、まずは回路設計、開発の練習としてROMで8ビット演算する回路を作ってみよう、で開発開始 • 座標16ビット整数、途中8ビット対数、最後48 ビット整数で扱える天体もある（銀河とか）ということを牧野が怪しい理論と数値実験で確認。そういうハードに変更
• 詳しくは伊藤さんの本を。（「栄光なき天才たち」の原作者） GRAPE-1

6 • 汎用計算機でやっている計算をそのまま専用回路にする必要があるとは限らない。やってる計算・シミュレーション対象の系に応じた精度、フォーマットがある ◦ 適切なフォーマットにできれば回路規模が何桁も減る「こともある」 • 計算量がへるアルゴリズムに対応することも重要（GRAPE-1ではあえてやってない） ◦ GRAPE-1A(福重さんの卒業研究):
Barnes-Hut tree algorithm に対応 ◦ GRAPE-2(最終的には伊藤さん): 独立時間刻み法に対応 GRAPE-1色々 • 適切な通信速度をもたせることが性能には重要(GRAPE-1: GPIB、1A, 2, 3: VME) ◦ IFカードベンダ提供のI/Oライブラリでちゃんと速度がでるとは限らない。GPIBでもデバイスドライバ書いた

7 • 相互作用計算パイプラインを1チップ(5, 6 では複数パイプラインを1チップ)にいれて、それを多数並べたボードをさらに複数並べてシステム • 90年代にはNREは安かった(とはいえ後半に
は億を超えた、、、） • ソフトウェアからみた並列度・レイテンシを下げるために放送・総和ネットワークを考案専用LSI化と並列化

8 • 1つの粒子への力を多数のパイプラインで分担することで、ソフトウェアから見た並列度とレイテンシを下げた • このために放送・総和をするハードウェアを実装。G4ではボード間、G6ではボード内 • MN-Core
にずっとある放送・縮約ネットワークの原型放送・総和ネットワーク

9 • チップ内のネットワークはGRAPE-6のボード上ネットワークと同様な放送・縮約（「汎用」なので加算以外もできる） • プロセッサはFPUにメモリ要素をつけたもの。 Weitek 3364 とかとあまり変わらないが16語
とかじゃなくて 256語のメモリもつけた。これくらいあるとDGEMM でピーク性能だせる • 京のFSで、これベースで重要なアプリケーションは大体動く、というレポート出したけど、「汎用で目標達成できるからアクセラレータは不要」となった GRAPE-DR

10 • 非常に単純化すると、GRAPE-6 までの並列パイプラインプロセッサ（複数パイプラインへの放送機能、パイプライングループ間の縮約機能あり）のアプリケーション専用パイプラインの代わりに浮動小数点演算器＋ローカルメモリをおいたもの • コア間ネットワーク以外、つまりプロセッサコアそのものは1980-90年代の大規模 SIMD プロ
セッサとあまり変わらない。大きな違い：主記憶が分散ではなくて共有のオフチップメモリ ◦ 90nm のプロセッサとしては非常に高いピーク性能を実現できた。 500MHz で 256 DP/512SP GF。CELL は FP32 25.6GF ◦ 40nm の Fermi には負けてる。 • 専用パイプラインを汎用演算器に置き換えた分、トランジスタあたりの性能はだいぶ下がる。 Fermi 以降がMasPar 的な SIMD コアになったこともあって圧倒的優位とはいい難い感じになった GRAPE-DRの「思想」とその限界

11 • 2011年にレポートがでて2012-2013 年に FS をやった。N, F, H 3社がベクトル、スカラー、アクセラレータをやるという枠組み。牧野は東工大から理研
に移動 • アクセラレータは諸般の事情で結局やらないことに。 2016/3 から牧野は神戸大学本務に • 牧野はこの辺から行列乗算専用ユニットありでいいのではと色々考えていた • 記録によると、2016/2/25 に奥田さんからメイルもらって、2/26 にまだ本郷３丁目にあった PFN オフィスにいった模様。なんかやろうと言い出した最初は村主さん？ • NEDO「次世代人工知能技術・ロボット中核技術開発」に 5月に村主さん代表で応募。採択されて GPFN1始まる。さらにPFN自己資金で GPFN2 も。ポスト「京」 FSと MN-Core 村主さん

12 40nm でのテストチップ(NEDO予算で入る範囲)で、機械学習に使える行列乗算 (GPFNx の場合は行列ベクトル積)ができるプロセッサコアを GRAPE-DR のコアベースででっち上げる • 256ビット幅（なので
FP16 では 16x16、 FP32 では 8x8、FP64 では 4x4) の行列と対応する長さのベクトルの乗算ユニットに、 GRAPE-DR のコア４個をくっつける感じ • 真似した元： TMC CM-2。1ビットプロセッサの超並列SIMDプロセッサだったが、 R. ファインマンがこれに浮動小数点ユニットつけたらすごいスパコンになる、と言い出して 32プロセッサに１つ Weitek のFPUつけたもの GPFN1 https://upload.wikimedia.org/wikipedia/co mmons/1/1a/RichardFeynman-PaineMans ionWoods1984_copyrightTamikoThiel_bw .jpg https://upload.wikimedia.org/wikipedia/commons/thumb/9/ 94/MoMA_Exhibition%2C_CM-2_%2838801396912%29_ %28clip1%29.jpg/960px-MoMA_Exhibition%2C_CM-2_% 2838801396912%29_%28clip1%29.jpg

13 CM は MIT AI lab で始まったプロジェクトなので、native なプログラミング環境は Lisp •
1986年に Josh Barnes (BH treeの）が使った時には本当に Lisp しかなかった。開発してる人たちはみんな Lisper なのでそれでいいと思ってた模様。 Josh は Lisp 大好きっ子なので特に疑問なく使ってた ◦ 格子QCDのコードは誰かが書いてた。あとは、、、 • 牧野が 1987年に使った時には C* という Cuda のお爺さんくらいの言語が、ちょっと複雑な式書くとコンパイラが嘘コードを出すくらいで動いていた。 Fortran は開発用ディレクトリ予定地をみたような記憶が • 90年くらいには CM-Fortran (Fortran 90の配列拡張で SIMD演算を表現)が動いてた模様。これが HPF の原型になる。ここでようやく色々な人が使えるように ◦ CM-Fortranではマシンモデルが変わって、　 1ビットプロセッサではなくてそれを32個まとめたものを32ビットプロセッサとみなす感じに蛇足：CM-2 のプログラミング環境 Josh Barnes Guy Steele

14 • MN-Core: N12 ででかいチップ作る。 ◦ 4PE に行列乗算ユニットをつけるのは GPFN1と同じ ◦
GRAPE-DR に比べてPE数も多いので、3階層ネットワークに ◦ 4ダイ1パッケージで 532 FP16 TF と、パッケージあたり性能で N7 のA100より上。電力性能でも A100 を上回れた ◦ NVIDIA も V100 で Tensor Core 導入したので、勝ってはいるが圧倒的とまでは、、、 • MN-Core 2: N7 でのアップデート ◦ 性能高いがやはり圧倒的とまでは、、、 ◦ とはいえ、ダイ面積あたり性能は同じ N7で A100 の２倍くらい。他社の AIプロセッサは軒並み A7 より面積あたり性能低いので、わりと画期的 GPFN2/3 (MN-Core, MN-Core 2) 　とはいえなにかもう一つ飛び道具が欲しい

15 • ポスト富岳FS検討の概要 • LLM推論でのメモリアクセス • どんなものを作ろうとしているか MN-Core Lxxx に至る道

16 • 2022年から2024年まで。アーキテクチャ検討は理研と神戸大学・PFNの２チーム • 我々はMN-Core アーキテクチャに 3D積層DRAMをつけるアーキテクチャを検討した。 • MN-Core はもともとチップ内で共有キャッシュを持たない分散メモリアーキテクチャで、外付
けDRAMは共有 • ポスト富岳検討では、基本的に DRAM も非常に多数のブロックに分けて、演算コア毎につける。もともとあるオンチップのSRAMに加えてDRAMをつける想定とした。 • SIMDで、多くのアプリケーションでは全コアで同じアドレスをアクセスするようにできるので、 row アドレスアクセスやプリチャージは同期し、性能低下要因にならない • FP64 B/F で 2程度までを実現可能になり、多くのアプリケーションに関して古典ベクトル機並の実行効率が期待できるポスト富岳 FS検討の概要でもポスト富岳には採用されなかった(京、富岳に続き３度目)

17 メモリ技術の歴史 • 黎明期（１９５０年代）：水銀遅延線・ウィリアムス管 • 初期（６０年代）：　磁気ドラム・磁気コア • そのあと現代まで：半導体メモリ(DRAM) •
磁気コアからDRAMへの変化でアクセスタイム・バンド幅の両方が桁違いに向上。Cray-1 のようなベクトルアーキテクチャを可能にした • そのあと50年間DRAMが世界を支配なぜ３次元積層メモリ？ Wikipedia から。 EDSACメモリ Wikipedia から。 IBM701のウィリアムス管 Wikipedia から。 CDC6600の磁気コアメモリ Wikipedia から。 Intel 1103 DRAM(1970年発表）

18 DRAMの進化 • 容量は (2010年頃までは)指数関数的に増えた ◦ 1971: 1kbits, 2020: 8Gbits。７桁増えた
• 速度は、、、 ◦ RAS サイクルタイム 1971: 580ns 今のDDR4: 40ns くらい。50年間で15倍 • Fast Page mode: row address をいれてから column アドレスを何度も入れられる • Synchronous DRAM: 制御回路とデータ I/O 回路をクロック同期に。 • DDR DRAM: クロック上下でデータやりとり • DDR2, 3, 4, 5, 6: データ転送のクロックどんどんあげる。 • GDDRx: データ転送のクロックもっとあげる • LPDDRx: 特に I/O の電圧さげて消費電力を下げる

19 DRAMの消費電力とバンド幅 • サイクルタイムは遅いが原理的なバンド幅は大きい ◦ 例： 64Mbit DRAM, row address
11bit, column address 11 bit, 16 bit幅, プロセスによるが 0.2mm2くらい ◦ page size = 32kbits (2k x 32k のアレイ） ◦ 「原理的には」 40ns で 32kbits 読み書きできる= 100GB/s, 電力は 0.1pJ/bit 以下。 ◦ 100mm2のチップで50TB/s 40W ◦ 「原理的」の意味は、column address いれないで32kbits 全部読み書きすれば。 ◦ 普通に16ビット幅で I/O すると、 1GHz DDR でまわしても 4GB/s. 消費電力は配線長できまる • DRAMのバンド幅、消費エネルギーはここ 15年くらいはプロセス技術とあんまり関係なくて、パッケージングとインターフェース規格だけで決まる ◦ メモリセルのキャパシタンスは微細化しても減らせないが、そもそも消費電力の主要な部分ではない ◦ 電力のほとんどはメモリチップとロジックチップの間の配線の充放電に使われる

20 最近のDRAMの変化 our goal DDR 〜 20pJ/bit GDDR ~ 10pJ/bit
HBM 〜 4pJ/bit アクセスレイテンシは基本的に変わらない。 DRAMセル自体の内部構造には変化がないため。プリチャージサイクルが 40ns とかアクセスエネルギーは DIMM メモリから HBM までで1/5 程度。配線が短くなって電力がへる GPUの演算性能は(低精度化もあって）結構上がるのにメモリバンド幅は上がらなくなっている

21 HBMの次 • DRAMのアクセスエネルギーの主要部分は配線の充放電。これはドライブ電圧と配線の長さだけで決まる。（グラウンドプレーン上の配線１本のキャパシタンス＝0.2pF/mm) • 100mm
あると 20pF。1Vで10pJ/bit • 2mm くらいにできると 0.2pJとか。 • DRAM自体は色々で 0.3-0.5pJ/bit • 2mm にするには積層しかない • 必要な要素技術は揃っている TSVとハイブリッドボンディング

22 ３D積層DRAMの要素技術 • TSV：ダイに穴あけて配線通す。技術的には 1μｍ以下のピッチが可能 • 接合技術 ◦ ハイブリッドボンディング：技術的には 1μｍ以下のピッチが可能。量産での採用例はソニーの
CMOSセンサの他、キオクシアの NAND, AMD Zen等 ◦ マイクロバンプ　技術的には５ μｍくらいまで Wikipedia HBMの項目から穴開けるのがTSV HBMではダイ間接合はマイクロバンプ • したいことはカスタム設計のDRAMとロジックの積層 • 数社のDRAMベンダが提供開始している • 量産製品はまだない（マイニング用でなんかある）

23 • これまでの機械学習モデルとは全然違う ◦ モデルパラメータ数が桁違い。「Large」の由来。そこそこ賢いモデルは 400Bパラメータとか。一方、従来の画像認識だと40Mとか。４桁違う。 ◦ この全パラメータを繰り返しアクセス（出力１単語毎に全部とか） ◦
KVキャッシュといわれる、ユーザー毎に作るデータ構造もあり、こちらはバッチサイズに無関係にメモリアクセスが多く、必要メモリも大きい • 「知識」がモデルパラメータに表現されるので、モデルパラメータが大きいのは多分今後ずっとそう • 非常に頻繁に（無駄にも見える）アクセスをするのもかなりしょうがない（MoE とか、アクセスする領域をある程度減らすのはもちろん行われているが、何桁も下がることはなさそう？） LLM推論におけるメモリアクセス

24 • わりと本当にポスト富岳FSでの提案通り、MN-Core の演算コアにDRAMつけたもの • ポスト富岳FSで次世代に神戸大学/PFN提案が採用されないと決まった時に社内で開始 • お金もないし、LLM推論向けだけだとそんなに演算速度いらないので、ロジックのプロセスは古いものを使う •
DRAMは、カスタム設計で積層DRAMを作ってくれるDRAMベンダーと話をして開発すすめている ◦ メモリのプロセスも古い。20nm あたり。最先端とは4倍くらい違う。ビット単価はHBMに比べればはるかに安い • 基本的に社内プロジェクト • 防衛省ファンディングもいただいた • 性能とか詳しい話はもうちょっと先。来年の今頃にはなんかできてるはずなのでその辺で • まあでも、HBM4 とか使ったものに比べて１桁上のメモリバンド幅は実現できそうどんなものを作ろうとしているか？

25 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前のそれ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった
GRAPE-DR。西川さんがコンパイラ書いてくれたりした • 京の時、富岳の時にアクセラレータとして入れようという話はあったがこけた • 富岳でこけた頃にPFNができて、深層学習用プロセッサ作ろうよと • ポスト富岳向けにはメモリバンド幅が大きいものを検討したが、また文科省からはいらないよと言われた。 • LLMはメモリバンド幅超重要、ということで、そっち向けのを作ろうよとまとめ

MN-Coreの設計思想/MTC25

MN-Coreの設計思想/MTC25

Preferred Networks PRO

More Decks by Preferred Networks

Featured

Transcript

MN-Coreの設計思想牧野淳一郎コンピュータアーキテクチャ担当CTO 株式会社Preferred Networks

2 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前のそれ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった

3 • GRAPE • GRAPE-DR • MN-Core • MN-Core Lxxx

4 • 最初：1988年、近田さん(当時野辺山助教授)提案。夏の学校 • 「学部３年で多体問題は難しいという話を聞いた」 • 近田提案は単なるO(N2)の重力を計算するプロセッサ

7 • 相互作用計算パイプラインを1チップ(5, 6 では複数パイプラインを1チップ)にいれて、それを多数並べたボードをさらに複数並べてシステム • 90年代にはNREは安かった(とはいえ後半に

8 • 1つの粒子への力を多数のパイプラインで分担することで、ソフトウェアから見た並列度とレイテンシを下げた • このために放送・総和をするハードウェアを実装。G4ではボード間、G6ではボード内 • MN-Core

9 • チップ内のネットワークはGRAPE-6のボード上ネットワークと同様な放送・縮約（「汎用」なので加算以外もできる） • プロセッサはFPUにメモリ要素をつけたもの。 Weitek 3364 とかとあまり変わらないが16語

11 • 2011年にレポートがでて2012-2013 年に FS をやった。N, F, H 3社がベクトル、スカラー、アクセラレータをやるという枠組み。牧野は東工大から理研

12 40nm でのテストチップ(NEDO予算で入る範囲)で、機械学習に使える行列乗算 (GPFNx の場合は行列ベクトル積)ができるプロセッサコアを GRAPE-DR のコアベースででっち上げる • 256ビット幅（なので

13 CM は MIT AI lab で始まったプロジェクトなので、native なプログラミング環境は Lisp •

14 • MN-Core: N12 ででかいチップ作る。 ◦ 4PE に行列乗算ユニットをつけるのは GPFN1と同じ ◦

15 • ポスト富岳FS検討の概要 • LLM推論でのメモリアクセス • どんなものを作ろうとしているか MN-Core Lxxx に至る道

17 メモリ技術の歴史 • 黎明期（１９５０年代）：水銀遅延線・ウィリアムス管 • 初期（６０年代）：　磁気ドラム・磁気コア • そのあと現代まで：半導体メモリ(DRAM) •

18 DRAMの進化 • 容量は (2010年頃までは)指数関数的に増えた ◦ 1971: 1kbits, 2020: 8Gbits。７桁増えた

19 DRAMの消費電力とバンド幅 • サイクルタイムは遅いが原理的なバンド幅は大きい ◦ 例： 64Mbit DRAM, row address

20 最近のDRAMの変化 our goal DDR 〜 20pJ/bit GDDR ~ 10pJ/bit

21 HBMの次 • DRAMのアクセスエネルギーの主要部分は配線の充放電。これはドライブ電圧と配線の長さだけで決まる。（グラウンドプレーン上の配線１本のキャパシタンス＝0.2pF/mm) • 100mm

22 ３D積層DRAMの要素技術 • TSV：ダイに穴あけて配線通す。技術的には 1μｍ以下のピッチが可能 • 接合技術 ◦ ハイブリッドボンディング：技術的には 1μｍ以下のピッチが可能。量産での採用例はソニーの

25 • 思想、といわれてもなかなか難しいので、どっちかいうとまず歴史、MN-Core の前のそれ、みたいなところから • 最初は GRAPEで、「重力多体問題専用アクセラレータ」 • その「発展」がSIMDアクセラレータになった