Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Trn3 UltraServer
Search
chiaoi
December 23, 2025
0
21
Trn3 UltraServer
chiaoi
December 23, 2025
Tweet
Share
More Decks by chiaoi
See All by chiaoi
Neptune Analytics SSSP Δ-parameter
chiaoicchi
1
52
RAG入門
chiaoicchi
0
150
State machineはTurningの夢を見るか?
chiaoicchi
0
110
私なりのAIエージェントの理解と開発ツールの選び方
chiaoicchi
0
8
Fine-tuning Hands-on
chiaoicchi
0
12
kani
chiaoicchi
0
49
DeepRacer cup本戦 ~30秒の切り方~
chiaoicchi
0
25
Featured
See All Featured
How to Ace a Technical Interview
jacobian
281
24k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
100
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Evolving SEO for Evolving Search Engines
ryanjones
0
170
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
How to build a perfect <img>
jonoalderson
1
5.3k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Claude Code のすすめ
schroneko
67
220k
How to Talk to Developers About Accessibility
jct
2
160
HDC tutorial
michielstock
1
590
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
160
Transcript
AWS Neuron chiaoi
Trainium / Inferentia - Inf1 - Inf2 - Trn1 -
Trn2 - Trn3 GA NEW!! AWS Event YouTube
Trn2 と Trn3:何が変わった ?(トポロジー編)
モデルの構造の変化:dense から MoE https://arxiv.org/pdf/2101.03961 dense MoE
dense https://arxiv.org/pdf/2101.03961 FFNが重い(大きすぎて1チップに乗らない) → 複数のチップに分割して配置をする 各チップが担当部分を計算する 計算結果をまとめて全チップで共有 → AllReduce(隣接通信)の繰り返し
MoE https://arxiv.org/pdf/2101.03961 FFNを複数用意する → チップごとにFFNを用意 (2チップで一つとかもあり) 各TokenがRouterによってどのExpert の元にいくか決定される (重要なFFNだけ計算) →
任意のチップ間通信が行われる → 計算する部分が一部になるので高速 結果を元のチップに送る → 任意のチップ間通信が行われる
trn2u.48xlarge 縦 4つの Ring構造 横 4つの Ring構造 で合わせて16チップ 2D Torus
公式ドキュメント
Trn2 UltraServer trn2u.48xlarge ×4 の Ring構造(z軸) で64個のチップ 3D Torus 公式ドキュメント
Trn2 UltraServer 隣接しているチップ同士の通信は 高速。 (z方向は他より2倍遅い) AllReduceは速い (隣に順々に巡っていけばよい) 任意のチップ間通信は遅い (最悪ケースは早くとも6ホップ) 公式ドキュメント
Trn3 UltraServer Trn3チップ4つで1つのサーバー サーバー内はNeuronSwitch-v1で 接続されている 36個のサーバー同士は NeuronSwitch-v1で接続されている All-to-All 公式ドキュメント
Trn3 UltraServer チップ → L1スイッチ → L2スイッチ → L1スイッチ →
他のサーバーのチップ この通信が高速になるように → 任意のチップ間が均して速い 公式ドキュメント
Trn3 UltraServer のメリット MoEのアルゴリズム - RouterがどのExpertを使用するか計算する - 任意のチップ間通信がたくさん行われる チップ間の通信が速いと嬉しい。 →
常に高速で通信できる All to all の接続が生きる。 → denseにも対応できる 注意) 最悪ケースがボトルネックになるので均一に速いことが重要