Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Trn3 UltraServer
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
chiaoi
December 23, 2025
26
0
Share
Trn3 UltraServer
chiaoi
December 23, 2025
More Decks by chiaoi
See All by chiaoi
Neptune Analytics SSSP Δ-parameter
chiaoicchi
1
60
RAG入門
chiaoicchi
0
170
State machineはTurningの夢を見るか?
chiaoicchi
0
120
私なりのAIエージェントの理解と開発ツールの選び方
chiaoicchi
0
10
Fine-tuning Hands-on
chiaoicchi
0
15
kani
chiaoicchi
0
54
DeepRacer cup本戦 ~30秒の切り方~
chiaoicchi
0
26
Featured
See All Featured
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
360
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
290
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
350
Transcript
AWS Neuron chiaoi
Trainium / Inferentia - Inf1 - Inf2 - Trn1 -
Trn2 - Trn3 GA NEW!! AWS Event YouTube
Trn2 と Trn3:何が変わった ?(トポロジー編)
モデルの構造の変化:dense から MoE https://arxiv.org/pdf/2101.03961 dense MoE
dense https://arxiv.org/pdf/2101.03961 FFNが重い(大きすぎて1チップに乗らない) → 複数のチップに分割して配置をする 各チップが担当部分を計算する 計算結果をまとめて全チップで共有 → AllReduce(隣接通信)の繰り返し
MoE https://arxiv.org/pdf/2101.03961 FFNを複数用意する → チップごとにFFNを用意 (2チップで一つとかもあり) 各TokenがRouterによってどのExpert の元にいくか決定される (重要なFFNだけ計算) →
任意のチップ間通信が行われる → 計算する部分が一部になるので高速 結果を元のチップに送る → 任意のチップ間通信が行われる
trn2u.48xlarge 縦 4つの Ring構造 横 4つの Ring構造 で合わせて16チップ 2D Torus
公式ドキュメント
Trn2 UltraServer trn2u.48xlarge ×4 の Ring構造(z軸) で64個のチップ 3D Torus 公式ドキュメント
Trn2 UltraServer 隣接しているチップ同士の通信は 高速。 (z方向は他より2倍遅い) AllReduceは速い (隣に順々に巡っていけばよい) 任意のチップ間通信は遅い (最悪ケースは早くとも6ホップ) 公式ドキュメント
Trn3 UltraServer Trn3チップ4つで1つのサーバー サーバー内はNeuronSwitch-v1で 接続されている 36個のサーバー同士は NeuronSwitch-v1で接続されている All-to-All 公式ドキュメント
Trn3 UltraServer チップ → L1スイッチ → L2スイッチ → L1スイッチ →
他のサーバーのチップ この通信が高速になるように → 任意のチップ間が均して速い 公式ドキュメント
Trn3 UltraServer のメリット MoEのアルゴリズム - RouterがどのExpertを使用するか計算する - 任意のチップ間通信がたくさん行われる チップ間の通信が速いと嬉しい。 →
常に高速で通信できる All to all の接続が生きる。 → denseにも対応できる 注意) 最悪ケースがボトルネックになるので均一に速いことが重要