Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 mHC
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
kyad
March 28, 2026
Technology
26
0
Share
論文紹介 mHC
kyad
March 28, 2026
More Decks by kyad
See All by kyad
論文紹介 Attention Residuals
kyad
0
11
論文紹介 CLIP, LLaVA, Penguin-VL
kyad
0
17
Other Decks in Technology
See All in Technology
Oracle Cloud Infrastructure:2026年5月度サービス・アップデート
oracle4engineer
PRO
1
280
Sony_KMP_Journey_KotlinConf2026
sony
1
190
long-running-tasks
cipepser
2
450
エンジニアは生成AIと どのように向き合うべきか? ことばの意味という観点から
verypluming
3
310
Kiro CLI v2.0.0がやってきた!
kentapapa
0
240
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.7k
地元にいないローカルオーガナイザーの立ち回り
uvb_76
1
400
JEP 522 Deep Dive - G1 GC同期コスト削減によるスループット向上を徹底検証&解説
tabatad
1
490
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
110
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
4
1.8k
Kaggle未経験社員をメダリストに育てる「AIドラゴン桜」
lycorptech_jp
PRO
0
690
Claude code Orchestra
ozakiomumkj
3
800
Featured
See All Featured
Designing for Timeless Needs
cassininazir
1
240
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Raft: Consensus for Rubyists
vanstee
141
7.5k
Music & Morning Musume
bryan
47
7.2k
Fireside Chat
paigeccino
42
3.9k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
130
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
550
Claude Code のすすめ
schroneko
67
220k
Transcript
mHC @kyad 2026/3/29 本資料中の図は論文から引用しています
Hyper-Connections •書誌情報 [2409.19606] Hyper-Connections 研究機関:ByteDance •何をするもの? Transformerにおける残差接続の拡張 •解決しようとする課題 Transformerの残差接続は勾配消失を防ぐが、 層数が増えると、深い層の出力が似通ってしまう課題がある
Attention FFN [残差接続]
Hyper-Connections 従来 提案 人が決めてもよい(SHC)し、学習パラメータ(DHC)でも良い 提案は(c)と(d)の組合せ 提案は(c)と(d)の組合せ •提案
Hyper-Connections •提案 Hyper-Connections(HC)は、 逐次的な層配置(a)と 並列的な層配置(b)の 両方の特徴を併せ持つ
Hyper-Connections •提案 正規化を入れて安定させる
Hyper-Connections •評価 言語モデルと画像認識モデルで評価 Hyper-Connections(HC)は、 学習が安定し、収束が高速になった
mHC •書誌情報 [2512.24880] mHC: Manifold-Constrained Hyper-Connections 研究機関:DeepSeek •何をするもの? HCでの学習の不安定性 の課題を解決する方法
mHC •解決しようとする課題 パラメータ数がさらに多いと、HCでは学習が不安定になる において、制約なしで学習されると、Hの恒等写像特性(H=I)が失われる 恒等写像特性が重要な理由 ①勾配消失・爆発の抑制 ②信号の大きさを保ち、学習の安定性が増す HCの更新式
mHC •解決方法 Resudual側のHを二重確率行列に制約する 行を全部足すと1 列を全部足すと1 → 勾配の爆発を防げる Hを二重確率行列へ変換するには、Sinkhorn-Knoppのアルゴリズムが使われる 行の正規化 列の正規化
t=20くらいで良い
mHC •評価 mHCはHCと比べてLossや勾配ノルムが小さく、学習が安定している