Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 mHC
Search
kyad
March 28, 2026
Technology
23
0
Share
論文紹介 mHC
kyad
March 28, 2026
More Decks by kyad
See All by kyad
論文紹介 Attention Residuals
kyad
0
11
論文紹介 CLIP, LLaVA, Penguin-VL
kyad
0
17
Other Decks in Technology
See All in Technology
AI対話分析の夢と、汚いデータの現実 Looker / Dataplex / Dataform で実現する品質ファーストな基盤設計
waiwai2111
0
340
AI時代に越境し、 組織を変えるQAスキルの正体 / QA Skills for Transforming an Organization
mii3king
5
4.2k
AI駆動開発で生産性を追いかけたら、行き着いたのは品質とシフトレフトだった
littlehands
0
470
いつの間にかデータエンジニア以外の業務も増えていたけど、意外と経験が役に立ってる
zozotech
PRO
0
370
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
4
450
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1.2k
サービスの信頼性を高めるため、形骸化した「プロダクションミーティング」を立て直すまでの取り組み
stefafafan
1
260
QAエンジニアはどうやって プロダクト議論の場に入れるのか?
moritamasami
2
410
ハーネスエンジニアリング入門
hatyibei
0
120
要件定義の精度を高めるための型と生成AIの活用 / Using Types and Generative AI to Improve the Accuracy of Requirements Definition
haru860
0
320
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
8k
Purview 勉強会報告 Microsoft Purview 入門しようとしてみた
masakichixo
1
250
Featured
See All Featured
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
110
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.1k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
440
Amusing Abliteration
ianozsvald
1
160
How GitHub (no longer) Works
holman
316
150k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
360
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
340
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
54k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
120
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.3k
Optimizing for Happiness
mojombo
378
71k
Transcript
mHC @kyad 2026/3/29 本資料中の図は論文から引用しています
Hyper-Connections •書誌情報 [2409.19606] Hyper-Connections 研究機関:ByteDance •何をするもの? Transformerにおける残差接続の拡張 •解決しようとする課題 Transformerの残差接続は勾配消失を防ぐが、 層数が増えると、深い層の出力が似通ってしまう課題がある
Attention FFN [残差接続]
Hyper-Connections 従来 提案 人が決めてもよい(SHC)し、学習パラメータ(DHC)でも良い 提案は(c)と(d)の組合せ 提案は(c)と(d)の組合せ •提案
Hyper-Connections •提案 Hyper-Connections(HC)は、 逐次的な層配置(a)と 並列的な層配置(b)の 両方の特徴を併せ持つ
Hyper-Connections •提案 正規化を入れて安定させる
Hyper-Connections •評価 言語モデルと画像認識モデルで評価 Hyper-Connections(HC)は、 学習が安定し、収束が高速になった
mHC •書誌情報 [2512.24880] mHC: Manifold-Constrained Hyper-Connections 研究機関:DeepSeek •何をするもの? HCでの学習の不安定性 の課題を解決する方法
mHC •解決しようとする課題 パラメータ数がさらに多いと、HCでは学習が不安定になる において、制約なしで学習されると、Hの恒等写像特性(H=I)が失われる 恒等写像特性が重要な理由 ①勾配消失・爆発の抑制 ②信号の大きさを保ち、学習の安定性が増す HCの更新式
mHC •解決方法 Resudual側のHを二重確率行列に制約する 行を全部足すと1 列を全部足すと1 → 勾配の爆発を防げる Hを二重確率行列へ変換するには、Sinkhorn-Knoppのアルゴリズムが使われる 行の正規化 列の正規化
t=20くらいで良い
mHC •評価 mHCはHCと比べてLossや勾配ノルムが小さく、学習が安定している