Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Attention Residuals
Search
kyad
March 28, 2026
Technology
11
0
Share
論文紹介 Attention Residuals
kyad
March 28, 2026
More Decks by kyad
See All by kyad
論文紹介 mHC
kyad
0
26
論文紹介 CLIP, LLaVA, Penguin-VL
kyad
0
17
Other Decks in Technology
See All in Technology
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
180
コードレビューを制するチームがソフトウェアデリバリーのフローを制す / Beyond Code Review: Distributing Its Responsibilities Across the SDLC
mtx2s
3
530
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
360
OpenID Connectによるサービス間連携
takesection
0
150
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
440
Gradle×GitHub_ActionsでCI時間を約50%短縮 ジョブ分割の設計と落とし穴 / Cutting CI Time by ~50% with Gradle and GitHub Actions: Job-Splitting Design and Pitfalls
takatty
0
550
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
710
JEP 522 Deep Dive - G1 GC同期コスト削減によるスループット向上を徹底検証&解説
tabatad
1
500
プラットフォームエンジニア ワークショップ/ platform-workshop
databricksjapan
0
150
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
110
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.8k
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
4
1.1k
Featured
See All Featured
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
380
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
150
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
430
Designing for humans not robots
tammielis
254
26k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
HDC tutorial
michielstock
2
680
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
A Tale of Four Properties
chriscoyier
163
24k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Transcript
Attention Residuals @kyad 2026/3/29 本資料中の図は論文から引用しています
Attention Residuals •書誌情報 [2603.15031] Attention Residuals 研究機関:Kimi Team •何をするもの? Transformerにおける残差接続の拡張
•解決しようとする課題 PreNorm正規化を使った残差接続では、 最初の層の影響が徐々に希釈され(PreNorm dilution)、 最後の方の層では最初の方の層の情報を取得しにくい Attention FFN [残差接続]
Attention Residuals 今までのレイヤ全てとの 重みづけ残差接続 •提案 学習パラメータ 各レイヤの出力 距離関数 重みづけ係数αの計算 過去の記憶(k)を
検索してくる(q)というお気持ち
Attention Residuals •提案 Transformerレイヤをブロックに分ける ブロック内では、普通の残差接続 ブロック間では、重みづけ残差接続
Attention Residuals •評価 Kimi Linearで評価。Val Lossが改善
Mixture-of-Depths Attention •書誌情報 [2603.15619] Mixture-of-Depths Attention 研究機関:ByteDance •何をするもの? Transformerにおける残差接続の拡張 •解決しようとする課題
従来の残差接続では、最初の層の影響が徐々に希釈され、 最後の方の層では最初の方の層の情報を取得しにくい 過去の全てを引用する方法だと計算量が爆発する
Mixture-of-Depths Attention •解決方法 普通の残差接続 過去全てを使う 残差接続 提案。過去全ての KVを使う 提案。今の状態(X)と過去のKVをまとめて Softmaxするので、統一的に正規化できる
今 過去 深い層のQが、過去のKVを 直接見に行ける
Mixture-of-Depths Attention •評価 MoDAは何もなしに比べて精度が改善している