Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 Attention Residuals
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kyad
March 28, 2026
Technology
11
0
Share
論文紹介 Attention Residuals
kyad
March 28, 2026
More Decks by kyad
See All by kyad
論文紹介 mHC
kyad
0
23
論文紹介 CLIP, LLaVA, Penguin-VL
kyad
0
17
Other Decks in Technology
See All in Technology
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1.2k
PdM・Eng・QAで進めるAI駆動開発の現在地/aidd-with-pdm-eng-qa
shota_kusaba
0
170
雑談は、センサーだった
bitkey
PRO
2
220
AIが自律的に働く時代へ Amazon Quick で実現するAIエージェント紹介
koheiyoshikawa
0
200
全社統制を維持しながら現場負担をどう減らすか〜プラットフォームチームとセキュリティチームで進めたSecurity Hub活用によるAWS統制の見直し〜/secjaws-security-hub-custom-insights
mhrtech
1
270
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
870
「強制アップデート」か「チームの自律」か?エンタープライズが辿り着いたプラットフォームのハイブリッド運用/cloudnative-kaigi-hybrid-platform-operations
mhrtech
0
160
React 19×Rustツール 進化の「ズレ」を設計で埋める
remrem0090
1
110
Oracle Cloud Infrastructure presents managed, serverless MCP Servers for Oracle AI Database
thatjeffsmith
0
210
ボトムアップの改善の火を灯し続けろ!〜支援現場で学んだ、消えないための3つの打ち手〜 / 20260509 Kazuki Mori
shift_evolve
PRO
2
620
データモデリング通り #5オンライン勉強会: AIに『ビジネスの文脈』を教え込むデータモデリング
datayokocho
0
220
ボトムアップ限界を越える - 20チームを束る "Drive Map" / Beyond Bottom-Up: A 'Drive Map' for 20 Teams
kaonavi
0
170
Featured
See All Featured
The Limits of Empathy - UXLibs8
cassininazir
1
320
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
240
WCS-LA-2024
lcolladotor
0
580
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
180
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
2
1.4k
The Curse of the Amulet
leimatthew05
1
12k
Building the Perfect Custom Keyboard
takai
2
750
Are puppies a ranking factor?
jonoalderson
1
3.4k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
300
Transcript
Attention Residuals @kyad 2026/3/29 本資料中の図は論文から引用しています
Attention Residuals •書誌情報 [2603.15031] Attention Residuals 研究機関:Kimi Team •何をするもの? Transformerにおける残差接続の拡張
•解決しようとする課題 PreNorm正規化を使った残差接続では、 最初の層の影響が徐々に希釈され(PreNorm dilution)、 最後の方の層では最初の方の層の情報を取得しにくい Attention FFN [残差接続]
Attention Residuals 今までのレイヤ全てとの 重みづけ残差接続 •提案 学習パラメータ 各レイヤの出力 距離関数 重みづけ係数αの計算 過去の記憶(k)を
検索してくる(q)というお気持ち
Attention Residuals •提案 Transformerレイヤをブロックに分ける ブロック内では、普通の残差接続 ブロック間では、重みづけ残差接続
Attention Residuals •評価 Kimi Linearで評価。Val Lossが改善
Mixture-of-Depths Attention •書誌情報 [2603.15619] Mixture-of-Depths Attention 研究機関:ByteDance •何をするもの? Transformerにおける残差接続の拡張 •解決しようとする課題
従来の残差接続では、最初の層の影響が徐々に希釈され、 最後の方の層では最初の方の層の情報を取得しにくい 過去の全てを引用する方法だと計算量が爆発する
Mixture-of-Depths Attention •解決方法 普通の残差接続 過去全てを使う 残差接続 提案。過去全ての KVを使う 提案。今の状態(X)と過去のKVをまとめて Softmaxするので、統一的に正規化できる
今 過去 深い層のQが、過去のKVを 直接見に行ける
Mixture-of-Depths Attention •評価 MoDAは何もなしに比べて精度が改善している