Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 Attention Residuals

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for kyad kyad
March 28, 2026

論文紹介 Attention Residuals

Avatar for kyad

kyad

March 28, 2026

More Decks by kyad

Other Decks in Technology

Transcript

  1. Attention Residuals •書誌情報 [2603.15031] Attention Residuals 研究機関:Kimi Team •何をするもの? Transformerにおける残差接続の拡張

    •解決しようとする課題 PreNorm正規化を使った残差接続では、 最初の層の影響が徐々に希釈され(PreNorm dilution)、 最後の方の層では最初の方の層の情報を取得しにくい Attention FFN [残差接続]
  2. Mixture-of-Depths Attention •書誌情報 [2603.15619] Mixture-of-Depths Attention 研究機関:ByteDance •何をするもの? Transformerにおける残差接続の拡張 •解決しようとする課題

    従来の残差接続では、最初の層の影響が徐々に希釈され、 最後の方の層では最初の方の層の情報を取得しにくい 過去の全てを引用する方法だと計算量が爆発する