相対位置エンコーディング付きでも
Kernelized Attention
Shengjie Luo, Shanda Li, Tianle Cai, Di He, Dinglan Peng, Shuxin Zheng, Guolin Ke, Liwei
Wang, Tie-Yan Liu. Stable, Fast and Accurate: Kernelized Attention with Relative
Positional Encoding. In Proceedings of NeurIPS 2021.
原題
• [KrzysztofMarcin+2021] などにみられる Kernelized Attention はセルフアテ
ンションの計算量を系列長の 𝑂(𝑛2) から 𝑂(𝑛) に抑え、系列長約 500 のテキスト
データ等で Transformer に対して訓練速度・推論速度で優位性を得ている。
• 他方、相対位置エンコーディング (RPE) を採用したい場合は既存の Kernelized
Attention の枠組みでは取り扱うことができない。
• そこで、RPE がある場合の Kernelized Attention を提案する。このセルフアテ
ンションは愚直に計算すると結局 𝑂(𝑛2) になるが、この場合は FFT を適用して
𝑂(𝑛 log 𝑛) にできる。さらに Kernelize 前に正規化することで安定化を図る。
• 提案モデルは GLUE データセットタスクの一部等で 𝑂(𝑛2) 未満のアーキテクチャ
としてはベストな性能を発揮した。
• 長い文章 × RPE の現実における需要感はわからない。
• テキスト以外で効果が出ないか?
6