Attention on Attention for Image Captioning

Slide 1

Slide 1 text

Attention on Attention for Image Captioning #7【画像処理 & 機械学習】論文LT会 2019年9月13日 @hrs1985 Huang et al. https://arxiv.org/abs/1908.06954 (ICCV2019)

Slide 2

Slide 2 text

自己紹介 twitter : @hrs1985 https://qiita.com/hrs1985 https://kiyo.qrunch.io/ 2 機械学習エンジニアをしています。最近転職して7月から東京で働いてます。前々職では実験生物学やってました。 ● 深層生成モデル ● 強化学習 ● 画像処理 ● 生物学・化学への機械学習の応用に興味があります。

Slide 3

Slide 3 text

今回読んだ論文タイトル Attention on Attention for Image Captioning (https://arxiv.org/abs/1908.06954) 3 著者 Lun Huang, Wenmin Wang, Jie Chen, Xiao-Yong Wei 内容 ❏ Attention 機構にゲートを導入した Attention on Attention (AoA) を提案 ❏ AoA を Image Captioning タスクに使用していくつかのデータセットに対して SoTA

Slide 4

Slide 4 text

Image Captioning 4 画像からその画像の内容を示す文を推定 (生成) するタスク “2匹のカマキリが枝の上で腕を拡げている ” ⇒正しく推定するには物体の数や位置関係の理解が重要

Slide 5

Slide 5 text

Attention 5 similarity softmax Query Key Value matmul Value’

Slide 6

Slide 6 text

Attention 6 similarity softmax Query Key Value matmul Value’

Slide 7

Slide 7 text

Attention 7 この軸で softmax をとる similarity softmax Query Key Value matmul Value’

Slide 8

Slide 8 text

Attention 8 Value’ Softmax の出力を係数行列とし、各 vi について線形和を取る similarity softmax Query Key Value matmul Value’

Slide 9

Slide 9 text

Problem at Attention 9 Similarity がどれも低い行 (Queryに対して相関している key がない) 場合でも消去法的に一番値の高い部分が残ってしまう。この軸で softmax をとる

Slide 10

Slide 10 text

Attention on Attention 10 similarity softmax Query Key Value matmul Value’

Slide 11

Slide 11 text

Attention on Attention 11 similarity softmax Query Key Value matmul Value’ concat linear linear sigmoid multiply Information Gate

Slide 12

Slide 12 text

Gate により弱い similarity の影響を過剰に強く見積もることを防ぐ Attention on Attention 12 similarity softmax Query Key Value matmul Value’ concat linear linear sigmoid multiply Information Gate

Slide 13

Slide 13 text

Network Architecture of AoANet 13 ベースは画像→潜在表現→文章の Encoder-Decoder モデル赤で囲んだ部分に Attention on Attention を使用

Slide 14

Slide 14 text

Network Architecture of AoANet 14 Encoder の Refining 部分に Attention on Attention を導入

Slide 15

Slide 15 text

Network Architecture of AoANet 15 Decoder 側にも LSTM と Attention の先に Attention on Attention を導入

Slide 16

Slide 16 text

Experiments 16 ほとんどのケースで SGAEを上回るスコア

Slide 17

Slide 17 text

Experiments 17 Baseline は著者が再実装した Up-Down model AoANet の結果が優れている点として以下の2つを挙げています。 1. 物体の数を正確に捉えている (上から 1 , 2 番目) 2. 物体同士の位置関係を正確に捉えている (上から 1, 4 番目) 個人的には 3 番目の「鏡に映った自分を見ている猫」を正確に記述できている点がすごいと思いました。

Slide 18

Slide 18 text

Experiments 18 Attention の結果を直接出力に用いた Base ではテディベアが本の上に座っていることになってしまっています

Slide 19

Slide 19 text

感想シンプルなアイデアで大きな効果を挙げていてよいと思いました。まだ不勉強なので実際に優れているかどうかは他の文献の内容も読んでから判断したいです。 Attention 機構の拡張は色々提案されていますが、今回の Attention on Attention は他のアイデアとの組み合わせも容易なので可能性を感じました。Image Captioning 以外のタスクへも適用できそうです。感想・次に読みたい文献次に読みたい文献 Anderson et al. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018. (Up-Down) Yang et al. Auto-encoding scene graphs for image captioning. In CVPR, June 2019. (SGAE) 19