Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Attention on Attention for Image Captioning

kiyo
September 13, 2019

Attention on Attention for Image Captioning

2019年の9月13日に #7【画像処理 & 機械学習】論文LT会! (https://lpixel.connpass.com/event/144587/) で発表を行った資料です。

kiyo

September 13, 2019
Tweet

More Decks by kiyo

Other Decks in Technology

Transcript

  1. Attention on
    Attention for
    Image Captioning
    #7【画像処理 & 機械学習】論文LT会
    2019年9月13日
    @hrs1985
    Huang et al.
    https://arxiv.org/abs/1908.06954 (ICCV2019)

    View Slide

  2. 自己紹介
    twitter : @hrs1985
    https://qiita.com/hrs1985
    https://kiyo.qrunch.io/
    2
    機械学習エンジニアをしています。
    最近転職して7月から東京で働いてます。
    前々職では実験生物学やってました。
    ● 深層生成モデル
    ● 強化学習
    ● 画像処理
    ● 生物学・化学への機械学習の応用
    に興味があります。

    View Slide

  3. 今回読んだ論文
    タイトル
    Attention on Attention for Image Captioning
    (https://arxiv.org/abs/1908.06954)
    3
    著者
    Lun Huang, Wenmin Wang, Jie Chen, Xiao-Yong Wei
    内容
    ❏ Attention 機構にゲートを導入した
    Attention on Attention (AoA) を提案
    ❏ AoA を Image Captioning タスクに使用して
    いくつかのデータセットに対して SoTA

    View Slide

  4. Image Captioning
    4
    画像からその画像の内容を示す文を推定 (生成) するタスク
    “2匹のカマキリが枝の上で腕を拡げている ”
    ⇒正しく推定するには物体の数や位置関係の理解が重要

    View Slide

  5. Attention
    5
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’

    View Slide

  6. Attention
    6
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’

    View Slide

  7. Attention
    7
    この軸で softmax をとる
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’

    View Slide

  8. Attention
    8
    Value’
    Softmax の出力を係数行列とし、
    各 vi について線形和を取る
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’

    View Slide

  9. Problem at Attention
    9
    Similarity がどれも低い行 (Queryに対して相関している key がない) 場
    合でも消去法的に一番値の高い部分が残ってしまう。
    この軸で softmax をとる

    View Slide

  10. Attention on Attention
    10
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’

    View Slide

  11. Attention on Attention
    11
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’
    concat
    linear linear
    sigmoid
    multiply
    Information
    Gate

    View Slide

  12. Gate により弱い similarity の影響を過剰に強く見積もることを防ぐ
    Attention on Attention
    12
    similarity
    softmax
    Query
    Key
    Value
    matmul
    Value’
    concat
    linear linear
    sigmoid
    multiply
    Information
    Gate

    View Slide

  13. Network Architecture of AoANet
    13
    ベースは画像→潜在表現→文章の Encoder-Decoder モデル
    赤で囲んだ部分に Attention on Attention を使用

    View Slide

  14. Network Architecture of AoANet
    14
    Encoder の Refining 部分に Attention on Attention を導入

    View Slide

  15. Network Architecture of AoANet
    15
    Decoder 側にも LSTM と Attention の先に Attention on Attention を導入

    View Slide

  16. Experiments
    16
    ほとんどのケースで SGAEを上回るスコア

    View Slide

  17. Experiments
    17
    Baseline は著者が再実装した Up-Down
    model
    AoANet の結果が優れている点として以
    下の2つを挙げています。
    1. 物体の数を正確に捉えている (上
    から 1 , 2 番目)
    2. 物体同士の位置関係を正確に捉
    えている (上から 1, 4 番目)
    個人的には 3 番目の「鏡に映った自分を
    見ている猫」を正確に記述できている点が
    すごいと思いました。

    View Slide

  18. Experiments
    18
    Attention の結果を直接出力に用いた Base では
    テディベアが本の上に座っていることになってしまっています

    View Slide

  19. 感想
    シンプルなアイデアで大きな効果を挙げていてよいと思いました。
    まだ不勉強なので実際に優れているかどうかは他の文献の内容も読んで
    から判断したいです。
    Attention 機構の拡張は色々提案されていますが、今回の Attention on
    Attention は他のアイデアとの組み合わせも容易なので可能性を感じまし
    た。Image Captioning 以外のタスクへも適用できそうです。
    感想・次に読みたい文献
    次に読みたい文献
    Anderson et al. Bottom-up and top-down attention for image captioning and
    visual question answering. In CVPR, 2018. (Up-Down)
    Yang et al. Auto-encoding scene graphs for image captioning. In CVPR,
    June 2019. (SGAE)
    19

    View Slide