Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf

kiyo
November 02, 2019

 Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf

kiyo

November 02, 2019
Tweet

More Decks by kiyo

Other Decks in Technology

Transcript

  1. 自己紹介 twitter : @hrs1985 https://qiita.com/hrs1985 https://kiyo.qrunch.io/ 2 機械学習エンジニアをしています。 最近転職して7月から東京で働いてます。 元々は実験生物学者です。

    • 深層生成モデル • 強化学習 • 画像処理 • 生物学・化学への機械学習の応用 に興味があります。自然言語処理も勉強を始めました。
  2. 論文の概要 タイトル Bridging by Word: Image-Grounded Vocabulary Construction for Visual

    Captioning (https://www.aclweb.org/anthology/P19-1652/) 著者 Zhihao Fan, Zhongyu Wei, Siyuan Wang, Xuanjing Huang 内容 ・Image Captioning において画像の特徴を基にした Image-Grounded Vocabulary を導入。 ・Image-Grounded Vocabulary Construction→text generation の2段階の学習を提案。
  3. Image Captioning にみられる表現の偏り 画像では地面に座っていたり立っていたりするにもかか わらず、”a woman sitting at a table”

    と表現されてい る。 これはRNNが画像のセマンティックスをきちんと理解せ ずにデータセット内のN-gramの頻度などに引きずられて しまっているためと考えられる。
  4. Overall Performance NIC: baseline model WC: Hard Constraint WA: Soft

    Constraint RL: reinforcement learning WC(GT): Ground-truth Vocabulary
  5. Related Works テキスト生成に Vocabulary の側から補助情報を与えるような発想は他にも ・Wu, Yu, et al. "Neural

    response generation with dynamic vocabularies." Thirty-Second AAAI Conference on Artificial Intelligence. 2018. ・Yao, Ting, et al. "Incorporating copying mechanism in image captioning for learning novel objects." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. で提案されているらしいので今後読んでおきたいです。
  6. 学習手順 4段階 (大きくは2段階)の学習手順 1. Vocabulary Constructorの学習 2. Soft Constraint の下で損失関数をクロスエント

    ロピー誤差にしてText Generatorを学習 3. 強化学習(1) 4. Vocabulary Constraintを入れた強化学習(2)