Slide 1

Slide 1 text

Bridging by Word: Image-Grounded Vocabulary Construction for Visual Captioning ACL網羅的サーベイ報告会 2019年11月2日(土) @hrs1985

Slide 2

Slide 2 text

自己紹介 twitter : @hrs1985 https://qiita.com/hrs1985 https://kiyo.qrunch.io/ 2 機械学習エンジニアをしています。 最近転職して7月から東京で働いてます。 元々は実験生物学者です。 ● 深層生成モデル ● 強化学習 ● 画像処理 ● 生物学・化学への機械学習の応用 に興味があります。自然言語処理も勉強を始めました。

Slide 3

Slide 3 text

論文の概要 タイトル Bridging by Word: Image-Grounded Vocabulary Construction for Visual Captioning (https://www.aclweb.org/anthology/P19-1652/) 著者 Zhihao Fan, Zhongyu Wei, Siyuan Wang, Xuanjing Huang 内容 ・Image Captioning において画像の特徴を基にした Image-Grounded Vocabulary を導入。 ・Image-Grounded Vocabulary Construction→text generation の2段階の学習を提案。

Slide 4

Slide 4 text

Image Captioning 画像からその画像の内容を示す文を推定 (生成) するタスク ⇨CNNで特徴抽出 ⇨抽出した特徴を基に RNNでテキスト生成 “2匹のカマキリが枝の上で腕を拡げている ”

Slide 5

Slide 5 text

Image Captioning にみられる表現の偏り 画像では地面に座っていたり立っていたりするにもかか わらず、”a woman sitting at a table” と表現されてい る。 これはRNNが画像のセマンティックスをきちんと理解せ ずにデータセット内のN-gramの頻度などに引きずられて しまっているためと考えられる。

Slide 6

Slide 6 text

提案手法

Slide 7

Slide 7 text

提案手法 CNN-RNN

Slide 8

Slide 8 text

提案手法 CNN-RNN vocabulary constructor

Slide 9

Slide 9 text

Two type constraint Hard Constraint Image-grounded vocabularyに含まれない単語をCNN-RNNが出力しないように制約を かける。 Soft Constraint RNNのテキスト生成に際してImage-grounded vocabularyによる重みをかける。

Slide 10

Slide 10 text

Overall Performance NIC: baseline model WC: Hard Constraint WA: Soft Constraint RL: reinforcement learning WC(GT): Ground-truth Vocabulary

Slide 11

Slide 11 text

最適 Vocabulary size Vocabulary の大きさは48-64程度が最適らしい(左図)。 また、学習のiterationが増えても安定して Image-Grounded Vocabulary を使用した方が良い結果となっている。

Slide 12

Slide 12 text

Novel Caption Ratio データセットにないCaptionを生成できる率も高い

Slide 13

Slide 13 text

Example 画像に出てきていない要素がテキスト に入り込まなくなっている!(左下の bench など)

Slide 14

Slide 14 text

Related Works テキスト生成に Vocabulary の側から補助情報を与えるような発想は他にも ・Wu, Yu, et al. "Neural response generation with dynamic vocabularies." Thirty-Second AAAI Conference on Artificial Intelligence. 2018. ・Yao, Ting, et al. "Incorporating copying mechanism in image captioning for learning novel objects." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. で提案されているらしいので今後読んでおきたいです。

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

Hard Constraint Image-Grounded Vocabulary Wiに含まれない単語wjが テキスト生成に際して絶対に選択されないようにマスクをかける。

Slide 17

Slide 17 text

Soft Constraint (雰囲気) 元のLSTMの式 Soft Constraint入りのLSTM 元の式にImage-Grounded Vocabulary 依存の S をweightとして入れ込んでいる。

Slide 18

Slide 18 text

学習手順 4段階 (大きくは2段階)の学習手順 1. Vocabulary Constructorの学習 2. Soft Constraint の下で損失関数をクロスエント ロピー誤差にしてText Generatorを学習 3. 強化学習(1) 4. Vocabulary Constraintを入れた強化学習(2)

Slide 19

Slide 19 text

Reinforcement Learning Hard Constraintの下での強化学習 (2) には以下のアルゴリズムを用いる