論文紹介 / Transitional Adaptation of Pretrained Models for Visual Storytelling

Slide 1

Slide 1 text

Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回全⽇本コンピュータビジョン勉強会 CVPR2021読み会（後編） My Website 2021/7/31 1

Slide 2

Slide 2 text

前⼝上 2021/7/31 2

Slide 3

Slide 3 text

今回ご紹介する論⽂ 2021/7/31 3 https://openaccess.thecvf.com/content/CVPR2021/papers/ Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visu al_Storytelling_CVPR_2021_paper.pdf

Slide 4

Slide 4 text

論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 • Vision Encoder と Language Model を”調和させる” transitional adaptation がチャレンジングな V&L タスクで有⽤であると主張し、これに基づいた TAPM を提案、連続的な静⽌画や動画のキャプション⽣成で性能向上を確認 • Vision & Language の様々なタスクに応⽤しうるものとして、このアプローチを知ることは有⽤ではないか？ 2021/7/31 4

Slide 5

Slide 5 text

お前は誰だ – 発表者の⽴場・視点（１） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った？🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からないのですが」と素⼈質問（原義）する⼈ • 特に Story Generation や Story Understanding について、研究だったりしなかったりする活動 2021/7/31 5

Slide 6

Slide 6 text

お前は誰だ – 発表者の⽴場・視点（２） • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード： Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った？🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からないのですが」と素⼈質問（原義）する⼈ • 特に Story Generation や Story Understanding について、研究だったりしなかったりする活動 2021/7/31 6 ちょっとは V&L や CV が分かっている雰囲気を出したい！ Story と絡めれば、⾃分にもとっつきやすいのでは？？

Slide 7

Slide 7 text

お前は誰だ – 発表者の⽴場・視点（３） • V&L Transformer ちょっとわかる（原義） • 森友亮†, 上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像からの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理学会第27回年次⼤会ワークショップ), 福岡（オンライン）, 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 7 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$

Slide 8

Slide 8 text

お前は誰だ – 発表者の⽴場・視点（４） • V&L Transformer ちょっとわかる（原義） • 森友亮†, 上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像からの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理学会第27回年次⼤会ワークショップ), 福岡（オンライン）, 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 8 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$ 画像からの物語⽂⽣成

Slide 9

Slide 9 text

画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016] • Storytelling from Images [Liu+, 2017] • 単⼀画像 → テキスト • Image Narrative [Shin+, 2018] • Poetry Generation [Liu+, 2018] 2021/7/31 9 “Visual Storytelling” [Huang+, 2016] “Let Your Photos Talk: Generating Narrative Paragraph for Photo Stream via Bidirectional Attention Recurrent Neural Networks” [Liu+, 2017] “Customized Image Narrative Generation via Interactive Visual Question Generation and Answering” [Shin+, 2018] ”Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training” [Liu+, 2018] [Liu+, 2017]

Slide 10

Slide 10 text

VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の１枚ごとに１⽂を付与 • 1st release の際は “Sequential Images Narrative Dataset (SIND) “ という名称だった。VIST は SIND v.2 とされる • 各画像で独⽴のキャプション、画像の連続性を考慮したキャプション、ストーリーとしてのテキスト → すべて異なるもの 2021/7/31 10

Slide 11

Slide 11 text

本題 2021/7/31 11

Slide 12

Slide 12 text

紹介論⽂の問題意識（１） • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder • テキストを⽣成する language model • これらをつなぎ合わせるための harmonized architecture • しかし、visual encoder と language model はそれぞれの⼤規模データセットで学習されており、共通する基盤はない。情報の差を調和させる transitional adaptation step はこれまで提案されていない • 例：ImageNet, Wikipedia 2021/7/31 12

Slide 13

Slide 13 text

紹介論⽂の問題意識（２） • このような pre-trained models を downstream task に応じて fine-tuning するとき、 language generation において pre-trained models を finetuning するときと同様に、catastrophic forgetting のような問題が発⽣するのではないか？ • 既存のキャプション⽣成モデルは、vision の⽂脈を⼗分に考慮できていないという問題が指摘されている 2021/7/31 13

Slide 14

Slide 14 text

紹介論⽂の提案 • 別々に pre-train された visual encoder と language model の間の協調性を向上させるという、より単純な⽬的を設定することが、⽬標とするタスクにおいて、より早くより⾼い性能向上を可能にするのではないか • この考えのもとに、visual storytelling のための Transitional Adaptation of Pre-trained Model (TAPM) を提案 2021/7/31 14

Slide 15

Slide 15 text

紹介論⽂の貢献 • Adaptation loss が visual encoder と language model をつなぎ合わせる上で効果的であることを⽰した • テキストラベルを持たない連続的な静⽌画・動画のみを⼊⼒としてテキスト⽣成器を適応させる sequential coherence loss を提案し、TAPM に重要な２つのレシピを紹介 • TAPM を２つの storytelling タスクで評価 • Video captioning: LSMDC 2019 [Rohrbach+, 2017] • Sequential image captioning: VIST [Huang+, 2016] 2021/7/31 15 “Movie description” [Rohrbach+, 2017]

Slide 16

Slide 16 text

関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016] • Unlike direct and literal descriptions, visual storytelling aims to generate a more figurative and consistent narrative for consecutive images or videos. • 従来⼿法は visual encoder と language generator を必要とする • 提案⼿法は、downstream task の学習前に language generator を visual context によりうまく適合させるもので、既存⼿法に直交的に適⽤することができる 2021/7/31 16

Slide 17

Slide 17 text

関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+, 2019], ViLBERT [Lu+, 2019] • Single-stream transformer • VisualBERT [Li+, 2020], VL-BERT [Su+, 2020] • Using entities • CMR [Zheng+, 2020] • Using object detection-based objectives • UNITER [Chen+, 2019], Unicoder-VL [Li+, 2020] • Video-language task • VideoBERT [Sun+, 2019] • CBT [Sun+, 2019] 2021/7/31 17 提案⼿法の新規性⾃⼰教師あり学習にテキストデータを⼀切必要としない

Slide 18

Slide 18 text

提案⼿法: TAPM （１） • 右図 (a) が従来⼿法, (b) が TAPM • Visual encoder (§3.1) • Language generator (§3.2) • Finetuning 前に adaptation loss を⽤いた Transitional adaptation を⾏う (§3.3) • sequential coherence loss (§3.4) 2021/7/31 18

Slide 19

Slide 19 text

提案⼿法: TAPM （２） 2021/7/31 19 Visual Encoder (§3.1) - Two FC layers followed by Leaky ReLU - Three layers of residual blocks - A final self-attention layer Language Generator (§3.2) デフォルトでは GPT-2-small を⽤いている Transitional adaptation (§3.3) w/ sequential loss (§3.4)

Slide 20

Slide 20 text

Adaptation training （１） • Visual encoder 学習時の補助的な⽬的関数 adaptation loss • Video が⼊⼒となる場合を例とする • Visual encoder から task-specific な特徴を得て、これと特殊トークンとを language generator への⼊⼒とする • [𝑠𝑒𝑝]: separation, [𝑑𝑢𝑚𝑚𝑦]: dummy • 【ご質問をいただき追記】dummy token として start-of-sentence token を使⽤ • ⼊⼒動画は M 個のセグメントに分けられ、 2021/7/31 20

Slide 21

Slide 21 text

Adaptation training （２） • Generator の出⼒ • は動画⼊⼒に対するテキストの特徴表現 • を mean-pooling して、画像特徴量を得る • この過程ではキャプションは⽤いずに dummy token を⽤いるため、video-only のデータセットで language generator を学習できる 2021/7/31 21

Slide 22

Slide 22 text

Sequential Coherence Loss （１） • 連続する静⽌画や動画クリップは、共通の要素を持つ • ⽣成される連続的なキャプションが、重複し過ぎることなく、かつ⼀貫性を保つよう、sequential coherence loss を導⼊ • ３つの部分で構成：past, current, and future matching loss 2021/7/31 22

Slide 23

Slide 23 text

Sequential Coherence Loss （２） • この考えを実現するために、margin ranking loss を⽤いて、正しくマッチしているものと間違ったものとで学習 2021/7/31 23 Past Current Future

Slide 24

Slide 24 text

【ここまでのまとめ】 TAPM framework 2021/7/31 24

Slide 25

Slide 25 text

Split-Training • 学習のプロセスを２つのフェーズに分ける • Adaptation loss step • Caption generation loss step • まず、visual encoder を adaptation loss で規定 epoch だけ更新 • Text encoder と language generator は固定 • 次に、全てのコンポーネントを⼀貫して更新。この際には generation loss を⽤いる 2021/7/31 25

Slide 26

Slide 26 text

Split-Training のメリット • 学習プロセスを２つに分けることで、generation タスクの影響を受けずに、それより単純な adaptation task を⼗分に学習することができる • Adaptation loss step において language generator を固定することで、catastrophic forgetting を防⽌することができる 2021/7/31 26

Slide 27

Slide 27 text

実験 • ２つの visual storytelling tasks で TAPM を評価 • LSMDC 2019 [Rohrbach+, 2017]: sequential video captioning • VIST [Huang+, 2016]: image captioning • ⾃動評価（§4.2）、⼈⼿による評価（§4.4）の双⽅で SOTA 2021/7/31 27

Slide 28

Slide 28 text

⾃動評価指標による評価 2021/7/31 28 Metrics C: CIDEr M: METEOR R: ROUGE-L

Slide 29

Slide 29 text

Ablation Study （１） • -A: remove adaptation loss training • +Cap: use GT instead of dummy • +VisualA: apply adaptation loss to visual encoder instead of language generator • -Split: use naïve joint training • -A+Split: (-A) w/ split training 2021/7/31 29

Slide 30

Slide 30 text

Ablation Study （２） • Language model を変更した場合の性能変化 • LSTM-WT2 は WikiText-2 で学習した 2-layer encoder-decoder を指す • TAPM は様々な language model の visual storytelling における性能を向上させられる 2021/7/31 30

Slide 31

Slide 31 text

⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst) to 1 (best) • 「⽬の⾒えない⼈にとってどれだけ助けになるか」 • VIST の評価 • ペアワイズ評価 • relevance, expressiveness, and concreteness • いずれもランダムに選んだ150例を評価に⽤いている

Slide 32

Slide 32 text

Quality の⽐較⻘：正しい記述⾚：間違った記述緑：⽂の間の coherence 2021/7/31 32

Slide 33

Slide 33 text

結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation of Pretrained Model (TAPM) を提案 • adaptation loss を使った adaptation phase を導⼊することで、様々な⾔語モデルとロスの種類に対してキャプション⽣成の質の向上が⾒られることを実験により確認 2021/7/31 33