Slide 1

Slide 1 text

Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回 全⽇本コンピュータビジョン勉強会 CVPR2021読み会(後編) My Website 2021/7/31 1

Slide 2

Slide 2 text

前⼝上 2021/7/31 2

Slide 3

Slide 3 text

今回ご紹介する論⽂ 2021/7/31 3 https://openaccess.thecvf.com/content/CVPR2021/papers/ Yu_Transitional_Adaptation_of_Pretrained_Models_for_Visu al_Storytelling_CVPR_2021_paper.pdf

Slide 4

Slide 4 text

論⽂選定の理由 • 個⼈的理由 • Visual Storytelling に興味があった • もうちょっと客観的な理由 • Vision Encoder と Language Model を”調和させる” transitional adaptation がチャレンジングな V&L タスクで有⽤であると主張し、 これに基づいた TAPM を提案、連続的な静⽌画や動画のキャプション ⽣成で性能向上を確認 • Vision & Language の様々なタスクに応⽤しうるものとして、 このアプローチを知ることは有⽤ではないか? 2021/7/31 4

Slide 5

Slide 5 text

お前は誰だ – 発表者の⽴場・視点(1) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 5

Slide 6

Slide 6 text

お前は誰だ – 発表者の⽴場・視点(2) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?🤔 • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 6 ちょっとは V&L や CV が分かっている雰囲気を出したい! Story と絡めれば、⾃分にもとっつきやすいのでは??

Slide 7

Slide 7 text

お前は誰だ – 発表者の⽴場・視点(3) • V&L Transformer ちょっとわかる(原義) • 森 友亮†, 上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 7 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$

Slide 8

Slide 8 text

お前は誰だ – 発表者の⽴場・視点(4) • V&L Transformer ちょっとわかる(原義) • 森 友亮†, 上原康平†, 原⽥達也, (†equal contribution) “視覚・⾔語融合 Transformer モデルによる画像か らの物語⽂⽣成,” CAI+CAI first workshop (⾔語処理 学会第27回年次⼤会 ワークショップ), 福岡(オン ライン), 2021年3⽉. [PDF] [Slides] • Transformer(s) で画像からの物語⽂⽣成 2021/7/31 8 === ⼈⼿による画像ナラティブ === some elephants are in a tent. They are tied by a chain. They seems to be happy. They are seeing something above a tent. A tent is made by wood. === 提案⼿法 (pretrained decoder) === An elephant is walking. It is in a zoo. It seems to be sad. Some elephants are walking. Some trees are near by elephant. === 提案⼿法 (scratch decoder) === Some elephants are standing. They are in a road. They seems to be happy. Some elephants are in africa. Some trees are near by elephant. !"#$"%&'(")*+,-.*')$&% /&')$&% !"# !"#$ $%$&'()* $%$&'()*+ !$"# !"#$ 画像からの物語⽂⽣成

Slide 9

Slide 9 text

画像からストーリーなどを⽣成するタスク • 画像列 → テキスト • Visual Storytelling [Huang+, 2016] • Storytelling from Images [Liu+, 2017] • 単⼀画像 → テキスト • Image Narrative [Shin+, 2018] • Poetry Generation [Liu+, 2018] 2021/7/31 9 “Visual Storytelling” [Huang+, 2016] “Let Your Photos Talk: Generating Narrative Paragraph for Photo Stream via Bidirectional Attention Recurrent Neural Networks” [Liu+, 2017] “Customized Image Narrative Generation via Interactive Visual Question Generation and Answering” [Shin+, 2018] ”Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training” [Liu+, 2018] [Liu+, 2017]

Slide 10

Slide 10 text

VIST (Visual Storytelling Dataset) • Huang+ [2016] が提案。画像列の1枚ごとに1⽂を付与 • 1st release の際は “Sequential Images Narrative Dataset (SIND) “ という 名称だった。VIST は SIND v.2 とされる • 各画像で独⽴のキャプション、画像の連続性を考慮したキャプション、 ストーリーとしてのテキスト → すべて異なるもの 2021/7/31 10

Slide 11

Slide 11 text

本題 2021/7/31 11

Slide 12

Slide 12 text

紹介論⽂の問題意識(1) • Vision-to-Language ⽣成タスクのためのモデルの多くは、以下 の要素から構成される • 静⽌画や動画から視覚特徴を抽出する visual encoder • テキストを⽣成する language model • これらをつなぎ合わせるための harmonized architecture • しかし、visual encoder と language model はそれぞれの⼤規模 データセットで学習されており、共通する基盤はない。情報の 差を調和させる transitional adaptation step はこれまで提案 されていない • 例:ImageNet, Wikipedia 2021/7/31 12

Slide 13

Slide 13 text

紹介論⽂の問題意識(2) • このような pre-trained models を downstream task に応じて fine-tuning するとき、 language generation において pre-trained models を fine- tuning するときと同様に、catastrophic forgetting のような問 題が発⽣するのではないか? • 既存のキャプション⽣成モデルは、vision の⽂脈を⼗分に考慮 できていないという問題が指摘されている 2021/7/31 13

Slide 14

Slide 14 text

紹介論⽂の提案 • 別々に pre-train された visual encoder と language model の間 の協調性を向上させるという、より単純な⽬的を設定すること が、⽬標とするタスクにおいて、より早くより⾼い性能向上を 可能にするのではないか • この考えのもとに、visual storytelling のための Transitional Adaptation of Pre-trained Model (TAPM) を提案 2021/7/31 14

Slide 15

Slide 15 text

紹介論⽂の貢献 • Adaptation loss が visual encoder と language model をつなぎ 合わせる上で効果的であることを⽰した • テキストラベルを持たない連続的な静⽌画・動画のみを⼊⼒と してテキスト⽣成器を適応させる sequential coherence loss を提案し、TAPM に重要な2つのレシピを紹介 • TAPM を2つの storytelling タスクで評価 • Video captioning: LSMDC 2019 [Rohrbach+, 2017] • Sequential image captioning: VIST [Huang+, 2016] 2021/7/31 15 “Movie description” [Rohrbach+, 2017]

Slide 16

Slide 16 text

関連研究 – Visual Storytelling • Visual Storytelling の定義 [Huang+, 2016] • Unlike direct and literal descriptions, visual storytelling aims to generate a more figurative and consistent narrative for consecutive images or videos. • 従来⼿法は visual encoder と language generator を必要とする • 提案⼿法は、downstream task の学習前に language generator を visual context によりうまく適合させるもので、既存⼿法に 直交的に適⽤することができる 2021/7/31 16

Slide 17

Slide 17 text

関連研究 – V&L の学習済みモデル • Two-stream transformer • LXMERT [Tan+, 2019], ViLBERT [Lu+, 2019] • Single-stream transformer • VisualBERT [Li+, 2020], VL-BERT [Su+, 2020] • Using entities • CMR [Zheng+, 2020] • Using object detection-based objectives • UNITER [Chen+, 2019], Unicoder-VL [Li+, 2020] • Video-language task • VideoBERT [Sun+, 2019] • CBT [Sun+, 2019] 2021/7/31 17 提案⼿法の新規性 ⾃⼰教師あり学習にテキストデー タを⼀切必要としない

Slide 18

Slide 18 text

提案⼿法: TAPM (1) • 右図 (a) が従来⼿法, (b) が TAPM • Visual encoder (§3.1) • Language generator (§3.2) • Finetuning 前に adaptation loss を⽤いた Transitional adaptation を⾏う (§3.3) • sequential coherence loss (§3.4) 2021/7/31 18

Slide 19

Slide 19 text

提案⼿法: TAPM (2) 2021/7/31 19 Visual Encoder (§3.1) - Two FC layers followed by Leaky ReLU - Three layers of residual blocks - A final self-attention layer Language Generator (§3.2) デフォルトでは GPT-2-small を⽤いている Transitional adaptation (§3.3) w/ sequential loss (§3.4)

Slide 20

Slide 20 text

Adaptation training (1) • Visual encoder 学習時の補助的な⽬的関数 adaptation loss • Video が⼊⼒となる場合を例とする • Visual encoder から task-specific な特徴を得て、これと特殊 トークンとを language generator への⼊⼒とする • [𝑠𝑒𝑝]: separation, [𝑑𝑢𝑚𝑚𝑦]: dummy • 【ご質問をいただき追記】dummy token として start-of-sentence token を使⽤ • ⼊⼒動画は M 個のセグメントに分けられ、 2021/7/31 20

Slide 21

Slide 21 text

Adaptation training (2) • Generator の出⼒ • は動画⼊⼒ に対するテキストの特徴表現 • を mean-pooling して、画像特徴量 を得る • この過程ではキャプションは⽤いずに dummy token を⽤いる ため、video-only のデータセットで language generator を学習 できる 2021/7/31 21

Slide 22

Slide 22 text

Sequential Coherence Loss (1) • 連続する静⽌画や動画クリップは、共通の要素を持つ • ⽣成される連続的なキャプションが、重複し過ぎることなく、 かつ⼀貫性を保つよう、sequential coherence loss を導⼊ • 3つの部分で構成:past, current, and future matching loss 2021/7/31 22

Slide 23

Slide 23 text

Sequential Coherence Loss (2) • この考えを実現するために、margin ranking loss を⽤いて、 正しくマッチしているものと間違ったものとで学習 2021/7/31 23 Past Current Future

Slide 24

Slide 24 text

【ここまでのまとめ】 TAPM framework 2021/7/31 24

Slide 25

Slide 25 text

Split-Training • 学習のプロセスを2つのフェーズに分ける • Adaptation loss step • Caption generation loss step • まず、visual encoder を adaptation loss で規定 epoch だけ更新 • Text encoder と language generator は固定 • 次に、全てのコンポーネントを⼀貫して更新。この際には generation loss を⽤いる 2021/7/31 25

Slide 26

Slide 26 text

Split-Training のメリット • 学習プロセスを2つに分けることで、generation タスクの影響 を受けずに、それより単純な adaptation task を⼗分に学習する ことができる • Adaptation loss step において language generator を固定する ことで、catastrophic forgetting を防⽌することができる 2021/7/31 26

Slide 27

Slide 27 text

実験 • 2つの visual storytelling tasks で TAPM を評価 • LSMDC 2019 [Rohrbach+, 2017]: sequential video captioning • VIST [Huang+, 2016]: image captioning • ⾃動評価(§4.2)、⼈⼿による評価(§4.4)の双⽅で SOTA 2021/7/31 27

Slide 28

Slide 28 text

⾃動評価指標による評価 2021/7/31 28 Metrics C: CIDEr M: METEOR R: ROUGE-L

Slide 29

Slide 29 text

Ablation Study (1) • -A: remove adaptation loss training • +Cap: use GT instead of dummy • +VisualA: apply adaptation loss to visual encoder instead of language generator • -Split: use naïve joint training • -A+Split: (-A) w/ split training 2021/7/31 29

Slide 30

Slide 30 text

Ablation Study (2) • Language model を変更した場合の性能変化 • LSTM-WT2 は WikiText-2 で学習した 2-layer encoder-decoder を指す • TAPM は様々な language model の visual storytelling における 性能を向上させられる 2021/7/31 30

Slide 31

Slide 31 text

⼈⼿による評価 2021/7/31 31 • LSMDC 2019 の評価 • 5 (worst) to 1 (best) • 「⽬の⾒えない⼈にとってどれだけ助けになるか」 • VIST の評価 • ペアワイズ評価 • relevance, expressiveness, and concreteness • いずれもランダムに選んだ150例を評価に⽤いている

Slide 32

Slide 32 text

Quality の⽐較 ⻘:正しい記述 ⾚:間違った記述 緑:⽂の間の coherence 2021/7/31 32

Slide 33

Slide 33 text

結論 • 学習済み⾔語モデルと visual encoder を調和させ、vision-to- language の⽣成タスクを解くための⼿法 Transitional Adaptation of Pretrained Model (TAPM) を提案 • adaptation loss を使った adaptation phase を導⼊することで、 様々な⾔語モデルとロスの種類に対してキャプション⽣成の質 の向上が⾒られることを実験により確認 2021/7/31 33