Slide 1

Slide 1 text

Panoptic Narrative Grounding shade-tree Twitter: @shade_tree2112 Website: https://www.mori.ai [PDF of the paper] [Project Page of the paper] 第9回 全⽇本コンピュータビジョン勉強会 ICCV2021読み会 2021/12/12 1

Slide 2

Slide 2 text

前⼝上 2021/12/12 2

Slide 3

Slide 3 text

• 初聴講は2016年(?) • 当時:博⼠課程学⽣ • しばらくは聴講のみ shade-tree’s CV勉強会 attendance (1) 2021/12/12 3 … 発表してみなよ! 前向きに検討できるよう 善処します

Slide 4

Slide 4 text

shade-tree’s CV勉強会 attendance (2) • 前向きな検討の結果 • 2017年のCVPR 読み会で発表 2021/12/12 4 A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017-08-19 Å41kCVï}k CVPRÛ,k‰î Presenter : shade-tree 8/19/2017 1 %53A21  $6 • Fine-grained $i¿Ąl • ˆŠ&ÎxÒ$_Àv&ŽĈ • CVï}kÒ%'²&) ©Ā$y.+&áä!'e&) 6©ÕÒ%¹ø + 8/19/2017 19 °jďì&9PZF 「CV勉強会」ですが、 私は⾔語メインで話をします (ひらきなおり)

Slide 5

Slide 5 text

shade-tree’s CV勉強会 attendance (3) 2021/12/12 5 • 少し間を置いて、全⽇本CV勉強会の 第六、七回で発表 • 「CVはよく分からないのですが」 お前は誰だ – 発表者の⽴場・視点(1) • shade-tree • 某⼤学院の博⼠課程学⽣ • 研究分野のキーワード: Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • V&L と Computer Vision、どこに⾏った?! • CV 専⾨家が多数いる環境で NLP やりながら、「CV はよく分からない のですが」と素⼈質問(原義)する⼈ • 特に Story Generation や Story Understanding について、 研究だったりしなかったりする活動 2021/7/31 5 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io Paper’s page at Open Review: https://openreview.net/forum?id=YicbFdNTTy 第六回 全⽇本コンピュータビジョン勉強会 Transformer論⽂読み会 My Website 2021/4/18 1 Transitional Adaptation of Pretrained Models for Visual Storytelling shade-tree Twitter: @shade_tree2112 Website: https://forest1988.github.io [PDF of the paper] [Code of the paper] 第七回 全⽇本コンピュータビジョン勉強会 CVPR2021読み会(後編) My Website 2021/7/31 1

Slide 6

Slide 6 text

第⼋回は? 2021/12/12 6 2021/09/24 2021/10/01 - (⼊社1週間) かたれぬ。

Slide 7

Slide 7 text

お前は誰だ – 発表者の⽴場・視点 (Updated!) • shade-tree • 博⼠(情報理⼯学) • 2021/10 - 某社勤務 • 2021/11 - 某⼤の某研究室で⾮常勤の研究員(兼業) • (9⽉までの)研究分野のキーワード: • Natural Language Processing, Natural Language Generation, Machine Learning, Storytelling, Emotions • CV 専⾨家が多数いる環境で NLP やりながら、 「CV はよく分からないのですが」と素⼈質問(原義)する⼈(?) 2021/7/31 7 「進学したけれど、なかなか研究成果を出せなかった私。 CV 勉強会のおかげで、博⼠号を取得し、就職することまでできました!」 (個⼈の感想です。効果には個⼈差があります。また、標準年限かどうかは問わないものとする)

Slide 8

Slide 8 text

やっぱり⾔語の話をしよう そして、今回…… 2021/12/12 8

Slide 9

Slide 9 text

今回ご紹介する論⽂ 2021/12/12 9 [PDF] [Project Page]

Slide 10

Slide 10 text

Project Page 2021/12/12 10

Slide 11

Slide 11 text

Panoptic Narrative Grounding って???(1) • この論⽂で提案されたタスクの名称 • 単語レベルからもう少し詳しく⾒ていく • Panoptic って? • パノラマ的な、全体を⼀⽬で⾒渡せる • pan (= all) + optic • Panoptic Segmentation [Kirillov et al., CVPR 2019] を使う • Narrative って? • Story と同義で使われることもあるが、使い分ける場合、より広い概念。 訳し分けるなら、Narrative は「語り」 • たとえば、この前向上は、Story ではないかもしれないが Narrative だとは⾔える • Localized Narratives [Pont-Tuset et al., ECCV 2020] が重要な先⾏研究 2021/12/12 11

Slide 12

Slide 12 text

Panoptic Narrative Grounding って???(2) • Grounding って? • ここでは、シンボルグラウンディング(Symbol Grounding)と同様の 使われ⽅ • 画像を使った Grounding なので、 Visual Grounding という⽤語が論⽂中に頻出 • Symbol Grounding は Harnad [1990] により提唱 [link] • This paper describes the "symbol grounding problem": How can the semantic interpretation of a formal symbol system be made intrinsic to the system, rather than just parasitic on the meanings in our heads? How can the meanings of the meaningless symbol tokens, manipulated solely on the basis of their (arbitrary) shapes, be grounded in anything but other meaningless symbols? • ……要するに、どういうこと??? 2021/12/12 12

Slide 13

Slide 13 text

ここで、質問です。 次の⽂字列を⾒て、何を想像しますか? apple 2021/12/12 13

Slide 14

Slide 14 text

ここで、質問です。 次の⽂字列を⾒て、何を想像しますか? apple 2021/12/12 14 https://ja.wikipedia.org/wiki/リンゴ このように、実世界の物体と、⾔葉が結びついている状態を、 グラウンディングしている(接地している)と⾔う リンゴ

Slide 15

Slide 15 text

Panoptic Narrative Grounding って???(3) • ざっくりと、以下のようなものであると考えられる • 全体を⼀⽬で⾒渡せるような画像に、 • 単語ではなく Narrative を、 • グラウンディングする(接地する、対応付ける) 2021/12/12 15

Slide 16

Slide 16 text

本題 画像は、特に注記のない限り、 紹介論⽂もしくはそのページで取り上げている関連研究から引⽤しています 2021/12/12 16

Slide 17

Slide 17 text

紹介論⽂の問題意識(1) • 画像との組み合わせによる⾔語のグラウンディング(Visual Grounding)のフレームワークはこれまでにもあるが、粒度に 問題がある。 • ⾔語に詳しいアノテーションが付いたものは存在するが、 画像のアノテーションはまだ疎で粗い 2021/12/12 17

Slide 18

Slide 18 text

紹介論⽂の貢献 • Panoptic Narrative Grounding の提案 • panoptic segmentation regions を Visual Grounding として⽤い、 natural language visual grounding problem を新たに定式化 • タスク、データセット、指標、⼿法を提案した 2021/12/12 18 全部乗せ!

Slide 19

Slide 19 text

Panoptic Narrative Grounding Benchmark • Localized Narratives の annotation を、MS COCO の panoptic segmentations に transfer • 今回のタスクの Ground Truth として、下図の (c) を作る 2021/12/12 19

Slide 20

Slide 20 text

Localized Narratives [Pont-Tuset et al., ECCV 2020] 2021/12/12 20 • マルチモーダル画像アノテーションの形式を 提案 • Vision & Language • アノテータは、⾳声でアノテーションを⾏う と同時に、注視する部分をマウスオーバー (ホバー)する • ⾳声とマウスの動きが同期しているので、各単語と 画像中の位置を対応付けられる • 849k images with annotations • The whole COCO, Flickr 30k, ADE20K, 671k of Open Images 1st author は本論⽂の著者にも 名を連ねる

Slide 21

Slide 21 text

Localized Narratives をさらに発展 2021/12/12 21 • マルチモーダル画像アノテーションの形式を 提案 • Vision & Language • アノテータは、⾳声でアノテーションを⾏う と同時に、注視する部分をマウスオーバー (ホバー)する • ⾳声とマウスの動きが同期しているので、各単語と 画像中の位置を対応付けられる • 849k images with annotations • The whole COCO, Flickr 30k, ADE20K, 671k of Open Images Each word から Noun phrase へ Traces から Segmentation へ

Slide 22

Slide 22 text

Panoptic Segmentation [Kirillov et al., CVPR 2019]*1 2021/12/12 22 • Semantic segmentation = per-pixel class labels • Stuff: 似たような質感や素材の不定形の領域(草むら、空、道など) • Instance segmentation = per-object mask and class label • Things: カウントできるもの(⼈間、動物、道具など) • Can there be a reconciliation between stuff and things? Semantic segmentation + Instance segmentation Per-pixel class + instance labels *1 採択は CVPR 2019 だが、2018年に preprint が公開されており、 ECCV 2018 で MS COCO を使ったコンペティションが開かれている

Slide 23

Slide 23 text

Localized Narrative + Panoptic Segmentation • アノテーションの中の名詞句 (noun phrase) を、Natural Language Toolkit (NLTK) で抽出 • 名詞句に対しては、連続するマウスオーバーの点 (trace point) がマッチする。これらの 点から、名詞句と対応する画像中の1点を決める。これを Center of Mass (CoM) と命名 • MS COCO の Panoptic Segmentation と、CoM とから、名詞句と Segment の対応を取る • ただし、マウスオーバーが必ずしも正しいオブジェクトの上にあるとは限らないので、そういったエラー を除外するためのフィルタリングを⾏なっている。 • GitHub の README によると、使⽤しているのは MS COCO の 2017 年の images に対するアノテーション (Panoptic Segmentation は 2018 年に追加) 2021/12/12 23

Slide 24

Slide 24 text

⾔語と画像のマッチングはどうとる? • 対応を取りたいもの • NLTK で抽出した noun phrase in the caption: !!" • Segmentation "!に対応する MS COCO object category: #! • !!" と "! の対応の取り⽅を検討 → 各ステップの有⽤性を確認 1. Exact matches (strictly equal) 2. Synonyms, 同義語 3. Hierarchical relationship (hypernym, 上位概念語) 4. Meronyms, 内包される語 5. WordNet にない関係性を⼿動で 2021/12/12 24 NLTK を介して WordNet を利⽤

Slide 25

Slide 25 text

Metric の提案 • 従来の phrase grounding では、recall が⼀般的な指標 • これに対して、Intersection over Union (IoU) の閾値を考慮する 新たな指標 Average Recall を提案 • ある⼿法を評価するとき、その⼿法の出⼒する Panoptic segmentation と、ground truth との IoU を計算 2021/12/12 25

Slide 26

Slide 26 text

Baseline の提案(1) 2021/12/12 26 • Vision と Language のそれぞれから、 Single-modality の transformer で特徴量抽出 • Cross-modality transformer で、マルチモーダルの特徴量を合わせる • Noun phrases の特徴量と、region proposal とで関連性⾏列を計算

Slide 27

Slide 27 text

Baseline の提案(2) • 実装詳細 • Panoptic Feature Pyramid Network (FPN) [Kirillov et al., CVPR 2019] • MS COCO で学習した ResNet-101 を backbone に使⽤ • パラメータは固定 • Visual single modality transformer • 3 attention layers • Pre-trained BERT “base” • Cross modality • 5 attention layers 2021/12/12 27

Slide 28

Slide 28 text

Experiment • MS COCO の標準の train, validation splits を⽤いる • ただし、提案する⽅法で、Localized Narrative の caption を panoptic segmentation に transfer したときに、最低1つの名詞句が領域に対応 付けられているもののみを⽤いる • Train: 133,103 Validation: 8533 2021/12/12 28

Slide 29

Slide 29 text

Result – 定量評価(1) 2021/12/12 29 • Oracle は、segment と名詞句の 対応が完璧なもので、 segmentation error のみ⾒ている • 提案⼿法は Oracle の86%の性能 が出ている(55.4 vs. 64.4) • Segmentation の⼿法の性能に依存 する制約はあるものの、このタスク の出発点として良いもの • Visual grounding の SOTA である Multi-task Collaborative Network (MCN) と⽐較し、提案⼿法は natural language visual grounding において優れている • Fine-grained な定式化をおこなって いるためではないか、と考察

Slide 30

Slide 30 text

Result – 定量評価(2) 2021/12/12 30 • things と stuff で Oracle との性能差 を考えると、stuff のほうが提案⼿法 との差は⼩さい • things は位置が多様なので難しいの ではないか、という考察 • plurals noun phrases はオブジェクト の複数のインスタンスに対応する • singular (単⼀のインスタンス)と ⽐較すると、性能は低くなる

Slide 31

Slide 31 text

Result – 定性評価 2021/12/12 31 • ⼊⼒は (a) と、(b) のハイライト がないもの

Slide 32

Slide 32 text

結論 • Panoptic Narrative Grounding を提案 • Caption 中の名詞句を密に ground した panoptic segmentation を⽣成 することが⽬的 • このバージョンでは、以下のような問題設定になっている 1. 名詞句を視覚的に接地することで⾔語に関する最も細かい粒度を維持しつつ、 2. セグメンテーションによる空間的に詳細な visual grounding を含み、 3. panoptic なカテゴリーすべてを組み込むことで、画像に内在する意味的情報を 活⽤する • このタスクのための、強⼒な実験フレームワークを提案 • アノテーションや評価指標を含む • 強⼒なベースラインを提案 2021/12/12 32

Slide 33

Slide 33 text

紹介者の抱いた疑問 • 冒頭 • Vision and language skills play a key role in human’s understanding of the world and they are rarely used independently. • 視覚と⾔語が独⽴して使われることは ”rare” なことだろうか? 視覚 で捉えられないような抽象的な概念を表す⾔葉は、”understanding of the world” からは除外されているのだろうか? ⾔葉なしに視覚だけ で世界を理解することはないのだろうか? • 「粒度」について • 従来のタスクについて「画像へのアノテーションの粒度が不⼗分」と しているが、panoptic segmentation は⼗分な粒度なのだろうか? それとも、より粒度を⾼める必要があるのだろうか? ⾔語の側はどうなのだろうか? 2021/12/12 33