2020.09.30 NL研招待講演 Vision&Languageの研究動向

Slide 1

Slide 1 text

2020.09.30 NL研招待講演 Vision&Language研究のこれまで・これからと，日本でのコミュニティ形成の試み品川政太朗（NAIST） 1/31

Slide 2

Slide 2 text

品川政太朗（しながわせいたろう）と申します 1989年札幌にて誕生 2013年東北大学工学部卒業 2015年東北大学大学院博士前期課程修了 2015年より博士後期課程、2020年からは研究員として奈良先端大知能コミュニケーション研究室に所属（9月25日にめでたく博士（工学）になりました）㊗専門：画像生成、対話システム博論：A Conversational System for Interactive Image Editing （自然言語を用いた対話型画像編集システム）興味：Vision&Language、コミュニケーション支援 2/31

Slide 3

Slide 3 text

今回の発表について • Vision&Languageの研究動向・課題について紹介します • モデルには踏み込まず、問題設定についての議論が中心です • 最後に、コミュニティ形成のための取り組みについて紹介します 3/31

Slide 4

Slide 4 text

Vision&Languageとは？ Computer Vision Natural Language Processing Vision&Language • 画像処理と自然言語処理の融合領域 • 2分野の技術を駆使して、両分野にまたがる問題を解決する 4/31

Slide 5

Slide 5 text

例えば？ Image captioning Visual Question Answering (VQA) Embodied Question Answering (EQA) Text-to-image generation [Xu+, 2018] [Das+, 2018] [Vinyals+,2015] [Agrawal+, 2016] 自然言語を入力とした物体操作 [Bisk+, 2016] 5/31

Slide 6

Slide 6 text

例えば？自然言語の文をクエリとした画像検索 [Li+, 2017] 漫画のAudio Comic化（audioモダリティも加えたマルチモーダル処理）料理動画への字幕・レシピのアラインメント [Bojanowski+, 2015] [Wang+, 2019] 6/31

Slide 7

Slide 7 text

Vision&Languageの面白さ画像と言語を両方扱うことで、新しい問題設定がどんどん出てくる • 別々のモダリティをどのように組合わせるべきか？ • システムは人間とどのようにインタラクションすべきか？ 7/31

Slide 8

Slide 8 text

Vision&Languageの系譜？ Vision&Languageという名前は、深層学習の普及に伴って普及したといってもよい？ • 2015年からサーベイ論文も出始めている [Ferraro+, 2015] [Kafle+, 2019] [Mogadala+, 2020] • ニューラルネットが共通の道具となったことで敷居が下がったため？ • 深層学習で画像認識をはじめとしたCVタスクの性能が上がり、新しい課題を考える余裕が出てきた？ Q：では、Vision&Languageは新しい問題なのか？ A：昔から「人工知能分野の問題」として問題提起はされている。深層学習の普及に伴い「Vision&Language」とオシャレに呼ばれるようになった 8/31

Slide 9

Slide 9 text

例えば [Okada, COLING1980] Image-captioningの起源（手描きの絵から説明文を生成） [Hiyoshi, COLING1994] Move this here. Text-to-imageの起源（自然言語とキーボード、マウス入力を組合わせてイラストを描画） 9/31

Slide 10

Slide 10 text

SHRDLUからはじまった? Vision&Language Person: GRASP THE PYRAMID. （指示） Computer: I DON‘T UNDERSTAND WHICH PYRAMID YOU MEAN. （「PYRAMID」についての説明要求） Person: FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX. （説明の追加） Computer: BY “IT”, I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER THAN THE ONE I AM HOLDING. （「IT」が示す内容の確認） Computer: OK. （ユーザから返答が無かったので確認内容を承認） Person: WHAT DOES THE BOX CONTAIN? （質問） Computer: THE BLUE PYRAMID AND THE BLUE BLOCK. （質問に対する回答） SHRDLU [Winograd, 1972] 機械が自然言語を理解して、人間と協調して知的な作業をしてほしいという研究の草分け • 環境は、パターン（形や色、位置）の限定的な積み木の世界 • 自然言語理解部は人手で作りこまれている（例えば、”the ○○”, “it”に対応するために前の発話で言及された物体名を一時記憶するモジュールなどが用意されている） 10/31

Slide 11

Slide 11 text

SHRDLUが示した未来の人工知能のビジョン Person: GRASP THE PYRAMID. （指示） Computer: I DON‘T UNDERSTAND WHICH PYRAMID YOU MEAN. （「PYRAMID」についての説明要求） Person: FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX. （説明の追加） Computer: BY “IT”, I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER THAN THE ONE I AM HOLDING. （「IT」が示す内容の確認） Computer: OK. （ユーザから返答が無かったので確認内容を承認） Person: WHAT DOES THE BOX CONTAIN? （質問） Computer: THE BLUE PYRAMID AND THE BLUE BLOCK. （質問に対する回答）情報の不足を検出して聞き返す能力複数候補があった時に仮説を確認する能力ユーザの指示文を理解して処理を行う能力質問に答える能力与えられた環境の中で、自然言語による情報伝達を行いながら処理を行うために必要な能力が示されている 11/31

Slide 12

Slide 12 text

機械学習（特に深層学習）の進展による現在の動向 SHRDLU [Winograd, 1972] SHRDLUの課題は、パターンが現実の問題設定だとサイズが大きすぎて対応できないことゆえに、現在は機械学習（深層学習）によるデータドリブンなアプローチが注目されている • 利点：パターンのサイズが大きい実タスクに近いデータでも、ある程度対応できる • 難点：機械学習（深層学習）ならではの問題を考慮する必要がある（精度は100％にならない、データセットのバイアス、ブラックボックス）では、これまで何がなされて、何が課題として残っているのか？ゴールはここやで深層学習君今どこらへん？ 12/31

Slide 13

Slide 13 text

ECCV2020、ACL2020からみるVision&Languageのトレンド今年のECCV, ACLの論文数をカウントした結果（多少漏れがあるかもしれません） • Image captioning，Visual Question Answering (VQA)が多い • Visual dialog，Navigationが両分野で増えてきている？（体感） 13/31

Slide 14

Slide 14 text

どうして？ Image captioningとVQAは実応用がわかりやすく、データ整備が急速に進んだため？ • 目の見えない人に何が見えるか説明する、または質問に答える • 遠くにいるロボットに状況を報告させたい Visual dialogやNavigationは、実問題における対話性を意識して派生した問題と解釈できる自然言語指示による物体操作 Navigation VQA Visual dialog Image captioning 言語生成質問応答 Text-to-image SHRDLU [Winograd, 1972] ＋画像＋画像操作対象が移動するエージェント＋対話性操作対象が画像 Text-guided image editing 入出力反転＋対話性＋自然言語が入力＋自然言語が入力 Embodied QA 14/40 ＋対話性 ※（画像ドメインが2D→3D、静止画→動画へと高度化している側面もある） 14/31

Slide 15

Slide 15 text

実問題における対話性の必要性（Visual dialogを例に） Visual Dialog [Das+, 2017] 人間：現在の家の状況を聞きたいエージェント：人間が何に関心があるかわからない現在見えている状況についてどれだけ話す (captioningする)べきか？たくさん話すと冗長かもしれない・・・人間同士だったら、大まかに報告しておいて、興味のある事項を聞いてから答えるようにすれば効率が良い→対話の問題設定になる「猫がマグカップで水を飲んでます」人間「何色のマグ？」「赤と白ですね」 15/31

Slide 16

Slide 16 text

実問題における対話性の必要性（自然言語入力） Open Question：自然言語入力を許すタスクにおいて、人間の入力の多様性をどこまで許容するべきか？ • 対応できる入力には限界がある（精度は100%にならない、データセットにはバイアスがある） • 所望の結果が得られなかったとき、どう修正すれば思い通りに動くか確信を持てない（ブラックボックス）例：自然言語による物体操作、text-to-image、Navigation、semantic segmentationなど 16/31

Slide 17

Slide 17 text

例えば、こういう時どうしますか？ “this bird has a very long neck and brown body and facing left and body is under water” Text-to-imageのモデルで生成した結果 “this bird has yellow beak and is facing left and long brown neck and black body most of which is under the water” “test” どう入力したらどういう出力が返ってくるか、人間にはよくわからない何時間も使ってみてようやくコツがわかってくる（これは望ましいといえる？） →人間同士だったら、対話を行って意図の擦り合わせができるのに・・・ 17/31

Slide 18

Slide 18 text

対話性を指向した自然言語入力タスクのアプローチ [Rupprecht+, 2018] 自然言語によるsemantic segmentationの改善 [Shinagawa+, 2019]自然言語による画像編集パターンがより限られる短文の入力で出力結果を逐次的に修正できるようにタスクを設定する（少しずつ修正できることが意図の擦り合わせに対応）例えば、Text-to-imageは画像編集タスクと組合わせることで逐次的に修正が可能になる [Thomason+, 2019] Vision and Dialog Navigation 18/31

Slide 19

Slide 19 text

より対話らしさを取り入れたアプローチ① [Horii+, 2018] 自然言語指示による物体持ち上げタスク【確認要求】対象の候補が複数存在する時、確認を行う（曖昧性の解消） [Shinagawa+, 2020] 対話的な画像編集入力の異常を検知して、自信のない入力について出力の確認を行う（エラーからの回復） 19/31

Slide 20

Slide 20 text

より対話らしさを取り入れたアプローチ② 【追加情報の要求】エラーを検出した時に、エラーから回復するために修正された新しい指示を要求する（エラーからの回復） [Nguyen+, 2019] HANNA task： Navigationにおいて、エージェントが迷ったときにだけ指示をもらうタスク 20/31

Slide 21

Slide 21 text

ここまでのまとめこれまでのVision&Languageはシンプルな問題設定が多かったが、近年では問題設定の高度化が進み、人間とどうインタラクションするべきかという点にも重点が置かれてきているインタラクションを想定した時の課題： • 情報をどのタイミングでどれだけ提示すべきか？ • 自然言語入力の多様性に付随する問題にどのように対処するか（曖昧性、エラーからの回復）特に自然言語入力の多様性は未だクリティカルな問題。ユーザに使い方を学習させる時間を強いるシステムは果たして賢いのか？まだまだ少数ながら、上記の課題を解決するために、SHRDLUが示したような確認能力や追加情報を得るための能力を考慮した問題設定の研究が出始めている説明可能AIの分野とも相性が良いはず今後、上記の課題を解決できるより良いインタラクションの方法が出てくることに期待 21/31

Slide 22

Slide 22 text

おまけ：最近の手法はどうなっているか？ほぼAttention+強化学習でfine-tuningです CVPR2020では調査した論文の3割が Transformer or BERTでした。今後も増えていきそうです [Mogadala+, 2020] image captioning手法の類型 22/31

Slide 23

Slide 23 text

おまけ：Vision＆Lanagueのホットな問題データセットのバイアスについて 23/31 VQAデータセットはバランスに問題があった [Goyal+, 2017] • ”What sport is…”という質問に対して”tennis”で41%正答できる • ”How many…”という質問に対して”2”で39%正答できる • “Do you see…”という質問に対して”yes”で87%正答できる →complementなサンプルを加えることで、画像を見ないと正答できないようにした Visual Dialogにも、画像と対話履歴を使わずに正準相関分析でつくった簡単なベースラインでSoTAに匹敵する性能が得られたと報告された[Massiceti+, 2018] • すぐにVisual Dialogの著者のDasらによる反論がArXivに出た[Das+, 2019] • MassicetiらはMean rankだけの評価をCherry pickしていて、他の指標では大きく下がっていた [Agarwal+, 2020]では、人間が67.12%の割合でVisual Dialogを対話履歴なしで正答できると報告 • より難しくした評価セットのVisDialConvを提案もしかすると、Navigationタスクとかでも、自然言語の指示なしでゴールまで行けてしまうなどあるかもしれません・・・

Slide 24

Slide 24 text

【宣伝】vision and language jp slack • Vision&Languageの話題を扱う交流用のslackコミュニティ • 動機：Vision&Languageの学生が孤立しがちな問題をなんとかして，分野を盛り上げたい • 現在の登録者数157名（完全に思い付きで始めましたが）たくさんの方が集まってくださいましたm(_ _)m • 現在活躍中のVision&Languageの研究者の方 • Vision&Languageに興味のある{CV, NLP}の方 • これから研究を始めようとしている学生の方など 24/31

Slide 25

Slide 25 text

vision and language jp slackの人々の内訳 • 約6割が大学・大学外の研究機関の方 • 約4割が企業の研究開発の方 • Vision&Languageについて既に研究されてる方が31.3% • 研究する予定の方を含めると5割弱 25/31

Slide 26

Slide 26 text

ぜひvision and language jp slackをご活用ください ※Slackへの登録は品川までご連絡ください。 • Vision&Language研究は画像と自然言語両方を扱うので、広範囲にわたる知識が必要 • 分野はどちらかに偏っている研究室が多く、 Vision&Languageの学生は孤立しがち例えばこういうことに使えます！ • 論文の調査についての相談（例：こういう研究需要ある？、こういう研究ってやられてないの？） • 研究に関係する相談（例：先行研究の再現がうまくいかない、こういう研究ってどの会議に出すべき？） • 実装に関係する相談（例：こういうツールが欲しいのだけど、何かいい実装はないか？） • 技術交流（例：実装会や、強化学習でimage-captioningのclosedなコンペを行う） • CVの研究室とNLPの研究室で共同研究など全国どこからでも、Vision&Languageを始めましょう！ 26/31

Slide 27

Slide 27 text

【宣伝】もっと研究の深い相談をしたい・・・そんなあなたに cvpaper.challenge Vision&Language group • 全国各地から研究者が集まって研究を進めているコミュニティ • CVが中心ですが実はVision&Langugeのグループもあります！ • CVの研究室だけでなく、NLPの研究室からも人が集まってるのが特徴（私も最近こちらでお世話になってます）片岡裕雄先生（産総研）鈴木亮太先生（産総研）学生の方は自身の研究室に在籍しながらVision&Language の研究を効率的に進めることができますある種共同研究のような形で研究を進めることができますので、周りにVision&Languageの専門家がいない場合などぜひご相談ください（まずは指導教員に相談を！） 27/31

Slide 28

Slide 28 text

参考文献 P.5 [Vinyals+,2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, JiasenLu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.6 [Wang+, 2019] Yujia Wang, Wenguan Wang, Wei Liang, Lap-Fai Yu. Comic-Guided Speech Synthesis. SIGGRAPH Asia2019. [Bojanowski+, 2015] Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid. Weakly-Supervised Alignment of Video With Text. ICCV2015. [Li+, 2017] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang. Person Search with Natural Language Description. CVPR2017. 28/31

Slide 29

Slide 29 text

参考文献 P.8 [Ferraro+, 2015] Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao (Kenneth) Huang, Lucy Vanderwende, Jacob Devlin, Michel Galley, Margaret Mitchell. A Survey of Current Datasets for Vision and Language Research. EMNLP2015. [Kafle+, 2019] Kushal Kafle, Robik Shrestha, Christopher Kanan. Challenges and Prospects in Vision and Language Research. ArXiv. [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv. P.9 [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. P.10 [Winograd, 1972] Terry Winograd. Understanding natural language. Cognitive psychology, 3(1):1-191, 1972. 29/31

Slide 30

Slide 30 text

参考文献 P.15 [Das+, 2017] Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, DeshrajYadav, José M. F. Moura, Devi Parikh, Dhruv Batra. Visual Dialog. CVPR2017. P.18 [Rupprecht+, 2018] Christian Rupprecht, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari. Guide Me: Interacting with Deep Networks. CVPR2018. [Thomason+, 2019] Jesse Thomason, Michael Murray, Maya Cakmak, Luke Zettlemoyer. Vision-and-Dialog Navigation. CoRL2019. [Shinagawa+, 2019] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura. Image Manipulation System with Natural Language Instruction. IEICE Transactions on Information and Systems, Vol.J102- D, No.8, pp.514–529, August, 2019. P.19 [Hatori+, 2018] Jun Hatori, Yuta Kikuchi, Sosuke Kobayashi, Kuniyuki Takahashi, Yuta Tsuboi, Yuya Unno, Wilson Ko, Jethro Tan. Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions. ICRA2018. [Shinagawa+, 2020] Seitaro Shinagawa, Koichiro Yoshino, Seyed Hossein Alavi, Kallirroi Georgila, David Traum, Sakti Sakriani, Satoshi Nakamura. An Interactive Image Editing System using an Uncertainty-based Confirmation Strategy. In IEEE Access, doi: 10.1109/ACCESS.2020.2997012. 30/31

Slide 31

Slide 31 text

参考文献 P.20 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. P.22 [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv. P.23 [Goyal+, 2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR2017. [Massiceti+, 2018] Daniela Massiceti, Puneet K. Dokania, N. Siddharth, Philip H.S. Torr. Visual Dialogue without Vision or Dialogue. NeurIPS2018 workshop. [Das+, 2019] Abhishek Das, Devi Parikh, Dhruv Batra. Response to "Visual Dialogue without Vision or Dialogue" (Massiceti et al., 2018). ArXiv. [Agarwal+, 2020] Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser. History for Visual Dialog: Do we really need it? ACL2020. 31/31