2022.12.17 第10回 Language and Robotics 研究会講演資料

Slide 1

Slide 1 text

意図の接地と意味の接地～テキストに紐づけられた対話的画像生成と Language and Roboticsとの接続と展望について～品川政太朗 AHC-Lab, NAIST 2022.12.17 第10回 Language and Robotics研究会

Slide 2

Slide 2 text

自己紹介品川政太朗（しながわせいたろう）ニューラルネットと対話したい人です奈良先端科学技術大学院大学先端科学技術研究科知能コミュニケーション研究室助教好物： • Vision and Language（画像と言語の融合領域） • 対話システム • 深層学習 HP：https://sites.google.com/view/seitaro-shinagawa/ twitter: (@sei_shinagawa) 2/35

Slide 3

Slide 3 text

身の上話：研究の興味と目指しているもの 2014年~2015年修士時代（東北大学）自律的に人とコミュニケーションを取りながら成長できる機械はどうやったら作れるのかに興味 • 谷口先生の著書を読んで「これだ、この方向性だ」と思った→D進を決意 • 「概念学習」を研究テーマとして標榜していたNAIST中村研にD進 ※谷口先生の立命館大は博士課程の要件に TOEICスコア提出があり、時期的にTOEICを受けるのが間に合わなかったので選択肢にできず 3/35

Slide 4

Slide 4 text

記号創発システムのミクロ・マクロループという考え方機械と実世界機械と機械機械と人環境ローカルに通じることばの用法と意味常識（各コミュニティからのことばの用法と意味）常識が各コミュニティのコミュニケーションを制約あることばの用法と意味がローカルな相互作用によって創発され、全体に共有化されると常識として各コミュニティを制約するという考え方 4/35

Slide 5

Slide 5 text

意味の接地（記号接地；symbol grounding）センサから得られる情報に記号（ラベルや自然言語など）を紐づけること [Harnad, 1990] [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. ぶどうソフトクリームピザ（※意味の接地の方法論はopen question（記号接地問題）） 5/35

Slide 6

Slide 6 text

意味の接地の難しさ意味や概念（と一般的になんとなく呼ばれているもの）は、明示的に切り取って定義することが難しいものも多い • 「美しい」と「かわいい」の境目はどこか？ • 古いおもちゃのパーツを少しずつ新品に替えていったらどこまで「古いおもちゃ」だと言えるか？個人レベル・コミュニティレベルで理解されうる記号も異なる • 文化の差異（例：日本語の「いただきます」に相当することばは英語圏には無い） • 前提とできる知識・理解度の差異（例：「ディープでポン」で笑える人は界隈の人だとすぐにわかる） • 経験や身体的な差異（例：初めて聞いた呼び方を正しいと思って覚えてしまう）ローカルな意味の接地、そのための対話による意図の接地が重要 6/35

Slide 7

Slide 7 text

記号創発システムを背景に目指す世界：世界を対話（相互作用）可能な機械で満たすこと機械と実世界機械と機械機械と人環境ローカルに通じることばの用法と意味常識（各コミュニティからのことばの用法と意味）常識が各コミュニティのコミュニケーションを制約記号創発システムのミクロ・マクロループ（機械がことばを自律的に理解し、言語獲得するための仕組み）この世界の前提には既に十分な機械が現実に稼働していることが必要では？と考えた 7/35

Slide 8

Slide 8 text

世界を対話（相互作用）可能な機械で満たすためには？信条①：生活に根差して長く使われる機械が必要 • エンタメを指向した面白いだけの機械はすぐに飽きられる • 生活や仕事を支援できるものであることが望ましい信条②：自然言語で対話できることが望ましい • 自然言語は人にとって最も一般的なコミュニケーション手段なので、将来的には役立つ場面がきっと多い • ことばを自律的に理解・獲得するためにはそもそもインターフェースとして必要信条③：自然言語だけに閉じていないことが望ましい • 世の中、自然言語だけで完結する仕事だけではない • 新規の概念に対応するには、機械が自身のセンサから得た情報と自身の経験を照らし合わせて問題解決に当たれる必要がある 8/35

Slide 9

Slide 9 text

テキストからの画像生成をベースに対話的な画像生成へテキストからの画像生成を題材に • 特に、実世界の事物だけでなくて、絵画やイラスト、広告といった人の創った世界で仕事をする人々も支援できたら魅力的と思っていた • 画像と自然言語に閉じれば、比較的学生の自分でも十分実行可能なレベルに収まるだろう（と思っていた） 9/35

Slide 10

Slide 10 text

対話的画像編集のタスク設定ポニーテールにして編集指示文の入力比較「確認」を選択画像選択元画像の再設定左がいいな目標画像元画像（対話前）どちらが目標を達成するのに適切ですか？わかりました，他の指示はありますか？機械： • 発話もしくは画像をユーザに提示 SSIM: 0.78 ユーザ： • 目標画像を持っている • 発話が可能 10/35

Slide 11

Slide 11 text

対話的画像生成の課題 • text-to-imageそのままでは実現できない • （対話という土俵で使うことを考えた時）機械側からどのように人間側に働きかけたら良いかという点は自明ではない • そもそも人間の説明はもっと雑では？ 11/35

Slide 12

Slide 12 text

text-to-imageそのままでは実現できない説明文は画像の要約：一対一対応したデータではない →一から説明文を少し変えると何もかも変わる問題がある説明文 text-to-image model 画像人間がトライアンドエラーすればある程度はハックできるが大変 12/35

Slide 13

Slide 13 text

解決策：画像編集の問題として捉える説明文ベース説明文のうち、似た情報のみを変えて編集する方法 [Dong+, 2017] 編集指示文ベース編集指示文（元画像と目標画像の差分に相当するテキスト）により編集する方法 [Shinagawa+, 2017] 13/35

Slide 14

Slide 14 text

説明文 vs 編集指示文説明文ベース編集指示文ベース追加データセット〇必要なし △編集指示文と編集前後の画像が必要制御性 △学習データセットに合わせた綺麗な説明文が必要〇編集したい部分のみ言及すれば良い 14/35

Slide 15

Slide 15 text

今日のtext-to-imageや編集システムは説明ベースが主流 Prompt-to-prompt [Hertz+, 2022] • text-to-imageで生成後に元になった説明文を編集 • Cross attentionにより編集箇所を特定して編集 Imagic [Kawar+, 2022] 学習済みDiffusion modelを使って • 目標画像の説明文埋め込み𝑒𝑡𝑔𝑡 • 元画像埋め込み𝑒𝑜𝑝𝑡 を内挿できるように学習編集指示文というデータが無いのが原因？ 15/35

Slide 16

Slide 16 text

編集指示文はいらない子？ [Shi+, 2021] 編集指示文が具体的な(Adobeの)操作系列で構成されるものだと考えてタスクを再定義し、強化学習で最適化する手法 T2ONetを提案。MA5k-Req、GIERデータセットも提案そんなことはない。特に、Adobeのチームが注目している Learning by Planning: Language-Guided Global Image Editing (CVPR2021) 16/35

Slide 17

Slide 17 text

Adobe以外はCLEVRによる人工データが多い • 編集前後の画像ペアと編集指示文データがそもそも少ない • 画像ペアから編集指示文生成するタスクも加えてデータ拡張 SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning (EMNLP2020) [Fu+, 2020] 17/35

Slide 18

Slide 18 text

対話的画像生成の課題②、③ • 機械側からどのように人間側に働きかけたら良いかという点は自明ではない • そもそも人間の説明はもっと雑では？ここまで見た対話型画像編集は全て受動的な機械 • 結局機械がどう動くかは人間にはよく分からない機械側からユーザに働きかけて、ユーザの意図と機械の意図を擦り合わせる（意図を接地する）仕組みが必要 →conversational image editing (対話的画像編集) 18/35

Slide 19

Slide 19 text

意図の接地（基盤化; grounding）昨日のアレ観た？ああ、アレすごかったね「アレ」が何を指すのかお互いに分かっている →「アレ」についての共通理解（共通基盤）ができている 2者間の対話において、お互いの考えていること（信念; belief）が一致していること [Clark+,1986] [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative process. Cognition, 22(1):1 – 39. 19/35

Slide 20

Slide 20 text

意図の接地には対話的プロセスが必要昨日のアレ観た？ああ、アレすごかったね W杯のこと芸能人のスキャンダル 2者間の意図は通常異なることが多い →対話的プロセスを通せばお互いの意図のズレを認識できるシュート良かったねえっ？えっ？（確認行動） 20/35

Slide 21

Slide 21 text

conversational image editing • Adobeソフトを使っての画像編集 • 2者による音声言語による対話 • いかに短い時間でユーザの発話の意図を理解して編集操作に反映するかが肝 [Manuvinakurike+, 2018] 対話システムのトップ会議SIGDIAL2018のbest paper 21/35

Slide 22

Slide 22 text

conversational image editingにおけるユーザの対話行為（ユーザの意図）新しいものを追加前に言及した対象を更新以前の状態に戻す比較するイイね、とコメント良くないね、とコメント 22/35

Slide 23

Slide 23 text

画像編集モデルによる conversational image editing [Shinagawa+,2020] 学習した画像編集モデルが苦手とする表現が入るとおかしな出力を返してしまう →システムから働きかけて，意図を擦り合わせられれば解決可能 !? 編集要求（自然言語）の多様性に対応するのが難しいつまり、ユーザは雑システムハンサムにしてユーザ編集指示文元画像編集結果？ 23/35

Slide 24

Slide 24 text

確認戦略に基づく対話的画像編集システムポニーテールにして編集指示文の入力 SSIM: 0.56 「確認」を選択画像選択元画像の再設定左がいいな目標画像元画像（対話前）どちらが目標を達成するのに適切ですか？わかりました，他の指示はありますか？意図を擦り合わせるため，システムが「確認」を行えるという対話の問題設定として問題を定式化 SSIM: 0.78 24/35

Slide 25

Slide 25 text

システムの「確認」は何をしている？１つのモデルによる編集結果が要求に沿えなさそうであれば，異なる特性の複数のモデルの出力から目的に合うものを選んでもらうポニーテールにしてどちらが目標を達成するのに適切ですか？モデル A モデル B 両方を提示問題：毎回選ぶのはユーザには手間（必要な時だけ確認してほしい）画像選択左かなあ確認編集指示文 25/35

Slide 26

Slide 26 text

マスク機構による編集指示文の曖昧性判定元画像のマスキングによる画像編集手法 [Shinagawa+, 2019] を利用 • マスクありモデル：細かい編集が得意 • マスクなしモデル：大きな編集が得意「頭を禿げさせて」マスク生成器 Generator （エンコーダを略記）マスクのエントロピーが閾値以上なら機械側から聞き返しを行う [Shinagawa+, 2020] 26/35

Slide 27

Slide 27 text

DALL-Eで曖昧性解消を行う画像編集曖昧な入力文（Prompt）から曖昧性を解消するための文をGPTで生成する [Mehrabi+, 2022] • 入力文は曖昧だと仮定し、専用のデータセットを作っている • Text-to-image Ambiguity Benchmark (TAB) dataset 曖昧な文を入れると生成画像も多様になる象は飛んでる可能性もある Is the Elephant Flying? [Mehrabi+, 2022] 27/35

Slide 28

Slide 28 text

実顔画像編集のconversational image editing CelebA-Dialogデータセットを構築 • 顔画像の説明文と編集指示文を付与 • 笑顔やメガネなど、5種類の編集について、5 段階の度合を調整できる • 機械の行動は、度合の確認、別の編集の提案、追加の編集の要求 Talk-to-edit [Jiang+, 2021] 28/35

Slide 29

Slide 29 text

ここまでのまとめ text guided interactive image editing text-to-image conversational image editing テキストによる対話型画像編集対話的画像編集テキストからの画像生成 • GANベースからDiffusionベースになって隆盛を極めている • 人海戦術で良いテキスト入力を探すのはそれなりにしんどい • 説明文ベース vs 編集指示文ベース • 編集前画像がある分多少マシだが、入力が雑ではいけない • ChatGPTを駆使する世界ではもっと楽になるのか？ • 機械側からユーザ側に働きかける • ユーザが雑でも、意図の擦り合わせを行うために、ユーザの対話行為推定や、機械の行動、対話戦略を考える 29/35

Slide 30

Slide 30 text

Language and Roboticsとの接続テキストによる画像編集はロボットの世界モデルになり得るか？ SayCan [Brohan+, 2022] 「蛇口」「蛇口から水」テキストによって得られた編集後画像をロボットのゴールとして利用できないか？（Sim-to-realの文脈であったような気がするが息絶えてる？）最近は、用意された行動のうち、適切な行動を大規模言語モデルで予測するケースが多い？水を止めて 30/35

Slide 31

Slide 31 text

対話的画像編集自体も、ロボットとの意図共有の手段として使える？人間の雑な要求に対して、確認をしたり、実際におおまかなイメージを画像で表現できるようになるかも・・・ !? ちょっと出かけてくるけど、午後から友達来るからこの部屋イイ感じにしといて・・・わかりました！こんな感じですかね？ 31/35

Slide 32

Slide 32 text

Language and Roboticsとの接続編集指示文による画像編集自体は、Robotics関連のタスクと近しい例： • 自然言語による物体操作タスク • 自然言語によるナビゲーションタスク自然言語を入力とした物体操作 [Bisk+, 2016] Vision and Dialog Navigation [Thomason+, 2019] 32/35

Slide 33

Slide 33 text

対話的なインタラクションもよく目にする [Horii+, 2018] 自然言語指示による物体持ち上げタスク【確認要求】対象の候補が複数存在する時、確認を行う（曖昧性の解消） 33/35

Slide 34

Slide 34 text

対話的なインタラクションもよく目にする【追加情報の要求】エラーを検出した時に、エラーから回復するために修正された新しい指示を要求する HANNA task [Nguyen+, 2019] Navigationにおいて、エージェントが迷ったときにだけ指示をもらうタスク 34/35

Slide 35

Slide 35 text

まとめ • 記号創発システムのローカルな意味の接地のために、対話による意図の接地が重要だと考えている • Roboticsでは扱わないドメインとして画像生成・編集を土台にした対話可能な機械の実現を目指した。 text-to-image, テキストによる対話型画像編集、対話的画像編集を紹介した • 説明文と編集指示文による編集の差異 • ユーザが雑でも、意図の擦り合わせを行うために、ユーザの対話行為推定や、機械の行動、対話戦略を考えることが重要 Language and Roboticsにおけるロボットへの指示タスクと、対話的画像編集は問題設定が近しい • [open question] 対話的画像編集はLanguage and Robotics にどのように貢献していくことができそうか？ 35/35

Slide 36

Slide 36 text

36/35 P.5 [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. P.14 [Dong+, 2017] Hao Dong, Simiao Yu, Chao Wu, and Yike Guo. Semantic image synthesis via adversarial learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 5706–5714, 2017. [Shinagawa+,2017] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura, Interactive Image Manipulation with Natural Language Instruction Commands, NIPS ViGiL workshop, 2017. P.15 [Hertz+, 2022] Hertz, Amir, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022). [Kawar+, 2022] Kawar, Bahjat, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. "Imagic: Text-based real image editing with diffusion models." arXiv preprint arXiv:2210.09276 (2022). 参考文献

Slide 37

Slide 37 text

37/35 P.16 [Shi+, 2021] Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 13590-13599 P.17 [Fu+, 2020] Tsu-Jui Fu, Xin Wang, Scott Grafton, Miguel Eckstein, and William Yang Wang. 2020. SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4413–4422, Online. Association for Computational Linguistics. P.19 [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative process. Cognition, 22(1):1 – 39. P.21 [Manuvinakurike+, 2018] Ramesh Manuvinakurike, Trung Bui, Walter Chang, and Kallirroi Georgila. 2018. Conversational Image Editing: Incremental Intent Identification in a New Dialogue Task. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages 284–295, Melbourne, Australia. Association for Computational Linguistics. 参考文献

Slide 38

Slide 38 text

38/35 P.26 [Shinagawa+, 2019] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura. Image Manipulation System with Natural Language Instruction. IEICE Transactions on Information and Systems, Vol.J102-D, No.8, pp.514–529, August, 2019. [Shinagawa+, 2020] Seitaro Shinagawa, Koichiro Yoshino, Seyed Hossein, Alavi, Kallirroi Georgila, David Traum, Sakriani Sakti, Satoshi Nakamura. An Interactive Image Editing System using an Uncertainty-based Confirmation Strategy. 2020 P.27 [Mehrabi+, 2022] Mehrabi, Ninareh, et al. "Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models." arXiv preprint arXiv:2211.12503 (2022). P.28 [Jiang+, 2021] Jiang, Yuming and Huang, Ziqi and Pan, Xingang and Loy, Chen Change and Liu, Ziwei. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 13799--13808. 2021. 参考文献

Slide 39

Slide 39 text

39/35 P.30 [Brohan+, 2022] Brohan, Anthony, et al. "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances." 6th Annual Conference on Robot Learning. 2022. P.32 [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. [Thomason+, 2019] Jesse Thomason, Michael Murray, Maya Cakmak, Luke Zettlemoyer. Vision-and-Dialog Navigation. CoRL2019. P.33 [Hatori+, 2018] Jun Hatori, Yuta Kikuchi, Sosuke Kobayashi, Kuniyuki Takahashi, Yuta Tsuboi, Yuya Unno, Wilson Ko, Jethro Tan. Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions. ICRA2018. P.34 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 参考文献