Slide 1

Slide 1 text

意図の接地と意味の接地 ~テキストに紐づけられた対話的画像生成と Language and Roboticsとの接続と展望について~ 品川 政太朗 AHC-Lab, NAIST 2022.12.17 第10回 Language and Robotics研究会

Slide 2

Slide 2 text

自己紹介 品川 政太朗(しながわ せいたろう) ニューラルネットと対話したい人です 奈良先端科学技術大学院大学 先端科学技術研究科 知能コミュニケーション研究室 助教 好物: • Vision and Language(画像と言語の融合領域) • 対話システム • 深層学習 HP:https://sites.google.com/view/seitaro-shinagawa/ twitter: (@sei_shinagawa) 2/35

Slide 3

Slide 3 text

身の上話:研究の興味と目指しているもの 2014年~2015年 修士時代(東北大学) 自律的に人とコミュニケーションを取りながら成長できる機械 はどうやったら作れるのかに興味 • 谷口先生の著書を読んで「これだ、この 方向性だ」と思った→D進を決意 • 「概念学習」を研究テーマとして標榜し ていたNAIST中村研にD進 ※谷口先生の立命館大は博士課程の要件に TOEICスコア提出があり、時期的にTOEICを受け るのが間に合わなかったので選択肢にできず 3/35

Slide 4

Slide 4 text

記号創発システムの ミクロ・マクロループという考え方 機械と実世界 機械と機械 機械と人 環境 ローカルに通じることばの用法と意味 常識(各コミュニティから のことばの用法と意味) 常識が各コミュニティの コミュニケーションを制約 あることばの用法と意味がローカルな相互作用によって創発され、 全体に共有化されると常識として各コミュニティを制約するという考え方 4/35

Slide 5

Slide 5 text

意味の接地(記号接地;symbol grounding) センサから得られる情報に記号(ラベルや自然言語など)を紐づけ ること [Harnad, 1990] [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. ぶどう ソフトクリーム ピザ (※意味の接地の方法論はopen question(記号接地問題)) 5/35

Slide 6

Slide 6 text

意味の接地の難しさ 意味や概念(と一般的になんとなく呼ばれているもの)は、 明示的に切り取って定義することが難しいものも多い • 「美しい」と「かわいい」の境目はどこか? • 古いおもちゃのパーツを少しずつ新品に替えていったらどこまで 「古いおもちゃ」だと言えるか? 個人レベル・コミュニティレベルで理解されうる記号も異なる • 文化の差異(例:日本語の「いただきます」に相当することばは 英語圏には無い) • 前提とできる知識・理解度の差異(例:「ディープでポン」で笑え る人は界隈の人だとすぐにわかる) • 経験や身体的な差異(例:初めて聞いた呼び方を正しいと思っ て覚えてしまう) ローカルな意味の接地、 そのための対話による意図の接地が重要 6/35

Slide 7

Slide 7 text

記号創発システムを背景に目指す世界: 世界を対話(相互作用)可能な機械で満たすこと 機械と実世界 機械と機械 機械と人 環境 ローカルに通じることばの用法と意味 常識(各コミュニティから のことばの用法と意味) 常識が各コミュニティの コミュニケーションを制約 記号創発システムの ミクロ・マクロループ (機械がことばを自律的に理解し、 言語獲得するための仕組み) この世界の前提には既に十分な機械が現実に稼働している ことが必要では?と考えた 7/35

Slide 8

Slide 8 text

世界を対話(相互作用)可能な機械で 満たすためには? 信条①:生活に根差して長く使われる機械が必要 • エンタメを指向した面白いだけの機械はすぐに飽きられる • 生活や仕事を支援できるものであることが望ましい 信条②:自然言語で対話できることが望ましい • 自然言語は人にとって最も一般的なコミュニケーション手段なので、 将来的には役立つ場面がきっと多い • ことばを自律的に理解・獲得するためにはそもそもインターフェー スとして必要 信条③:自然言語だけに閉じていないことが望ましい • 世の中、自然言語だけで完結する仕事だけではない • 新規の概念に対応するには、機械が自身のセンサから得た情報 と自身の経験を照らし合わせて問題解決に当たれる必要がある 8/35

Slide 9

Slide 9 text

テキストからの画像生成をベースに 対話的な画像生成へ テキストからの画像生成を題材に • 特に、実世界の事物だけでなくて、絵画やイラスト、広告といっ た人の創った世界で仕事をする人々も支援できたら魅力的と 思っていた • 画像と自然言語に閉じれば、比較的学生の自分でも十分実行 可能なレベルに収まるだろう(と思っていた) 9/35

Slide 10

Slide 10 text

対話的画像編集のタスク設定 ポニーテールにして 編集指示文の入力 比較 「確認」を選択 画像選択 元画像の再設定 左がいいな 目標画像 元画像(対話前) どちらが目標を達成 するのに適切ですか? わかりました,他の 指示はありますか? 機械: • 発話もしくは画像をユーザに提示 SSIM: 0.78 ユーザ: • 目標画像を持っている • 発話が可能 10/35

Slide 11

Slide 11 text

対話的画像生成の課題 • text-to-imageそのままでは実現できない • (対話という土俵で使うことを考えた時)機械側からど のように人間側に働きかけたら良いかという点は自 明ではない • そもそも人間の説明はもっと雑では? 11/35

Slide 12

Slide 12 text

text-to-imageそのままでは実現できない 説明文は画像の要約:一対一対応したデータではない →一から説明文を少し変えると何もかも変わる問題がある 説明文 text-to-image model 画像 人間がトライアンドエラーすればある程度はハックできるが大変 12/35

Slide 13

Slide 13 text

解決策:画像編集の問題として捉える 説明文ベース 説明文のうち、似た情報のみ を変えて編集する方法 [Dong+, 2017] 編集指示文ベース 編集指示文(元画像と目標画像 の差分に相当するテキスト)によ り編集する方法 [Shinagawa+, 2017] 13/35

Slide 14

Slide 14 text

説明文 vs 編集指示文 説明文 ベース 編集指示文 ベース 追加データセット 〇必要なし △編集指示文と編集 前後の画像が必要 制御性 △学習データセット に合わせた綺麗な説 明文が必要 〇編集したい部分の み言及すれば良い 14/35

Slide 15

Slide 15 text

今日のtext-to-imageや編集システムは 説明ベースが主流 Prompt-to-prompt [Hertz+, 2022] • text-to-imageで生成後に 元になった説明文を編集 • Cross attentionにより編 集箇所を特定して編集 Imagic [Kawar+, 2022] 学習済みDiffusion modelを 使って • 目標画像の説明文埋め 込み𝑒𝑡𝑔𝑡 • 元画像埋め込み𝑒𝑜𝑝𝑡 を内挿できるように学習 編集指示文というデータが無いのが原因? 15/35

Slide 16

Slide 16 text

編集指示文はいらない子? [Shi+, 2021] 編集指示文が具体的な(Adobeの)操作系列で構成されるも のだと考えてタスクを再定義し、強化学習で最適化する手法 T2ONetを提案。MA5k-Req、GIERデータセットも提案 そんなことはない。特に、Adobeのチームが注目している Learning by Planning: Language-Guided Global Image Editing (CVPR2021) 16/35

Slide 17

Slide 17 text

Adobe以外はCLEVRによる人工データが多い • 編集前後の画像ペアと編集指示文データがそもそも少ない • 画像ペアから編集指示文生成するタスクも加えてデータ拡張 SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning (EMNLP2020) [Fu+, 2020] 17/35

Slide 18

Slide 18 text

対話的画像生成の課題②、③ • 機械側からどのように人間側に働きかけたら良いか という点は自明ではない • そもそも人間の説明はもっと雑では? ここまで見た対話型画像編集は全て受動的な機械 • 結局機械がどう動くかは人間にはよく分からない 機械側からユーザに働きかけて、ユーザの意図と機械 の意図を擦り合わせる(意図を接地する)仕組みが必要 →conversational image editing (対話的画像編集) 18/35

Slide 19

Slide 19 text

意図の接地(基盤化; grounding) 昨日のアレ観た? ああ、アレすごかったね 「アレ」が何を指すのかお互いに分かっている →「アレ」についての共通理解(共通基盤)ができている 2者間の対話において、お互いの考えていること(信念; belief) が一致していること [Clark+,1986] [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative process. Cognition, 22(1):1 – 39. 19/35

Slide 20

Slide 20 text

意図の接地には対話的プロセスが必要 昨日のアレ観た? ああ、アレすごかったね W杯のこと 芸能人の スキャンダル 2者間の意図は通常異なることが多い →対話的プロセスを通せばお互いの意図のズレを認識できる シュート良かったね えっ? えっ? (確認行動) 20/35

Slide 21

Slide 21 text

conversational image editing • Adobeソフトを使っての 画像編集 • 2者による音声言語に よる対話 • いかに短い時間でユー ザの発話の意図を理解 して編集操作に反映す るかが肝 [Manuvinakurike+, 2018] 対話システムのトップ会議SIGDIAL2018のbest paper 21/35

Slide 22

Slide 22 text

conversational image editingにおける ユーザの対話行為(ユーザの意図) 新しいものを追加 前に言及した対象を更新 以前の状態に戻す 比較する イイね、とコメント 良くないね、とコメント 22/35

Slide 23

Slide 23 text

画像編集モデルによる conversational image editing [Shinagawa+,2020] 学習した画像編集モデルが苦手とする表現が入ると おかしな出力を返してしまう →システムから働きかけて,意図を擦り合わせられれば解決可能 !? 編集要求(自然言語)の多様性に対応するのが難しい つまり、ユーザは雑 システム ハンサムにして ユーザ 編集指示文 元画像 編集結果 ? 23/35

Slide 24

Slide 24 text

確認戦略に基づく対話的画像編集システム ポニーテールにして 編集指示文の入力 SSIM: 0.56 「確認」を選択 画像選択 元画像の再設定 左がいいな 目標画像 元画像(対話前) どちらが目標を達成 するのに適切ですか? わかりました,他の 指示はありますか? 意図を擦り合わせるため,システムが「確認」を行えるという 対話の問題設定として問題を定式化 SSIM: 0.78 24/35

Slide 25

Slide 25 text

システムの「確認」は何をしている? 1つのモデルによる編集結果が要求に沿えなさそうであれば,異なる 特性の複数のモデルの出力から目的に合うものを選んでもらう ポニーテールにして どちらが目標を達成 するのに適切ですか? モデル A モデル B 両方を提示 問題:毎回選ぶのはユーザには手間(必要な時だけ確認してほしい) 画像選択 左かなあ 確認 編集指示文 25/35

Slide 26

Slide 26 text

マスク機構による編集指示文の曖昧性判定 元画像のマスキングによる画像編集手法 [Shinagawa+, 2019] を利用 • マスクありモデル:細かい編集が得意 • マスクなしモデル:大きな編集が得意 「頭を禿げさせて」 マスク 生成器 Generator (エンコーダを略記) マスクのエントロピーが閾値以上なら機械側から聞き返しを行う [Shinagawa+, 2020] 26/35

Slide 27

Slide 27 text

DALL-Eで曖昧性解消を行う画像編集 曖昧な入力文(Prompt)から曖昧性を解消するための文をGPTで生成する [Mehrabi+, 2022] • 入力文は曖昧だと仮定し、専用のデータセットを作っている • Text-to-image Ambiguity Benchmark (TAB) dataset 曖昧な文を入れると 生成画像も多様になる 象は飛んでる可能性もある Is the Elephant Flying? [Mehrabi+, 2022] 27/35

Slide 28

Slide 28 text

実顔画像編集のconversational image editing CelebA-Dialogデータセットを構築 • 顔画像の説明文と編集指示文を付与 • 笑顔やメガネなど、5種類の編集について、5 段階の度合を調整できる • 機械の行動は、度合の確認、別の編集の提案、 追加の編集の要求 Talk-to-edit [Jiang+, 2021] 28/35

Slide 29

Slide 29 text

ここまでのまとめ text guided interactive image editing text-to-image conversational image editing テキストによる 対話型画像編集 対話的画像編集 テキストからの 画像生成 • GANベースからDiffusionベースに なって隆盛を極めている • 人海戦術で良いテキスト入力を探す のはそれなりにしんどい • 説明文ベース vs 編集指示文ベース • 編集前画像がある分多少マシだが、 入力が雑ではいけない • ChatGPTを駆使する世界ではもっと 楽になるのか? • 機械側からユーザ側に働きかける • ユーザが雑でも、意図の擦り合わせを 行うために、ユーザの対話行為推定 や、機械の行動、対話戦略を考える 29/35

Slide 30

Slide 30 text

Language and Roboticsとの接続 テキストによる画像編集はロボットの世界モデルになり得るか? SayCan [Brohan+, 2022] 「蛇口」 「蛇口から水」 テキストによって得られた編集 後画像をロボットのゴールとして 利用できないか? (Sim-to-realの文脈であったよ うな気がするが息絶えてる?) 最近は、用意された行動の うち、適切な行動を大規模 言語モデルで予測するケー スが多い? 水を止めて 30/35

Slide 31

Slide 31 text

対話的画像編集自体も、ロボットとの意図共有 の手段として使える? 人間の雑な要求に対して、確認をしたり、実際におおまかなイメー ジを画像で表現できるようになるかも・・・ !? ちょっと出かけてくるけど、 午後から友達来るから この部屋イイ感じにしといて ・・・わかりました! こんな感じですかね? 31/35

Slide 32

Slide 32 text

Language and Roboticsとの接続 編集指示文による画像編集自体は、Robotics関連のタスクと近しい 例: • 自然言語による物体操作タスク • 自然言語によるナビゲーションタスク 自然言語を入力とした物体操作 [Bisk+, 2016] Vision and Dialog Navigation [Thomason+, 2019] 32/35

Slide 33

Slide 33 text

対話的なインタラクションもよく目にする [Horii+, 2018] 自然言語指示による物体持ち上げタスク 【確認要求】 対象の候補が複数存在する時、確認を行う(曖昧性の解消) 33/35

Slide 34

Slide 34 text

対話的なインタラクションもよく目にする 【追加情報の要求】 エラーを検出した時に、エラーから回復するために修正された新し い指示を要求する HANNA task [Nguyen+, 2019] Navigationにおいて、エージェントが迷ったときにだけ指示をもらうタスク 34/35

Slide 35

Slide 35 text

まとめ • 記号創発システムのローカルな意味の接地のために、対話に よる意図の接地が重要だと考えている • Roboticsでは扱わないドメインとして画像生成・編集を土台に した対話可能な機械の実現を目指した。 text-to-image, テキストによる対話型画像編集、対話的画像編 集を紹介した • 説明文と編集指示文による編集の差異 • ユーザが雑でも、意図の擦り合わせを行うために、ユーザの 対話行為推定や、機械の行動、対話戦略を考えることが重要 Language and Roboticsにおけるロボットへの指示タスクと、対 話的画像編集は問題設定が近しい • [open question] 対話的画像編集はLanguage and Robotics にどのように貢献していくことができそうか? 35/35

Slide 36

Slide 36 text

36/35 P.5 [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. P.14 [Dong+, 2017] Hao Dong, Simiao Yu, Chao Wu, and Yike Guo. Semantic image synthesis via adversarial learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 5706–5714, 2017. [Shinagawa+,2017] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura, Interactive Image Manipulation with Natural Language Instruction Commands, NIPS ViGiL workshop, 2017. P.15 [Hertz+, 2022] Hertz, Amir, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022). [Kawar+, 2022] Kawar, Bahjat, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. "Imagic: Text-based real image editing with diffusion models." arXiv preprint arXiv:2210.09276 (2022). 参考文献

Slide 37

Slide 37 text

37/35 P.16 [Shi+, 2021] Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 13590-13599 P.17 [Fu+, 2020] Tsu-Jui Fu, Xin Wang, Scott Grafton, Miguel Eckstein, and William Yang Wang. 2020. SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4413–4422, Online. Association for Computational Linguistics. P.19 [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative process. Cognition, 22(1):1 – 39. P.21 [Manuvinakurike+, 2018] Ramesh Manuvinakurike, Trung Bui, Walter Chang, and Kallirroi Georgila. 2018. Conversational Image Editing: Incremental Intent Identification in a New Dialogue Task. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages 284–295, Melbourne, Australia. Association for Computational Linguistics. 参考文献

Slide 38

Slide 38 text

38/35 P.26 [Shinagawa+, 2019] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura. Image Manipulation System with Natural Language Instruction. IEICE Transactions on Information and Systems, Vol.J102-D, No.8, pp.514–529, August, 2019. [Shinagawa+, 2020] Seitaro Shinagawa, Koichiro Yoshino, Seyed Hossein, Alavi, Kallirroi Georgila, David Traum, Sakriani Sakti, Satoshi Nakamura. An Interactive Image Editing System using an Uncertainty-based Confirmation Strategy. 2020 P.27 [Mehrabi+, 2022] Mehrabi, Ninareh, et al. "Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models." arXiv preprint arXiv:2211.12503 (2022). P.28 [Jiang+, 2021] Jiang, Yuming and Huang, Ziqi and Pan, Xingang and Loy, Chen Change and Liu, Ziwei. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 13799--13808. 2021. 参考文献

Slide 39

Slide 39 text

39/35 P.30 [Brohan+, 2022] Brohan, Anthony, et al. "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances." 6th Annual Conference on Robot Learning. 2022. P.32 [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. [Thomason+, 2019] Jesse Thomason, Michael Murray, Maya Cakmak, Luke Zettlemoyer. Vision-and-Dialog Navigation. CoRL2019. P.33 [Hatori+, 2018] Jun Hatori, Yuta Kikuchi, Sosuke Kobayashi, Kuniyuki Takahashi, Yuta Tsuboi, Yuya Unno, Wilson Ko, Jethro Tan. Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions. ICRA2018. P.34 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 参考文献