Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2022.12.17 第10回 Language and Robotics 研究会 講演資料

2022.12.17 第10回 Language and Robotics 研究会 講演資料

タイトル:意図の接地と意味の接地~テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について~

Language and Robotics 研究会:https://sites.google.com/view/language-and-robotics/

Seitaro Shinagawa

December 17, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. 自己紹介 品川 政太朗(しながわ せいたろう) ニューラルネットと対話したい人です 奈良先端科学技術大学院大学 先端科学技術研究科 知能コミュニケーション研究室 助教 好物:

    • Vision and Language(画像と言語の融合領域) • 対話システム • 深層学習 HP:https://sites.google.com/view/seitaro-shinagawa/ twitter: (@sei_shinagawa) 2/35
  2. 記号創発システムの ミクロ・マクロループという考え方 機械と実世界 機械と機械 機械と人 環境 ローカルに通じることばの用法と意味 常識(各コミュニティから のことばの用法と意味) 常識が各コミュニティの

    コミュニケーションを制約 あることばの用法と意味がローカルな相互作用によって創発され、 全体に共有化されると常識として各コミュニティを制約するという考え方 4/35
  3. 意味の接地(記号接地;symbol grounding) センサから得られる情報に記号(ラベルや自然言語など)を紐づけ ること [Harnad, 1990] [Harnad, 1990] Stevan Harnad.

    1990. The symbol grounding problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. ぶどう ソフトクリーム ピザ (※意味の接地の方法論はopen question(記号接地問題)) 5/35
  4. 意味の接地の難しさ 意味や概念(と一般的になんとなく呼ばれているもの)は、 明示的に切り取って定義することが難しいものも多い • 「美しい」と「かわいい」の境目はどこか? • 古いおもちゃのパーツを少しずつ新品に替えていったらどこまで 「古いおもちゃ」だと言えるか? 個人レベル・コミュニティレベルで理解されうる記号も異なる •

    文化の差異(例:日本語の「いただきます」に相当することばは 英語圏には無い) • 前提とできる知識・理解度の差異(例:「ディープでポン」で笑え る人は界隈の人だとすぐにわかる) • 経験や身体的な差異(例:初めて聞いた呼び方を正しいと思っ て覚えてしまう) ローカルな意味の接地、 そのための対話による意図の接地が重要 6/35
  5. 記号創発システムを背景に目指す世界: 世界を対話(相互作用)可能な機械で満たすこと 機械と実世界 機械と機械 機械と人 環境 ローカルに通じることばの用法と意味 常識(各コミュニティから のことばの用法と意味) 常識が各コミュニティの

    コミュニケーションを制約 記号創発システムの ミクロ・マクロループ (機械がことばを自律的に理解し、 言語獲得するための仕組み) この世界の前提には既に十分な機械が現実に稼働している ことが必要では?と考えた 7/35
  6. 世界を対話(相互作用)可能な機械で 満たすためには? 信条①:生活に根差して長く使われる機械が必要 • エンタメを指向した面白いだけの機械はすぐに飽きられる • 生活や仕事を支援できるものであることが望ましい 信条②:自然言語で対話できることが望ましい • 自然言語は人にとって最も一般的なコミュニケーション手段なので、

    将来的には役立つ場面がきっと多い • ことばを自律的に理解・獲得するためにはそもそもインターフェー スとして必要 信条③:自然言語だけに閉じていないことが望ましい • 世の中、自然言語だけで完結する仕事だけではない • 新規の概念に対応するには、機械が自身のセンサから得た情報 と自身の経験を照らし合わせて問題解決に当たれる必要がある 8/35
  7. 対話的画像編集のタスク設定 ポニーテールにして 編集指示文の入力 比較 「確認」を選択 画像選択 元画像の再設定 左がいいな 目標画像 元画像(対話前)

    どちらが目標を達成 するのに適切ですか? わかりました,他の 指示はありますか? 機械: • 発話もしくは画像をユーザに提示 SSIM: 0.78 ユーザ: • 目標画像を持っている • 発話が可能 10/35
  8. 説明文 vs 編集指示文 説明文 ベース 編集指示文 ベース 追加データセット 〇必要なし △編集指示文と編集

    前後の画像が必要 制御性 △学習データセット に合わせた綺麗な説 明文が必要 〇編集したい部分の み言及すれば良い 14/35
  9. 今日のtext-to-imageや編集システムは 説明ベースが主流 Prompt-to-prompt [Hertz+, 2022] • text-to-imageで生成後に 元になった説明文を編集 • Cross

    attentionにより編 集箇所を特定して編集 Imagic [Kawar+, 2022] 学習済みDiffusion modelを 使って • 目標画像の説明文埋め 込み𝑒𝑡𝑔𝑡 • 元画像埋め込み𝑒𝑜𝑝𝑡 を内挿できるように学習 編集指示文というデータが無いのが原因? 15/35
  10. conversational image editing • Adobeソフトを使っての 画像編集 • 2者による音声言語に よる対話 •

    いかに短い時間でユー ザの発話の意図を理解 して編集操作に反映す るかが肝 [Manuvinakurike+, 2018] 対話システムのトップ会議SIGDIAL2018のbest paper 21/35
  11. 確認戦略に基づく対話的画像編集システム ポニーテールにして 編集指示文の入力 SSIM: 0.56 「確認」を選択 画像選択 元画像の再設定 左がいいな 目標画像

    元画像(対話前) どちらが目標を達成 するのに適切ですか? わかりました,他の 指示はありますか? 意図を擦り合わせるため,システムが「確認」を行えるという 対話の問題設定として問題を定式化 SSIM: 0.78 24/35
  12. ここまでのまとめ text guided interactive image editing text-to-image conversational image editing

    テキストによる 対話型画像編集 対話的画像編集 テキストからの 画像生成 • GANベースからDiffusionベースに なって隆盛を極めている • 人海戦術で良いテキスト入力を探す のはそれなりにしんどい • 説明文ベース vs 編集指示文ベース • 編集前画像がある分多少マシだが、 入力が雑ではいけない • ChatGPTを駆使する世界ではもっと 楽になるのか? • 機械側からユーザ側に働きかける • ユーザが雑でも、意図の擦り合わせを 行うために、ユーザの対話行為推定 や、機械の行動、対話戦略を考える 29/35
  13. Language and Roboticsとの接続 テキストによる画像編集はロボットの世界モデルになり得るか? SayCan [Brohan+, 2022] 「蛇口」 「蛇口から水」 テキストによって得られた編集

    後画像をロボットのゴールとして 利用できないか? (Sim-to-realの文脈であったよ うな気がするが息絶えてる?) 最近は、用意された行動の うち、適切な行動を大規模 言語モデルで予測するケー スが多い? 水を止めて 30/35
  14. まとめ • 記号創発システムのローカルな意味の接地のために、対話に よる意図の接地が重要だと考えている • Roboticsでは扱わないドメインとして画像生成・編集を土台に した対話可能な機械の実現を目指した。 text-to-image, テキストによる対話型画像編集、対話的画像編 集を紹介した

    • 説明文と編集指示文による編集の差異 • ユーザが雑でも、意図の擦り合わせを行うために、ユーザの 対話行為推定や、機械の行動、対話戦略を考えることが重要 Language and Roboticsにおけるロボットへの指示タスクと、対 話的画像編集は問題設定が近しい • [open question] 対話的画像編集はLanguage and Robotics にどのように貢献していくことができそうか? 35/35
  15. 36/35 P.5 [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding

    problem. Physica D: Nonlinear Phenomena, 42(1):335 – 346. P.14 [Dong+, 2017] Hao Dong, Simiao Yu, Chao Wu, and Yike Guo. Semantic image synthesis via adversarial learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 5706–5714, 2017. [Shinagawa+,2017] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi Nakamura, Interactive Image Manipulation with Natural Language Instruction Commands, NIPS ViGiL workshop, 2017. P.15 [Hertz+, 2022] Hertz, Amir, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022). [Kawar+, 2022] Kawar, Bahjat, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. "Imagic: Text-based real image editing with diffusion models." arXiv preprint arXiv:2210.09276 (2022). 参考文献
  16. 37/35 P.16 [Shi+, 2021] Jing Shi, Ning Xu, Yihang Xu,

    Trung Bui, Franck Dernoncourt, Chenliang Xu; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 13590-13599 P.17 [Fu+, 2020] Tsu-Jui Fu, Xin Wang, Scott Grafton, Miguel Eckstein, and William Yang Wang. 2020. SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4413–4422, Online. Association for Computational Linguistics. P.19 [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative process. Cognition, 22(1):1 – 39. P.21 [Manuvinakurike+, 2018] Ramesh Manuvinakurike, Trung Bui, Walter Chang, and Kallirroi Georgila. 2018. Conversational Image Editing: Incremental Intent Identification in a New Dialogue Task. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages 284–295, Melbourne, Australia. Association for Computational Linguistics. 参考文献
  17. 38/35 P.26 [Shinagawa+, 2019] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani,

    Yu Suzuki, Satoshi Nakamura. Image Manipulation System with Natural Language Instruction. IEICE Transactions on Information and Systems, Vol.J102-D, No.8, pp.514–529, August, 2019. [Shinagawa+, 2020] Seitaro Shinagawa, Koichiro Yoshino, Seyed Hossein, Alavi, Kallirroi Georgila, David Traum, Sakriani Sakti, Satoshi Nakamura. An Interactive Image Editing System using an Uncertainty-based Confirmation Strategy. 2020 P.27 [Mehrabi+, 2022] Mehrabi, Ninareh, et al. "Is the Elephant Flying? Resolving Ambiguities in Text-to-Image Generative Models." arXiv preprint arXiv:2211.12503 (2022). P.28 [Jiang+, 2021] Jiang, Yuming and Huang, Ziqi and Pan, Xingang and Loy, Chen Change and Liu, Ziwei. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 13799--13808. 2021. 参考文献
  18. 39/35 P.30 [Brohan+, 2022] Brohan, Anthony, et al. "Do As

    I Can, Not As I Say: Grounding Language in Robotic Affordances." 6th Annual Conference on Robot Learning. 2022. P.32 [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. [Thomason+, 2019] Jesse Thomason, Michael Murray, Maya Cakmak, Luke Zettlemoyer. Vision-and-Dialog Navigation. CoRL2019. P.33 [Hatori+, 2018] Jun Hatori, Yuta Kikuchi, Sosuke Kobayashi, Kuniyuki Takahashi, Yuta Tsuboi, Yuya Unno, Wilson Ko, Jethro Tan. Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions. ICRA2018. P.34 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 参考文献