Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2022.12.17 第10回 Language and Robotics 研究会 講演資料

2022.12.17 第10回 Language and Robotics 研究会 講演資料

タイトル:意図の接地と意味の接地~テキストに紐づけられた対話的画像生成とLanguage and Roboticsとの接続と展望について~

Language and Robotics 研究会:https://sites.google.com/view/language-and-robotics/

Seitaro Shinagawa

December 17, 2022
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. 意図の接地と意味の接地
    ~テキストに紐づけられた対話的画像生成と
    Language and Roboticsとの接続と展望について~
    品川 政太朗
    AHC-Lab, NAIST
    2022.12.17
    第10回 Language and Robotics研究会

    View Slide

  2. 自己紹介
    品川 政太朗(しながわ せいたろう)
    ニューラルネットと対話したい人です
    奈良先端科学技術大学院大学
    先端科学技術研究科
    知能コミュニケーション研究室 助教
    好物:
    • Vision and Language(画像と言語の融合領域)
    • 対話システム
    • 深層学習
    HP:https://sites.google.com/view/seitaro-shinagawa/
    twitter: (@sei_shinagawa)
    2/35

    View Slide

  3. 身の上話:研究の興味と目指しているもの
    2014年~2015年 修士時代(東北大学)
    自律的に人とコミュニケーションを取りながら成長できる機械
    はどうやったら作れるのかに興味
    • 谷口先生の著書を読んで「これだ、この
    方向性だ」と思った→D進を決意
    • 「概念学習」を研究テーマとして標榜し
    ていたNAIST中村研にD進
    ※谷口先生の立命館大は博士課程の要件に
    TOEICスコア提出があり、時期的にTOEICを受け
    るのが間に合わなかったので選択肢にできず
    3/35

    View Slide

  4. 記号創発システムの
    ミクロ・マクロループという考え方
    機械と実世界
    機械と機械
    機械と人
    環境
    ローカルに通じることばの用法と意味
    常識(各コミュニティから
    のことばの用法と意味)
    常識が各コミュニティの
    コミュニケーションを制約
    あることばの用法と意味がローカルな相互作用によって創発され、
    全体に共有化されると常識として各コミュニティを制約するという考え方
    4/35

    View Slide

  5. 意味の接地(記号接地;symbol grounding)
    センサから得られる情報に記号(ラベルや自然言語など)を紐づけ
    ること [Harnad, 1990]
    [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem.
    Physica D: Nonlinear Phenomena, 42(1):335 – 346.
    ぶどう
    ソフトクリーム
    ピザ
    (※意味の接地の方法論はopen question(記号接地問題))
    5/35

    View Slide

  6. 意味の接地の難しさ
    意味や概念(と一般的になんとなく呼ばれているもの)は、
    明示的に切り取って定義することが難しいものも多い
    • 「美しい」と「かわいい」の境目はどこか?
    • 古いおもちゃのパーツを少しずつ新品に替えていったらどこまで
    「古いおもちゃ」だと言えるか?
    個人レベル・コミュニティレベルで理解されうる記号も異なる
    • 文化の差異(例:日本語の「いただきます」に相当することばは
    英語圏には無い)
    • 前提とできる知識・理解度の差異(例:「ディープでポン」で笑え
    る人は界隈の人だとすぐにわかる)
    • 経験や身体的な差異(例:初めて聞いた呼び方を正しいと思っ
    て覚えてしまう)
    ローカルな意味の接地、
    そのための対話による意図の接地が重要
    6/35

    View Slide

  7. 記号創発システムを背景に目指す世界:
    世界を対話(相互作用)可能な機械で満たすこと
    機械と実世界
    機械と機械
    機械と人
    環境
    ローカルに通じることばの用法と意味
    常識(各コミュニティから
    のことばの用法と意味)
    常識が各コミュニティの
    コミュニケーションを制約
    記号創発システムの
    ミクロ・マクロループ
    (機械がことばを自律的に理解し、
    言語獲得するための仕組み)
    この世界の前提には既に十分な機械が現実に稼働している
    ことが必要では?と考えた 7/35

    View Slide

  8. 世界を対話(相互作用)可能な機械で
    満たすためには?
    信条①:生活に根差して長く使われる機械が必要
    • エンタメを指向した面白いだけの機械はすぐに飽きられる
    • 生活や仕事を支援できるものであることが望ましい
    信条②:自然言語で対話できることが望ましい
    • 自然言語は人にとって最も一般的なコミュニケーション手段なので、
    将来的には役立つ場面がきっと多い
    • ことばを自律的に理解・獲得するためにはそもそもインターフェー
    スとして必要
    信条③:自然言語だけに閉じていないことが望ましい
    • 世の中、自然言語だけで完結する仕事だけではない
    • 新規の概念に対応するには、機械が自身のセンサから得た情報
    と自身の経験を照らし合わせて問題解決に当たれる必要がある
    8/35

    View Slide

  9. テキストからの画像生成をベースに
    対話的な画像生成へ
    テキストからの画像生成を題材に
    • 特に、実世界の事物だけでなくて、絵画やイラスト、広告といっ
    た人の創った世界で仕事をする人々も支援できたら魅力的と
    思っていた
    • 画像と自然言語に閉じれば、比較的学生の自分でも十分実行
    可能なレベルに収まるだろう(と思っていた)
    9/35

    View Slide

  10. 対話的画像編集のタスク設定
    ポニーテールにして
    編集指示文の入力
    比較
    「確認」を選択
    画像選択
    元画像の再設定
    左がいいな
    目標画像 元画像(対話前)
    どちらが目標を達成
    するのに適切ですか?
    わかりました,他の
    指示はありますか?
    機械:
    • 発話もしくは画像をユーザに提示
    SSIM: 0.78
    ユーザ:
    • 目標画像を持っている
    • 発話が可能
    10/35

    View Slide

  11. 対話的画像生成の課題
    • text-to-imageそのままでは実現できない
    • (対話という土俵で使うことを考えた時)機械側からど
    のように人間側に働きかけたら良いかという点は自
    明ではない
    • そもそも人間の説明はもっと雑では?
    11/35

    View Slide

  12. text-to-imageそのままでは実現できない
    説明文は画像の要約:一対一対応したデータではない
    →一から説明文を少し変えると何もかも変わる問題がある
    説明文 text-to-image
    model
    画像
    人間がトライアンドエラーすればある程度はハックできるが大変
    12/35

    View Slide

  13. 解決策:画像編集の問題として捉える
    説明文ベース
    説明文のうち、似た情報のみ
    を変えて編集する方法
    [Dong+, 2017]
    編集指示文ベース
    編集指示文(元画像と目標画像
    の差分に相当するテキスト)によ
    り編集する方法
    [Shinagawa+, 2017]
    13/35

    View Slide

  14. 説明文 vs 編集指示文
    説明文
    ベース
    編集指示文
    ベース
    追加データセット 〇必要なし △編集指示文と編集
    前後の画像が必要
    制御性 △学習データセット
    に合わせた綺麗な説
    明文が必要
    〇編集したい部分の
    み言及すれば良い
    14/35

    View Slide

  15. 今日のtext-to-imageや編集システムは
    説明ベースが主流
    Prompt-to-prompt
    [Hertz+, 2022]
    • text-to-imageで生成後に
    元になった説明文を編集
    • Cross attentionにより編
    集箇所を特定して編集
    Imagic [Kawar+, 2022]
    学習済みDiffusion modelを
    使って
    • 目標画像の説明文埋め
    込み𝑒𝑡𝑔𝑡
    • 元画像埋め込み𝑒𝑜𝑝𝑡
    を内挿できるように学習
    編集指示文というデータが無いのが原因? 15/35

    View Slide

  16. 編集指示文はいらない子?
    [Shi+, 2021]
    編集指示文が具体的な(Adobeの)操作系列で構成されるも
    のだと考えてタスクを再定義し、強化学習で最適化する手法
    T2ONetを提案。MA5k-Req、GIERデータセットも提案
    そんなことはない。特に、Adobeのチームが注目している
    Learning by Planning: Language-Guided Global Image Editing (CVPR2021)
    16/35

    View Slide

  17. Adobe以外はCLEVRによる人工データが多い
    • 編集前後の画像ペアと編集指示文データがそもそも少ない
    • 画像ペアから編集指示文生成するタスクも加えてデータ拡張
    SSCR: Iterative Language-Based Image
    Editing via Self-Supervised Counterfactual
    Reasoning (EMNLP2020) [Fu+, 2020]
    17/35

    View Slide

  18. 対話的画像生成の課題②、③
    • 機械側からどのように人間側に働きかけたら良いか
    という点は自明ではない
    • そもそも人間の説明はもっと雑では?
    ここまで見た対話型画像編集は全て受動的な機械
    • 結局機械がどう動くかは人間にはよく分からない
    機械側からユーザに働きかけて、ユーザの意図と機械
    の意図を擦り合わせる(意図を接地する)仕組みが必要
    →conversational image editing (対話的画像編集)
    18/35

    View Slide

  19. 意図の接地(基盤化; grounding)
    昨日のアレ観た?
    ああ、アレすごかったね
    「アレ」が何を指すのかお互いに分かっている
    →「アレ」についての共通理解(共通基盤)ができている
    2者間の対話において、お互いの考えていること(信念; belief)
    が一致していること [Clark+,1986]
    [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986.
    Referring as a collaborative process. Cognition, 22(1):1 – 39. 19/35

    View Slide

  20. 意図の接地には対話的プロセスが必要
    昨日のアレ観た?
    ああ、アレすごかったね
    W杯のこと
    芸能人の
    スキャンダル
    2者間の意図は通常異なることが多い
    →対話的プロセスを通せばお互いの意図のズレを認識できる
    シュート良かったね
    えっ?
    えっ?
    (確認行動)
    20/35

    View Slide

  21. conversational image editing
    • Adobeソフトを使っての
    画像編集
    • 2者による音声言語に
    よる対話
    • いかに短い時間でユー
    ザの発話の意図を理解
    して編集操作に反映す
    るかが肝
    [Manuvinakurike+, 2018]
    対話システムのトップ会議SIGDIAL2018のbest paper
    21/35

    View Slide

  22. conversational image editingにおける
    ユーザの対話行為(ユーザの意図)
    新しいものを追加
    前に言及した対象を更新
    以前の状態に戻す
    比較する
    イイね、とコメント
    良くないね、とコメント
    22/35

    View Slide

  23. 画像編集モデルによる
    conversational image editing [Shinagawa+,2020]
    学習した画像編集モデルが苦手とする表現が入ると
    おかしな出力を返してしまう
    →システムから働きかけて,意図を擦り合わせられれば解決可能
    !?
    編集要求(自然言語)の多様性に対応するのが難しい
    つまり、ユーザは雑
    システム
    ハンサムにして
    ユーザ
    編集指示文
    元画像
    編集結果

    23/35

    View Slide

  24. 確認戦略に基づく対話的画像編集システム
    ポニーテールにして
    編集指示文の入力
    SSIM: 0.56
    「確認」を選択
    画像選択
    元画像の再設定
    左がいいな
    目標画像 元画像(対話前)
    どちらが目標を達成
    するのに適切ですか?
    わかりました,他の
    指示はありますか?
    意図を擦り合わせるため,システムが「確認」を行えるという
    対話の問題設定として問題を定式化
    SSIM: 0.78
    24/35

    View Slide

  25. システムの「確認」は何をしている?
    1つのモデルによる編集結果が要求に沿えなさそうであれば,異なる
    特性の複数のモデルの出力から目的に合うものを選んでもらう
    ポニーテールにして
    どちらが目標を達成
    するのに適切ですか?
    モデル
    A
    モデル
    B
    両方を提示
    問題:毎回選ぶのはユーザには手間(必要な時だけ確認してほしい)
    画像選択
    左かなあ
    確認
    編集指示文
    25/35

    View Slide

  26. マスク機構による編集指示文の曖昧性判定
    元画像のマスキングによる画像編集手法 [Shinagawa+, 2019] を利用
    • マスクありモデル:細かい編集が得意
    • マスクなしモデル:大きな編集が得意
    「頭を禿げさせて」
    マスク
    生成器
    Generator
    (エンコーダを略記)
    マスクのエントロピーが閾値以上なら機械側から聞き返しを行う
    [Shinagawa+, 2020]
    26/35

    View Slide

  27. DALL-Eで曖昧性解消を行う画像編集
    曖昧な入力文(Prompt)から曖昧性を解消するための文をGPTで生成する
    [Mehrabi+, 2022]
    • 入力文は曖昧だと仮定し、専用のデータセットを作っている
    • Text-to-image Ambiguity Benchmark (TAB) dataset
    曖昧な文を入れると
    生成画像も多様になる
    象は飛んでる可能性もある
    Is the Elephant Flying? [Mehrabi+, 2022]
    27/35

    View Slide

  28. 実顔画像編集のconversational image editing
    CelebA-Dialogデータセットを構築
    • 顔画像の説明文と編集指示文を付与
    • 笑顔やメガネなど、5種類の編集について、5
    段階の度合を調整できる
    • 機械の行動は、度合の確認、別の編集の提案、
    追加の編集の要求
    Talk-to-edit [Jiang+, 2021]
    28/35

    View Slide

  29. ここまでのまとめ
    text guided interactive
    image editing
    text-to-image
    conversational
    image editing
    テキストによる
    対話型画像編集
    対話的画像編集
    テキストからの
    画像生成
    • GANベースからDiffusionベースに
    なって隆盛を極めている
    • 人海戦術で良いテキスト入力を探す
    のはそれなりにしんどい
    • 説明文ベース vs 編集指示文ベース
    • 編集前画像がある分多少マシだが、
    入力が雑ではいけない
    • ChatGPTを駆使する世界ではもっと
    楽になるのか?
    • 機械側からユーザ側に働きかける
    • ユーザが雑でも、意図の擦り合わせを
    行うために、ユーザの対話行為推定
    や、機械の行動、対話戦略を考える
    29/35

    View Slide

  30. Language and Roboticsとの接続
    テキストによる画像編集はロボットの世界モデルになり得るか?
    SayCan [Brohan+, 2022]
    「蛇口」
    「蛇口から水」
    テキストによって得られた編集
    後画像をロボットのゴールとして
    利用できないか?
    (Sim-to-realの文脈であったよ
    うな気がするが息絶えてる?)
    最近は、用意された行動の
    うち、適切な行動を大規模
    言語モデルで予測するケー
    スが多い?
    水を止めて
    30/35

    View Slide

  31. 対話的画像編集自体も、ロボットとの意図共有
    の手段として使える?
    人間の雑な要求に対して、確認をしたり、実際におおまかなイメー
    ジを画像で表現できるようになるかも・・・
    !?
    ちょっと出かけてくるけど、
    午後から友達来るから
    この部屋イイ感じにしといて
    ・・・わかりました!
    こんな感じですかね?
    31/35

    View Slide

  32. Language and Roboticsとの接続
    編集指示文による画像編集自体は、Robotics関連のタスクと近しい
    例:
    • 自然言語による物体操作タスク
    • 自然言語によるナビゲーションタスク
    自然言語を入力とした物体操作
    [Bisk+, 2016]
    Vision and Dialog Navigation
    [Thomason+, 2019]
    32/35

    View Slide

  33. 対話的なインタラクションもよく目にする
    [Horii+, 2018] 自然言語指示による物体持ち上げタスク
    【確認要求】
    対象の候補が複数存在する時、確認を行う(曖昧性の解消)
    33/35

    View Slide

  34. 対話的なインタラクションもよく目にする
    【追加情報の要求】
    エラーを検出した時に、エラーから回復するために修正された新し
    い指示を要求する
    HANNA task [Nguyen+, 2019]
    Navigationにおいて、エージェントが迷ったときにだけ指示をもらうタスク
    34/35

    View Slide

  35. まとめ
    • 記号創発システムのローカルな意味の接地のために、対話に
    よる意図の接地が重要だと考えている
    • Roboticsでは扱わないドメインとして画像生成・編集を土台に
    した対話可能な機械の実現を目指した。
    text-to-image, テキストによる対話型画像編集、対話的画像編
    集を紹介した
    • 説明文と編集指示文による編集の差異
    • ユーザが雑でも、意図の擦り合わせを行うために、ユーザの
    対話行為推定や、機械の行動、対話戦略を考えることが重要
    Language and Roboticsにおけるロボットへの指示タスクと、対
    話的画像編集は問題設定が近しい
    • [open question] 対話的画像編集はLanguage and Robotics
    にどのように貢献していくことができそうか? 35/35

    View Slide

  36. 36/35
    P.5
    [Harnad, 1990] Stevan Harnad. 1990. The symbol grounding problem. Physica D: Nonlinear
    Phenomena, 42(1):335 – 346.
    P.14
    [Dong+, 2017] Hao Dong, Simiao Yu, Chao Wu, and Yike Guo. Semantic image synthesis via
    adversarial learning. In Proceedings of the IEEE International Conference on Computer Vision,
    pages 5706–5714, 2017.
    [Shinagawa+,2017] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi
    Nakamura, Interactive Image Manipulation with Natural Language Instruction Commands, NIPS
    ViGiL workshop, 2017.
    P.15
    [Hertz+, 2022] Hertz, Amir, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel
    Cohen-Or. "Prompt-to-prompt image editing with cross attention control." arXiv preprint
    arXiv:2208.01626 (2022).
    [Kawar+, 2022] Kawar, Bahjat, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel,
    Inbar Mosseri, and Michal Irani. "Imagic: Text-based real image editing with diffusion
    models." arXiv preprint arXiv:2210.09276 (2022).
    参考文献

    View Slide

  37. 37/35
    P.16
    [Shi+, 2021] Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, Chenliang Xu;
    Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),
    2021, pp. 13590-13599
    P.17
    [Fu+, 2020] Tsu-Jui Fu, Xin Wang, Scott Grafton, Miguel Eckstein, and William Yang Wang.
    2020. SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual
    Reasoning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language
    Processing (EMNLP), pages 4413–4422, Online. Association for Computational Linguistics.
    P.19
    [Clark+,1986] Herbert H. Clark and Deanna Wilkes-Gibbs. 1986. Referring as a collaborative
    process. Cognition, 22(1):1 – 39.
    P.21
    [Manuvinakurike+, 2018] Ramesh Manuvinakurike, Trung Bui, Walter Chang, and Kallirroi
    Georgila. 2018. Conversational Image Editing: Incremental Intent Identification in a New Dialogue
    Task. In Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, pages
    284–295, Melbourne, Australia. Association for Computational Linguistics.
    参考文献

    View Slide

  38. 38/35
    P.26
    [Shinagawa+, 2019] Seitaro Shinagawa, Koichiro Yoshino, Sakti Sakriani, Yu Suzuki, Satoshi
    Nakamura. Image Manipulation System with Natural Language Instruction. IEICE Transactions
    on Information and Systems, Vol.J102-D, No.8, pp.514–529, August, 2019.
    [Shinagawa+, 2020] Seitaro Shinagawa, Koichiro Yoshino, Seyed Hossein, Alavi, Kallirroi
    Georgila, David Traum, Sakriani Sakti, Satoshi Nakamura. An Interactive Image Editing System
    using an Uncertainty-based Confirmation Strategy. 2020
    P.27
    [Mehrabi+, 2022] Mehrabi, Ninareh, et al. "Is the Elephant Flying? Resolving Ambiguities in
    Text-to-Image Generative Models." arXiv preprint arXiv:2211.12503 (2022).
    P.28
    [Jiang+, 2021] Jiang, Yuming and Huang, Ziqi and Pan, Xingang and Loy, Chen Change and Liu,
    Ziwei. Talk-to-Edit: Fine-Grained Facial Editing via Dialog. Proceedings of the IEEE/CVF
    International Conference on Computer Vision. pp. 13799--13808. 2021.
    参考文献

    View Slide

  39. 39/35
    P.30
    [Brohan+, 2022] Brohan, Anthony, et al. "Do As I Can, Not As I Say: Grounding Language in
    Robotic Affordances." 6th Annual Conference on Robot Learning. 2022.
    P.32
    [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with
    Robots. NAACL2016.
    [Thomason+, 2019] Jesse Thomason, Michael Murray, Maya Cakmak, Luke Zettlemoyer.
    Vision-and-Dialog Navigation. CoRL2019.
    P.33
    [Hatori+, 2018] Jun Hatori, Yuta Kikuchi, Sosuke Kobayashi, Kuniyuki Takahashi, Yuta Tsuboi,
    Yuya Unno, Wilson Ko, Jethro Tan. Interactively Picking Real-World Objects with Unconstrained
    Spoken Language Instructions. ICRA2018.
    P.34
    [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural
    Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019.
    参考文献

    View Slide