論文紹介：Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker Melanie Sclar, Sachin Kumar, Peter West, Alane Suhr, Yejin Choi, Yulia Tsvetkov ACL2023 第15回最先端NLP勉強会（2023年8月27-28日）紹介者：篠田一聡（NTT コンピュータ&データサイエンス研究所）

概要背景 • Theory-of-Mind (ToM) という他人の信念などを推測する機能を評価する読解タスク (ToMi) で、教師ありモデルは高い精度を出せる (Arodi and
Cheung, 2021) 一方で、GPT-3 (few-shot) は苦戦していた (Sap et al., 2022)。貢献 • 訓練を必要としない、推論用アルゴリズムの SymbolicToM を提案。色々な LLM に適用することで ToMi ベンチマークでの精度を向上。 • 提案手法は記号表現（グラフ）を用いるので、解釈可能性が高い。 • LLM + SymbolicToM は、教師ありモデルや普通に使う LLM よりもわずかな入力の変化に対して頑健であることを示した。 2

背景：Theory-of-Mind（心の理論） Q: Theory-of-Mindとは？ A: “心の理論（Theory of Mind, ToM）は、ヒトや類人猿などが、他者の心の状態、目的、意図、知識、信念、志向、疑念、推測などを推測する直観による心の機能のことである。 ”
(Wikipedia) Q: なぜ LLM が ToM を獲得すべきか？ A: LLM に ToM などの社会的知能を身につけさせることを通して、人間の社会的知能についての理解を深めることは学術的に大事（構成論的アプローチ）。応用の観点からも、（メールの自動補完など）人同士のコミュニケーションをより良くするために LLM が役立つためには、ToM のような社会的知能を身につけさせることが必要。 3

背景：Theory-of-Mind（心の理論）の最近の研究本研究以外にも、今年の ACL と ICLR でいくつか論文がある • I Cast Detect
Thoughts: Learning to Converse and Guide with Intents and Theory-of-Mind in Dungeons and Dragons (ACL2023 main) • Theory of Mind in Freely-Told Children’s Narratives: A Classification Approach (ACL2023 findings) • Speaking the Language of Your Listener: Audience-Aware Adaptation via Plug-and-Play Theory of Mind (ACL2023 findings) • Computational Language Acquisition with Theory of Mind (ICLR2023) ICML2023 では 1st Workshop on Theory-of-Mind が開催されるなど、研究者からの注目が集まっている印象 4

背景：ToM をどう評価するか？ ToM の中心的な要件であるサリーとアン課題※ (Baron-Cohen et al., 1985) を読解タスクとしてモデルに解かせて評価する
(Nematzadeh et al., 2018)。例）右上の文章を読んで質問 (*) (**) に正しく答えられれば OK。 (*) Bob はセロリ (celery) がどこにあると思っているか？ (= first-order ToM) 正解：box (**) Alice はセロリがどこにあると思っていると Bob は思っているか？ (= second-order ToM) 正解：basket 5 ※発達心理学で、子供の社会的な認知能力を測るために使われるテスト。自閉症の子供は正しく答えられないことが多いらしい。

背景：GPT-3 をはじめとする LLM は ToM が苦手 • GPT-3 (few-shot) はToMのベンチマークで55~60%の精度しか出せず、教師ありモデル
(80~90%) に負ける (Sap et al. 2022)。 6 質問 (**) で実際に間違っている例（正解：basket）

手法：訓練を必要としない推論アルゴリズム SymbolicToM を提案 Symbolic ToM 入力： (sentences, question) (sentencesの一部, question’)
LLM 出力：answer 提案手法既存手法入力： (sentences, question) LLM or 教師ありモデル出力：answer 󰢐質問に答えるのに必要ない紛らわしい文を入力から消すことで、普通にLLMを使うよりも高精度 󰢐訓練を必要としないのでバイアスを学習せず、教師ありモデルよりも頑健 7

Notation • p ◦ 登場人物 (e.g., Bob) • Bp1p2…pk ◦
p1 thinks that p2 thinks that [...] pk thinks about the world state. (e.g., BBob,Alice) ◦ Bは右図のようにグラフとして表現 ◦ ノードは物体などのentity、エッジはentity 同士の関係 • G ◦ 本当の世界の状態。 Bと同様にグラフとして表現。 • B (= G) … true belief • B (≠ G) … false belief BBob,Alice BBob 8

手法：SymbolicToM の全体像 9

手法：まず Belief の構築 10 文章 Bp1p2…pk

手法：まず Belief の構築入力の文章を1文ずつ前から順に処理していく。各文 s で以下の操作を行う。 • 本当の世界の状態 G
を更新 ◦ NLI: “文→Gのエッジ” 矛盾するエッジを削除 ◦ GPT-3: “Bob then moves the celery to the box”→“The celery is in the box”に変換 ◦ OpenIE: “The celery is in the box” → (celery, box, is in) • 目撃者たち W を検知 ◦ 上記操作によって構築された G に繋がっている登場人物を全員目撃者とする • (p1…pk) が全員目撃者である時に、G への更新を Bp1…pk に反映この時、グラフの各エッジは文章中の１文と対応している 11

手法：残り 12 グラフの各エッジは文章中の１文と対応しているのを利用質問を言い換える質問中のエンティティと関係する Belief を持ってくる

実験設定評価は３種類のテストセットで行う • ToMi (Le et al., 2019); ToM を評価する唯一の大規模な読解データセット
• Story Structure Robustness Test Sets • ParaphrasedToMi ベースライン • LLM ◦ GPT-3/3.5/4, LLaMA-7/13B, etc. • 教師ありモデル ◦ Fine-tuned GPT-3 Curie (6000のデータで1epoch 訓練) ◦ TTT (Arodi and Cheung, 2021), LLMではない, 87k params 13

結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸：LLMの精度 ◦ 縦軸：LLM +
SymbolicToMの精度 14

SymbolicToMの精度 • 提案手法を使うことでほとんどのLLM の性能を向上。教師ありモデルに匹敵することも。 15

SymbolicToMの精度 • 提案手法を使うことでほとんどのLLM の性能を向上。教師ありモデルに匹敵することも。 • 教師ありモデル（Fine-tuned GPT-3 CurieとTTT）はテストセットと同じドメインで訓練されているのでかなり高い精度。 16

結果 - Robustness • 頑健性を評価するための３つのテストセットを作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦
D2: 登場人物と物体を３つに増やす ◦ D3: 物体の場所を４つに増やす 17

D2: 登場人物と物体を３つに増やす ◦ D3: 物体の場所を４つに増やす • LLM、教師ありモデルはともに頑健性が低い 18

D2: 登場人物と物体を３つに増やす ◦ D3: 物体の場所を４つに増やす • LLM、教師ありモデルはともに頑健性が低い • SymbolicToMによって頑健性は大幅に向上。GPT-3.5/4ではほぼ100%。（提案法に有利なテストセットなのでは ...？） 19

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 20

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 • 教師ありモデルは概ね精度が劣化。 21

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 • 教師ありモデルは概ね精度が劣化。 • 一方で提案手法の SymbolicToM
は比較的精度を保てている。 ◦ 提案手法で精度が下がっている原因は、 Beliefの構築の時に使う NLI/GPT-3/OpenIEのエラー。 22

後続の研究：KokoMind データセット (Shi et al., 2023) 複数人が話している動画から非言語・言語情報を抽出してコンテキストとし、 ToM を評価する質問などをLLMに与えて答えさせる。より現実に近い設定での評価が可能。
（論文はない...） 23 https://chats-lab.github.io/KokoMind/

まとめ • 推論用のアルゴリズム SymbolicToM を提案。LLM に適用することでToMiベンチマークでの精度を改善でき、教師ありモデルに匹敵。 • 訓練を必要としないのでデータセットバイアスを学習せず、教師ありモデルよりもエンティティの数の変化などに対して頑健
• パラフレーズへの頑健性の向上は今後の課題感想 • 本当の世界の状態と各人物の Beliefを区別して構築すること自体が貢献として大きそう • 提案手法はかなりタスクの前提に依存している印象（例えば、世界で起こっていることが全て言語で時系列順に記述されている前提で手法が設計されている）で、違う設定には汎化できなさそう。 • 実世界では言語化されないことがほとんどな気もするので、 KokoMindのように動画入力で ToMを評価するのも応用上は大事そう。 24

参考文献 • Maarten Sap, Ronan Le Bras, Daniel Fried, Yejin
Choi. 2022. Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs. In EMNLP. • Matthew Le, Y-Lan Boureau, Maximilian Nickel. 2019. Revisiting the Evaluation of Theory of Mind through Question Answering. In EMNLP. • Akshatha Arodi and Jackie Chi Kit Cheung. 2021. Textual Time Travel: A Temporally Informed Approach to Theory of Mind. In EMNLP. • Alan M Leslie, Ori Friedman, and Tim P German. 2004. Core mechanisms in ‘theory of mind’. Trends in cognitive sciences, 8(12):528–533. • Weiyan Shi* and Liang Qiu* and Dehong Xu and Pengwei Sui and Pan Lu and Zhou Yu. 2023. KokoMind: Can LLMs Understand Social Interactions? 25

論文紹介：Minding Language Models’ (Lack of) Theory ...

論文紹介：Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

Kazutoshi Shinoda

More Decks by Kazutoshi Shinoda

Other Decks in Research

Featured

Transcript

Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play

概要背景 • Theory-of-Mind (ToM) という他人の信念などを推測する機能を評価する読解タスク (ToMi) で、教師ありモデルは高い精度を出せる (Arodi and

背景：Theory-of-Mind（心の理論）の最近の研究本研究以外にも、今年の ACL と ICLR でいくつか論文がある • I Cast Detect

背景：ToM をどう評価するか？ ToM の中心的な要件であるサリーとアン課題※ (Baron-Cohen et al., 1985) を読解タスクとしてモデルに解かせて評価する

背景：GPT-3 をはじめとする LLM は ToM が苦手 • GPT-3 (few-shot) はToMのベンチマークで55~60%の精度しか出せず、教師ありモデル

手法：訓練を必要としない推論アルゴリズム SymbolicToM を提案 Symbolic ToM 入力： (sentences, question) (sentencesの一部, question’)

Notation • p ◦ 登場人物 (e.g., Bob) • Bp1p2…pk ◦

手法：SymbolicToM の全体像 9

手法：まず Belief の構築 10 文章 Bp1p2…pk

手法：まず Belief の構築入力の文章を1文ずつ前から順に処理していく。各文 s で以下の操作を行う。 • 本当の世界の状態 G

手法：残り 12 グラフの各エッジは文章中の１文と対応しているのを利用質問を言い換える質問中のエンティティと関係する Belief を持ってくる

実験設定評価は３種類のテストセットで行う • ToMi (Le et al., 2019); ToM を評価する唯一の大規模な読解データセット

結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸：LLMの精度 ◦ 縦軸：LLM +

結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸：LLMの精度 ◦ 縦軸：LLM +

結果 - ToMi • ToMiベンチマークで評価。 ◦ 横軸：LLMの精度 ◦ 縦軸：LLM +

結果 - Robustness • 頑健性を評価するための３つのテストセットを作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦

結果 - Robustness • 頑健性を評価するための３つのテストセットを作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦

結果 - Robustness • 頑健性を評価するための３つのテストセットを作成。サイズは100。 ◦ D1: 文章を長く複雑に ◦

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 20

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 • 教師ありモデルは概ね精度が劣化。 21

結果 - ParaphrasedToMi GPT3-DavinciでToMiテストセットからパラフレーズ生成して頑健性を評価 • 教師ありモデルは概ね精度が劣化。 • 一方で提案手法の SymbolicToM

後続の研究：KokoMind データセット (Shi et al., 2023) 複数人が話している動画から非言語・言語情報を抽出してコンテキストとし、 ToM を評価する質問などをLLMに与えて答えさせる。より現実に近い設定での評価が可能。

参考文献 • Maarten Sap, Ronan Le Bras, Daniel Fried, Yejin