LLMは心の理論を持っているか？

© NTT, Inc. 2025 LLM は心の理論を持っているか？篠田
一聡（NTT株式会社人間情報研究所） 2025年10月11日機械学習と数理モデルの融合と理論の深化 Ⅲ （九州大学）

© NTT, Inc. 2025 2 自己紹介：篠田一聡 ◼ 略歴 ➢
～2023年：東京大学コンピュータ科学専攻博士 ✓ 自然言語理解モデルのバイアス除去に関する研究（AAAI’23） ➢ 2023年～：NTT株式会社人間情報研究所研究員 ✓ LLM の心の理論に関する研究（Interspeech’24, AAAI’25） ✓ LLM の事後学習に関する開発（tsuzumi2） ◼ 専門 ➢ 自然言語処理、バイアス、心の理論、事後学習 https://kazutoshishinoda.github.io/

© NTT, Inc. 2025 3 人間情報研究所 ◼ 人間情報研究所：NTT研究所にある14の研究所のうちの１つ ➢ その中でも、LLMの研究開発をする自然言語処理のグループに所属
https://www.rd.ntt/hil/

© NTT, Inc. 2025 4 目次 1. 背景 ➢ 心の理論とは
2. 関連研究 ➢ LLMにおける心の理論について 3. 研究紹介 ➢ 「ToMATO: 心の理論ベンチマークのためのロールプレイングLLMの心的状態の言語化」 4. 今後の課題 ➢ LLMによる心の理論の獲得に向けて

© NTT, Inc. 2025 6 心の理論とは ◼ 心の理論 (Theory of
Mind, ToM) [Premack+ 1978] ➢ 他者の心的状態を、観測可能な情報（行動、発言、表情等）から推測する能力 ➢ 人が社会で効率よく生活する上で欠かせない能力 -> ドアを開けたい？すみません -> すみませんと思ってない？ Premack et al. 1978. Does the chimpanzee have a theory of mind? Behavioral and Brain Sciences.

© NTT, Inc. 2025 7 心的状態とは ◼ 心の状態 ➢ 主な心的状態の類型は以下のように定義できる
[Beaudoin+ 2020] Beaudoin et al. 2020. Systematic Review and Inventory of Theory of Mind Measures for Young Children. Frontiers in Psychology.

© NTT, Inc. 2025 8 心的状態とは ◼ 人の心の状態 ➢ 主な心的状態の類型は以下のように定義できる
[Beaudoin+ 2020] Y ≠ X のとき、 ≔ T についての誤信念 (False Belief about T) という X が事実と異なるとき、誤信念 (False Belief) という Beaudoin et al. 2020. Systematic Review and Inventory of Theory of Mind Measures for Young Children. Frontiers in Psychology.

© NTT, Inc. 2025 9 発達心理学における心の理論 ◼ 子供の心の理論の発達を測るテスト ➢ 自閉症（ASD）の子供は心の理論が苦手なため、社会生活で苦労すると言われる。早期
に診断して、支援に繋げたいニーズがある。 ➢ 誤信念（事実とは異なる信念）を理解できるか？によってよく判定される https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 例：サリーアン課題 [Baron-Cohen+ 1985] 1. サリーとアンが部屋にいます。 2. サリーはビー玉をバスケットに入れて、部屋を出ました。 3. アンはビー玉を箱に移しました。 Q. サリーが部屋に帰った時、ビー玉をどこから探すでしょうか？ A. バスケット（≠ 箱なので、誤信念） Baron-Cohen et al. 1985. Does the autistic child have a “theory of mind” ? Cognition.

© NTT, Inc. 2025 10 人工知能における心の理論 (1/3) ◼ 近年、人工知能分野でも心の理論に注目が集まっている https://sites.google.com/view/theory-of-mind-aaai-2025
https://tomworkshop.github.io/ https://theoryofmindinhaichi2024.wordpress.com/ 0 10 20 30 40 50 60 70 80 90 100 2019 2020 2021 2022 2023 2024 2025 コンピュータ科学における心の理論の論文数論文数 (arXiv で Computer Science に絞ってタイトル検索) ChatGPT リリース人工知能関連の著名な学会で心の理論のワークショップが開催 https://icml.cc/virtual/2023/workshop/21489 ICML2023 IJCAI2025 AAAI2025 CHI2024

© NTT, Inc. 2025 11 人工知能における心の理論 (2/3) ◼ 人工知能（AI）に心の理論は必要か ➢
工学的な動機：AIと人・AIとAIが関わる上で、AIにも心の理論は必要。 ➢ 学術的な動機：AIがどうすれば心の理論を獲得できるかを理解することで、人の心の理論についても理解が深まる（作ることで理解する＝構成論的アプローチ）。 ✓ 例：人は心の理論を先天的に獲得している？それとも後天的に獲得される？比較

© NTT, Inc. 2025 12 人工知能における心の理論 (3/3) ◼ 米国では、国家安全保障のためにAIの心の理論が必要とされ、DARPAのプログラムが開始 ➢
“The goal of an upcoming program will be to develop an algorithmic theory of mind to model adversaries’ situational awareness and predict future behavior.”（敵国の状況認識を心の理論でモデル化し、未来の行動を予測することが目的）出典: https://sam.gov/workspace/contract/opp/39bdacdd858e460f972a2a976db6dc62/view

© NTT, Inc. 2025 13 まとめ ◼ 心の理論は他者の心的状態（信念、意図、願望、etc.）を推測する能力で、人が社会で生活する上で欠かせない。 ◼
発達心理学では、誤信念（事実とは異なる信念）の理解によって子供の心の理論の発達を評価してきた ◼ 人工知能分野でも、工学・学術・国防などの多様な動機で心の理論の研究に注目が集まっている

© NTT, Inc. 2025 15 LLMとは ◼ 大規模言語モデル（Large Language Model,
LLM） ➢ パラメータ数が大きい言語モデル ✓ LLMの例：ChatGPT、Gemini、Claude、Llamaなど ➢ 言語モデルは、左からn-1 番目までの単語をもとに n 番目の単語の確率を予測するモデルが主流 * ✓ 確率計算の例： ➢ 𝑝(𝑤𝑛 |𝑤1:𝑛−1 ) を計算するニューラルネットのパラメータ数が大きい（数百億）と LLM と言われる（これが小さいと、Small Language Model, SLMとも言われる） ✓ ニューラルネットの例：Transformer、Mambaなど ✓ パラメータ数の例：𝑁 × M 行列のパラメータ数は 𝑁 × M 𝑝 吾輩は猫である = 𝑝(吾輩)𝑝 は吾輩 𝑝 猫吾輩は 𝑝 で吾輩は猫 𝑝(ある|吾輩は猫で) * 自己回帰モデルという。最近は確率を予測する単語の順番がランダムな拡散言語モデルも話題。

© NTT, Inc. 2025 16 LLMは心の理論を持っているか？この質問に答えるために、多くのテスト（ベンチマーク）が提案されてきた Ma et al.
2023. Towards A Holistic Landscape of Situated Theory of Mind in Large Language Models. In Findings of EMNLP.

© NTT, Inc. 2025 17 ToMi [Le+ 2019] ◼ サリー・アン課題を拡張し、物語入力で信念の理解を評価
➢ ランダムに生成した物語を元に、人物の信念（物体Oがどこにあると思うか）を問う ➢ 自然言語処理分野で心の理論を評価するために、よく使われてきたベンチマーク Le et al. 2019. Revisiting the Evaluation of Theory of Mind through Question Answering. In EMNLP.

© NTT, Inc. 2025 18 FANToM [Kim+ 2023] ◼ 対話を入力として、人物の信念や情報を誰が知っているか等を評価
➢ 対話 (GPT生成) は物語より、実応用にありがちな設定な上、報告バイアスを軽減可能。 ➢ GPT-4 でも人間の精度には及ばない Kim et al. 2023. FANToM: A benchmark for stress-testing machine theory of mind in interactions. In EMNLP. 人が物理的に対話から離れることで登場人物の間で “情報の非対称性” が生まれ、誤信念が生じる

© NTT, Inc. 2025 19 FauxPas-EAI [Shapira+ 2023] ◼ 登場人物が失言をしていると気づけるかを評価
➢ 心理学の Faux Pas test（社会的失言検出課題） [Baron-Cohen+ 1999] を参考に構築 ➢ 失言に気づくためには、心の理論が必要 Shapira et al. 2023. How Well Do Large Language Models Perform on Faux Pas Tests? In Findings of ACL. Baron-Cohen et al. 1999. Recognition of faux pas by normally developing children and children with asperger syndrome or high-functioning autism. Journal of autism and developmental disorders, 29(5):407–418.

© NTT, Inc. 2025 20 GPT-4 の心の理論は人間と同等以上？ [Strachan+ 2024] ◼
心理学のテストを元に作成・評価すると、GPT-4 が人間と同等以上のスコア ➢ ただし、Irony以外は論文で公開されている心理学のテストを元に作成しており、それらの論文がLLMの学習に使われた（= データセット汚染）場合、スコアが高くなりやすい。 Strachan et al. 2024. Testing theory of mind in large language models and humans. Nature Human Behaviour 8, 1285–1295

© NTT, Inc. 2025 21 LLMは心の理論を持っている・いない論争 ◼ （心理学のテストによると）持っている ◼ （他のテストによると）持っていない
→ 正確に汎化性能を評価するためには、LLMの学習に使われていないような新しいテストが必要 https://www.technologyreview.jp/s/336934/ai-models-can- outperform-humans-in-tests-to-identify-mental-states/ https://www.gsb.stanford.edu/faculty-research/working-papers/theory-mind- may-have-spontaneously-emerged-large-language-models

© NTT, Inc. 2025 22 まとめ ◼ 物語または対話を入力として、信念を中心とした心的状態の理解を評価するベンチマークが多く提案されてきた。 ◼
心理学のテストに基づいたベンチマークは、LLMの学習時に使われる可能性があり、不当に精度が高くなりやすい。 ◼ 心の理論の汎化性能・頑健性を正確に評価するためには、０からベンチマークを構築することが望ましい。

© NTT, Inc. 2025 24 研究紹介発表先：AAAI 2025（Oral）@ フィラデルフィア ◼
貢献 ➢ LLMの心の理論を包括的かつ実応用に近い設定で評価するベンチマークを提案 ➢ 既存のLLMの心の理論を実応用に適用する上での課題を明らかに

© NTT, Inc. 2025 25 既存ベンチマークの課題 Sally and Anne are
in a room. Sally puts a ball in a basket and leaves the room. Anne them moves the ball into a box. Q. Where will Anne search for the ball? A. box Q. Where does Sally think that Anne search for the ball when she returns? A. basket https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 信念の理解を評価するベンチマーク（例：ToMi [Le+ 2019]）

© NTT, Inc. 2025 26 既存ベンチマークの課題 Sally and Anne are
in a room. Sally puts a ball in a basket and leaves the room. Anne them moves the ball into a box. Q. Where will Anne search for the ball? A. box Q. Where does Sally think that Anne search for the ball when she returns? A. basket https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 課題１信念の理解しか評価できない課題２信念についての誤信念の理解しか評価できない課題３登場人物の性格特性を考慮しなくてもいい※ ※人の性格特性は心的状態 [Izard+ 1993] や言語の使用 [Mehl+ 2006] と相関する Izard et al. 1993. Stability of emotion experiences and their relations to traits of personality. Journal of personality and social psychology. Mehl et al. 2006. Personality in its natural habitat: manifestations and implicit folk theories of personality in daily life. Journal of personality and social psychology. 信念の理解を評価するベンチマーク（例：ToMi [Le+ 2019]）

© NTT, Inc. 2025 27 ToMATO ◼ LLM は ToM
を持っているか? LLM の ToM は実応用で役に立つか？ ➢ これらの質問に答えるためにより相応しいベンチマーク ToMATO を提案 B=信念 I=意図 D=願望 E=感情 K=知識

© NTT, Inc. 2025 28 ToMATO ◼ LLM は ToM
を持っているか? LLM の ToM は実応用で役に立つか？ ➢ これらの質問に答えるためにより相応しいベンチマーク ToMATO を提案心の理論をより包括的に評価できる実応用の設定により適合している B=信念 I=意図 D=願望 E=感情 K=知識

© NTT, Inc. 2025 29 ToMATO の構築 # 対話 A:
“I completely agree …” B: ”That sounds …” # 質問 How does B think that A feels when B says “That sounds …” ? # 選択肢 1. B thinks that A feels relieved. 2. B thinks that A feels frustrated. 3. B thinks that A feels concerned. 4. B thinks that A feels empathetic. # 回答: 1 LLM同士の情報の非対称性のある対話 QAデータセット

© NTT, Inc. 2025 30 プロンプト ◼ ２つのロールプレイングLLMにペルソナを与える ➢ 名前、目的、性格特性、対話のシナリオ
➢ いずれも既存研究 [Zhou+ 2024] から抽出 Zhou et al. 2024. SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents. In ICLR. 対話のシナリオとペルソナ

© NTT, Inc. 2025 33 Inner Speech プロンプト ◼ ５類型の１次と２次の心的状態について
Inner Speech プロンプトを設計 ➢ 各プロンプトの続きをLLMが生成 ➢ フォーマット：(思考) “発話”

© NTT, Inc. 2025 34 LLM同士の情報の非対称性のある対話 ◼ 誤信念を誘発するために、互いの思考とペルソナは見えない設定で対話 ➢ Ablationによって実際に誤信念が誘発されることを確認
※Character A/B を演じる LLM には Llama-3-70B-Instruct を使用

© NTT, Inc. 2025 35 誤信念の検知 ◼ GPT と人間が、 B
が A の心的状態を正しく推定しているかを判定 ➢ A は 1次、B は 2次の心的状態を言語化し、各ターンで判定

© NTT, Inc. 2025 36 QAデータセットの構築 ◼ 思考と対話をQAデータセットに変換 ➢ {対話,
質問, 選択肢, 回答} を各発話について作成 *正しい回答は発話に対応する思考、正しくない回答は他の発話に対応する思考からサンプリング → 選択肢内の単語レベルの擬似相関を軽減 [Guo+ 2023]

© NTT, Inc. 2025 37 質の検証 ◼ Amazon Mechanical Turk
を用いて対話の一貫性と無害性、QAペアの妥当性をそれぞれ3人のアノテータで評価し、過半数に問題ありと判定されたものは削除 ◼ その結果、対話の数は 753、質問の数は 5.4k

© NTT, Inc. 2025 39 実験結果：心的状態ごとの精度 ◼ 特に誤信念の理解において、LLM は人間の精度より劣ることがわかった ◼
LLMにとって願望の理解は信念の理解よりも容易で、これは人間の子供と同様の傾向 1st-order 2nd-order Belief about False Belief (FB) about B=belief, I=intention, D=desire, E=emotion, K=knowledge

© NTT, Inc. 2025 40 実験結果：多様な性格特性への頑健性 ◼ LLM は多様な性格特性に対して頑健ではないことがわかった ◼
外交的（E=high）な登場人物の心的状態は、内向的（E=low）な登場人物の心的状態よりも推測しやすく、これは外向的な人の方が心的状態を明確に表現するからである可能性対象話者の性格特性をもとにサブセットを作成 O=開放性, C=誠実性, E=外向性, A=協調性, N=神経症傾向

© NTT, Inc. 2025 42 分析 ◼ Q. ToMATO はプロンプトで与えた性格特性を反映しているか？
◼ A. 反映していることが示唆された神経症傾向が “ある” LLM ほど “worried” を思考の中で生成し、神経症傾向が “ない” LLM ほど “happy” を思考の中で生成する

© NTT, Inc. 2025 43 分析 ◼ Q. ToMATO は単純な解き方（ショートカット）で解けるか？
◼ A. 比較的解けない = ToMATOで高い精度を得るには、複雑な解き方が必要 ToMATOは以下の4つのベンチマークの中で単語レベルの擬似相関が最も少ない

© NTT, Inc. 2025 44 まとめ ◼ LLMの心の理論をより包括的に、より実応用に近い設定で評価できるベンチマークToMATOを提案 ◼
ToMATOは、より誤信念が生成されやすい、情報の非対称性のあるLLM同士の対話によって構築 ◼ ToMATOでの実験によって、既存のベンチマークでは明らかにできなかった LLMの心の理論の課題を明らかにデータとコードはこちらで公開しています

© NTT, Inc. 2025 46 LLMによる心の理論の獲得に向けて ◼ 大きな方向性 ➢ 評価：より実応用を意識した心の理論の評価
➢ 学習：LLMの学習方法やデータを工夫して心の理論の性能を改善する ➢ 推論：学習をせずに、テスト時の手法で改善する ➢ 分析：LLMの心の理論を分析して理解を深め、改善方法についての着想を得る

© NTT, Inc. 2025 47 評価：未来の行動の予測 ◼ BigToM [Gandhi+ 2023],
SimpleToM [Gu+ 2024] ➢ 他者の心的状態だけでなく、未来の行動（と行動の合理性）を推測 ➢ 心的状態よりも、未来の行動を推測する方が難しい Gandhi et al. 2023. Understanding Social Reasoning in Language Models with Language Models. In NeurIPS. Gu et al. 2024. SimpleToM: Exposing the gap between explicit ToM inference and implicit ToM application in LLMs. SimpleToM BigToM

© NTT, Inc. 2025 48 評価：White Lie の理解 ◼ TactfulToM
[Liu+ 2025] ➢ 対話の中の、White Lie（人を傷つけないためにつく嘘）の理解を評価するベンチマーク ➢ 登場人物の信念と感情を同時に理解して推論する必要があり、より挑戦的なテスト Liu et al. 2025. TactfulToM: Do LLMs have the Theory of Mind ability to understand white lies? In EMNLP.

© NTT, Inc. 2025 49 学習：Supervised Fine-Tuning（SFT） ◼ 結論：あまり筋が良くない ➢
教師あり微調整（Supervised Fine-Tuning, SFT）とは、問題（入力）が与えられた時の答え（出力）の確率を最大化すること ➢ 心の理論に特化した学習データでSFTすると、似たテストデータではスコアが改善する ➢ しかし、分布が大きく異なるテストデータでは、逆に劣化してしまう [Shinoda+ 2025] ➢ 他の研究でも同様の報告 [Sclar+ 2023]。強化学習が有効な可能性（最近論文が増えてきた） ToMATOと類似データを作成してSFTした結果学習データとは分布が大きく異なるテストデータ Shinoda et al. 2025. ToMATO: Verbalizing the mental states of role-playing LLMs for benchmarking Theory of Mind. In AAAI. Sclar et al. 2023. Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker. In ACL. SFT後 → SFT前 →

© NTT, Inc. 2025 50 推論：SimToM [Wilf+ 2023] ◼ 質問が対象とする人物が知っている情報のみを元にLLMに回答させる
➢ 紛らわしい答えを入力から消すことで、誤答することが減る可能性 ➢ 人の物理的な移動による情報の非対称性が生じる文脈で適用可能 = Jimが知っている情報 Wilf et al. 2023. Think Twice: Perspective-Taking Improves Large Language Models’ Theory-of-Mind Capabilities. In ACL. = Jimが知っている情報 + Jimが知らない情報

© NTT, Inc. 2025 51 推論：Shoes-of-Others Prefixing [Shinoda+ 2025] ◼
“Let’s put ourselves in A’s shoes.” の続きを生成させてから回答させる ➢ LLMの思考過程の prefix を指定するだけなので、幅広いタスクに応用可能。 ➢ これにより、心の理論の性能だけでなく、思考過程の誠実性（※）が改善 Shinoda et al. 2025. Let’s put ourselves in sally’s shoes: Shoes-of-Others prefixing improves Theory of Mind in large language models. Lyu et al. 2023. Faithful Chain-of-Thought Reasoning. In IJCNLP-AACL. ※誠実性 (faithfulness) とは LLMの思考過程が、最後に出したLLMの回答を正しく説明していること。LLMの思考では、誠実性が低い思考が生成されることがある [Lyu+ 2023]。

© NTT, Inc. 2025 52 分析：神経科学に着想を得たLLMの分析 ◼ LLMにも、ToM Network があるか？
➢ 人には、心の理論を使う時に発火する脳の部位 (ToM Network) がある [Dodell-Feder+ 2011] ➢ まず、神経科学で人に対して行われるのと同様の方法で、LLMの ToM Network (Units) を特定 ➢ ランダムに介入した時よりも、 ToM Units に介入する時の方が、モデルによっては、心の理論の性能が劣化する → ToM Unitsが心の理論で重要な役割を持っている？心の理論の獲得のヒントが得られるかも？ Dodell-Feder et al. 2011. fMRI item analysis in a theory of mind task. NeuroImage. AlKhamissi et al. 2025. The LLM language network: A neuroscientific approach for identifying causally task-relevant units. In NAACL.

© NTT, Inc. 2025 53 ありがとうございました ◼ ご質問・感想・その他何かありましたら、以下までお気軽にご連絡ください。 ◼ 連絡先
➢ E-mail: [email protected] ➢ Xアカウント: https://x.com/shino__c

LLMは心の理論を持っているか？

LLMは心の理論を持っているか？

More Decks by Kazutoshi Shinoda

Featured

Transcript