Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMは心の理論を持っているか?

Avatar for Kazutoshi Shinoda Kazutoshi Shinoda
October 10, 2025
100

 LLMは心の理論を持っているか?

2025年10月11日 機械学習と数理モデルの融合と理論の深化 Ⅲ(九州大学)

Avatar for Kazutoshi Shinoda

Kazutoshi Shinoda

October 10, 2025
Tweet

Transcript

  1. © NTT, Inc. 2025 LLM は 心の理論 を 持っているか? 篠田

    一聡(NTT株式会社 人間情報研究所) 2025年10月11日 機械学習と数理モデルの融合と理論の深化 Ⅲ (九州大学)
  2. © NTT, Inc. 2025 2 自己紹介:篠田 一聡 ◼ 略歴 ➢

    ~2023年:東京大学 コンピュータ科学専攻 博士 ✓ 自然言語理解モデルのバイアス除去に関する研究(AAAI’23) ➢ 2023年~:NTT株式会社 人間情報研究所 研究員 ✓ LLM の心の理論に関する研究(Interspeech’24, AAAI’25) ✓ LLM の事後学習に関する開発(tsuzumi2) ◼ 専門 ➢ 自然言語処理、バイアス、心の理論、事後学習 https://kazutoshishinoda.github.io/
  3. © NTT, Inc. 2025 4 目次 1. 背景 ➢ 心の理論とは

    2. 関連研究 ➢ LLMにおける心の理論について 3. 研究紹介 ➢ 「ToMATO: 心の理論ベンチマークのためのロールプレイングLLMの心的状態の言語化」 4. 今後の課題 ➢ LLMによる心の理論の獲得に向けて
  4. © NTT, Inc. 2025 6 心の理論とは ◼ 心の理論 (Theory of

    Mind, ToM) [Premack+ 1978] ➢ 他者の心的状態を、観測可能な情報(行動、発言、表情等)から推測する能力 ➢ 人が社会で効率よく生活する上で欠かせない能力 -> ドアを開けたい? すみません -> すみませんと思ってない? Premack et al. 1978. Does the chimpanzee have a theory of mind? Behavioral and Brain Sciences.
  5. © NTT, Inc. 2025 7 心的状態とは ◼ 心の状態 ➢ 主な心的状態の類型は以下のように定義できる

    [Beaudoin+ 2020] Beaudoin et al. 2020. Systematic Review and Inventory of Theory of Mind Measures for Young Children. Frontiers in Psychology.
  6. © NTT, Inc. 2025 8 心的状態とは ◼ 人の心の状態 ➢ 主な心的状態の類型は以下のように定義できる

    [Beaudoin+ 2020] Y ≠ X のとき、 ≔ T についての 誤信念 (False Belief about T) という X が事実と異なるとき、誤信念 (False Belief) という Beaudoin et al. 2020. Systematic Review and Inventory of Theory of Mind Measures for Young Children. Frontiers in Psychology.
  7. © NTT, Inc. 2025 9 発達心理学における心の理論 ◼ 子供の心の理論の発達を測るテスト ➢ 自閉症(ASD)の子供は心の理論が苦手なため、社会生活で苦労すると言われる。早期

    に診断して、支援に繋げたいニーズがある。 ➢ 誤信念(事実とは異なる信念)を理解できるか?によってよく判定される https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 例:サリーアン課題 [Baron-Cohen+ 1985] 1. サリーとアンが部屋にいます。 2. サリーはビー玉をバスケットに入れて、部屋を出ました。 3. アンはビー玉を箱に移しました。 Q. サリーが部屋に帰った時、ビー玉をどこから探すでしょ うか? A. バスケット(≠ 箱なので、誤信念) Baron-Cohen et al. 1985. Does the autistic child have a “theory of mind” ? Cognition.
  8. © NTT, Inc. 2025 10 人工知能における心の理論 (1/3) ◼ 近年、人工知能分野でも心の理論に注目が集まっている https://sites.google.com/view/theory-of-mind-aaai-2025

    https://tomworkshop.github.io/ https://theoryofmindinhaichi2024.wordpress.com/ 0 10 20 30 40 50 60 70 80 90 100 2019 2020 2021 2022 2023 2024 2025 コンピュータ科学における心の理論の論文数 論文数 (arXiv で Computer Science に絞ってタイトル検索) ChatGPT リリース 人工知能関連の著名な学会で心の理論のワークショップが開催 https://icml.cc/virtual/2023/workshop/21489 ICML2023 IJCAI2025 AAAI2025 CHI2024
  9. © NTT, Inc. 2025 11 人工知能における心の理論 (2/3) ◼ 人工知能(AI)に心の理論は必要か ➢

    工学的な動機:AIと人・AIとAIが関わる上で、AIにも心の理論は必要。 ➢ 学術的な動機:AIがどうすれば心の理論を獲得できるかを理解することで、人の心の理 論についても理解が深まる(作ることで理解する=構成論的アプローチ)。 ✓ 例:人は心の理論を先天的に獲得している?それとも後天的に獲得される? 比較
  10. © NTT, Inc. 2025 12 人工知能における心の理論 (3/3) ◼ 米国では、国家安全保障のためにAIの心の理論が必要とされ、DARPAのプログラムが開始 ➢

    “The goal of an upcoming program will be to develop an algorithmic theory of mind to model adversaries’ situational awareness and predict future behavior.”(敵国の状況認識を心の理論でモデル化し、未来の行動を予 測することが目的) 出典: https://sam.gov/workspace/contract/opp/39bdacdd858e460f972a2a976db6dc62/view
  11. © NTT, Inc. 2025 13 まとめ ◼ 心の理論は他者の心的状態(信念、意図、願望、etc.)を推測する能力で、 人が社会で生活する上で欠かせない。 ◼

    発達心理学では、誤信念(事実とは異なる信念)の理解によって子供の心の 理論の発達を評価してきた ◼ 人工知能分野でも、工学・学術・国防などの多様な動機で心の理論の研究に 注目が集まっている
  12. © NTT, Inc. 2025 15 LLMとは ◼ 大規模言語モデル(Large Language Model,

    LLM) ➢ パラメータ数が大きい言語モデル ✓ LLMの例:ChatGPT、Gemini、Claude、Llamaなど ➢ 言語モデルは、 左からn-1 番目までの単語をもとに n 番目の単語の確率を予測するモデ ルが主流 * ✓ 確率計算の例: ➢ 𝑝(𝑤𝑛 |𝑤1:𝑛−1 ) を計算するニューラルネットのパラメータ数が大きい(数百億)と LLM と 言われる(これが小さいと、Small Language Model, SLMとも言われる) ✓ ニューラルネットの例:Transformer、Mambaなど ✓ パラメータ数の例:𝑁 × M 行列のパラメータ数は 𝑁 × M 𝑝 吾輩は猫である = 𝑝(吾輩)𝑝 は 吾輩 𝑝 猫 吾輩は 𝑝 で 吾輩は猫 𝑝(ある|吾輩は猫で) * 自己回帰モデルという。最近は確率を予測する単語の順番がランダムな拡散言語モデルも話題。
  13. © NTT, Inc. 2025 17 ToMi [Le+ 2019] ◼ サリー・アン課題を拡張し、物語入力で信念の理解を評価

    ➢ ランダムに生成した物語を元に、人物の信念(物体Oがどこにあると思うか)を問う ➢ 自然言語処理分野で心の理論を評価するために、よく使われてきたベンチマーク Le et al. 2019. Revisiting the Evaluation of Theory of Mind through Question Answering. In EMNLP.
  14. © NTT, Inc. 2025 18 FANToM [Kim+ 2023] ◼ 対話を入力として、人物の信念や情報を誰が知っているか等を評価

    ➢ 対話 (GPT生成) は物語より、実応用にありがちな設定な上、報告バイアスを軽減可能。 ➢ GPT-4 でも人間の精度には及ばない Kim et al. 2023. FANToM: A benchmark for stress-testing machine theory of mind in interactions. In EMNLP. 人が物理的に対話か ら離れることで登場 人物の間で “情報の 非対称性” が生まれ、 誤信念が生じる
  15. © NTT, Inc. 2025 19 FauxPas-EAI [Shapira+ 2023] ◼ 登場人物が失言をしていると気づけるかを評価

    ➢ 心理学の Faux Pas test(社会的失言検出課題) [Baron-Cohen+ 1999] を参考に構築 ➢ 失言に気づくためには、心の理論が必要 Shapira et al. 2023. How Well Do Large Language Models Perform on Faux Pas Tests? In Findings of ACL. Baron-Cohen et al. 1999. Recognition of faux pas by normally developing children and children with asperger syndrome or high-functioning autism. Journal of autism and developmental disorders, 29(5):407–418.
  16. © NTT, Inc. 2025 20 GPT-4 の心の理論は人間と同等以上? [Strachan+ 2024] ◼

    心理学のテストを元に作成・評価すると、GPT-4 が人間と同等以上のスコア ➢ ただし、Irony以外は論文で公開されている心理学のテストを元に作成しており、それら の論文がLLMの学習に使われた(= データセット汚染)場合、スコアが高くなりやすい。 Strachan et al. 2024. Testing theory of mind in large language models and humans. Nature Human Behaviour 8, 1285–1295
  17. © NTT, Inc. 2025 21 LLMは心の理論を持っている・いない論争 ◼ (心理学のテストによると)持っている ◼ (他のテストによると)持っていない

    → 正確に汎化性能を評価するためには、LLMの学習に使われていないような新しいテストが必要 https://www.technologyreview.jp/s/336934/ai-models-can- outperform-humans-in-tests-to-identify-mental-states/ https://www.gsb.stanford.edu/faculty-research/working-papers/theory-mind- may-have-spontaneously-emerged-large-language-models
  18. © NTT, Inc. 2025 22 まとめ ◼ 物語または対話を入力として、信念を中心とした心的状態の理解を評価する ベンチマークが多く提案されてきた。 ◼

    心理学のテストに基づいたベンチマークは、LLMの学習時に使われる可能性 があり、不当に精度が高くなりやすい。 ◼ 心の理論の汎化性能・頑健性を正確に評価するためには、0からベンチマー クを構築することが望ましい。
  19. © NTT, Inc. 2025 24 研究紹介 発表先:AAAI 2025(Oral)@ フィラデルフィア ◼

    貢献 ➢ LLMの心の理論を包括的かつ実応用に近い設定で評価するベンチマークを提案 ➢ 既存のLLMの心の理論を実応用に適用する上での課題を明らかに
  20. © NTT, Inc. 2025 25 既存ベンチマークの課題 Sally and Anne are

    in a room. Sally puts a ball in a basket and leaves the room. Anne them moves the ball into a box. Q. Where will Anne search for the ball? A. box Q. Where does Sally think that Anne search for the ball when she returns? A. basket https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 信念の理解を評価するベンチマーク (例:ToMi [Le+ 2019])
  21. © NTT, Inc. 2025 26 既存ベンチマークの課題 Sally and Anne are

    in a room. Sally puts a ball in a basket and leaves the room. Anne them moves the ball into a box. Q. Where will Anne search for the ball? A. box Q. Where does Sally think that Anne search for the ball when she returns? A. basket https://en.wikipedia.org/wiki/Sally%E2%80%93Anne_test 課題1 信念の理解 しか評価できない 課題2 信念についての誤信念 の理解しか評価できない 課題3 登場人物の性格特性を考 慮しなくてもいい※ ※人の性格特性は心的状態 [Izard+ 1993] や 言語の使用 [Mehl+ 2006] と相関する Izard et al. 1993. Stability of emotion experiences and their relations to traits of personality. Journal of personality and social psychology. Mehl et al. 2006. Personality in its natural habitat: manifestations and implicit folk theories of personality in daily life. Journal of personality and social psychology. 信念の理解を評価するベンチマーク (例:ToMi [Le+ 2019])
  22. © NTT, Inc. 2025 27 ToMATO ◼ LLM は ToM

    を持っているか? LLM の ToM は実応用で役に立つ か? ➢ これらの質問に答えるためにより相応しいベンチマーク ToMATO を提案 B=信念 I=意図 D=願望 E=感情 K=知識
  23. © NTT, Inc. 2025 28 ToMATO ◼ LLM は ToM

    を持っているか? LLM の ToM は実応用で役に立つ か? ➢ これらの質問に答えるためにより相応しいベンチマーク ToMATO を提案 心の理論をより包括的に評価できる 実応用の設定により適合している B=信念 I=意図 D=願望 E=感情 K=知識
  24. © NTT, Inc. 2025 29 ToMATO の構築 # 対話 A:

    “I completely agree …” B: ”That sounds …” # 質問 How does B think that A feels when B says “That sounds …” ? # 選択肢 1. B thinks that A feels relieved. 2. B thinks that A feels frustrated. 3. B thinks that A feels concerned. 4. B thinks that A feels empathetic. # 回答: 1 LLM同士の情報の非対称性のある対話 QAデータセット
  25. © NTT, Inc. 2025 30 プロンプト ◼ 2つのロールプレイングLLMにペルソナを与える ➢ 名前、目的、性格特性、対話のシナリオ

    ➢ いずれも既存研究 [Zhou+ 2024] から抽出 Zhou et al. 2024. SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents. In ICLR. 対話のシナリオとペルソナ
  26. © NTT, Inc. 2025 33 Inner Speech プロンプト ◼ 5類型の1次と2次の心的状態について

    Inner Speech プロンプトを設計 ➢ 各プロンプトの続きをLLMが生成 ➢ フォーマット:(思考) “発話”
  27. © NTT, Inc. 2025 35 誤信念の検知 ◼ GPT と人間が、 B

    が A の心的状態を正しく推定しているかを判定 ➢ A は 1次、B は 2次の心的状態を言語化し、各ターンで判定
  28. © NTT, Inc. 2025 36 QAデータセットの構築 ◼ 思考と対話をQAデータセットに変換 ➢ {対話,

    質問, 選択肢, 回答} を各発話について作成 *正しい回答は発話に対応する思考、正しくない回答は他の発話に対応する思考からサン プリング → 選択肢内の単語レベルの擬似相関を軽減 [Guo+ 2023]
  29. © NTT, Inc. 2025 37 質の検証 ◼ Amazon Mechanical Turk

    を用いて対話の一貫性と無害性、QAペアの妥当性 をそれぞれ3人のアノテータで評価し、過半数に問題ありと判定されたもの は削除 ◼ その結果、対話の数は 753、質問の数は 5.4k
  30. © NTT, Inc. 2025 39 実験結果:心的状態ごとの精度 ◼ 特に誤信念の理解において、LLM は人間の精度より劣ることがわかった ◼

    LLMにとって願望の理解は信念の理解よりも容易で、これは人間の子供と同様の傾向 1st-order 2nd-order Belief about False Belief (FB) about B=belief, I=intention, D=desire, E=emotion, K=knowledge
  31. © NTT, Inc. 2025 40 実験結果:多様な性格特性への頑健性 ◼ LLM は多様な性格特性に対して頑健ではないことがわかった ◼

    外交的(E=high)な登場人物の心的状態は、内向的(E=low)な登場人物の心的状態よりも 推測しやすく、これは外向的な人の方が心的状態を明確に表現するからである可能性 対象話者の 性格特性をもと にサブセットを 作成 O=開放性, C=誠実性, E=外向性, A=協調性, N=神経症傾向
  32. © NTT, Inc. 2025 41 分析 ◼ Q. 情報の非対称性のある対話は、誤信念の生成を促進するか? ◼

    A. する ペルソナと思考の双方について、相手に見えない方が誤信 念の生成される頻度が高い
  33. © NTT, Inc. 2025 42 分析 ◼ Q. ToMATO はプロンプトで与えた性格特性を反映しているか?

    ◼ A. 反映していることが示唆された 神経症傾向が “ある” LLM ほど “worried” を思考の中で生成し、 神経症傾向が “ない” LLM ほど “happy” を思考の中で生成する
  34. © NTT, Inc. 2025 43 分析 ◼ Q. ToMATO は単純な解き方(ショートカット)で解けるか?

    ◼ A. 比較的解けない = ToMATOで高い精度を得るには、複雑な解き方が必要 ToMATOは以下の4つのベンチマークの中で単語レベルの擬似相関が最も少ない
  35. © NTT, Inc. 2025 44 まとめ ◼ LLMの心の理論をより包括的に、より実応用に近い設定で評価できるベンチ マークToMATOを提案 ◼

    ToMATOは、より誤信念が生成されやすい、情報の非対称性のあるLLM同士 の対話によって構築 ◼ ToMATOでの実験によって、既存のベンチマークでは明らかにできなかった LLMの心の理論の課題を明らかに データとコードはこちら で公開しています
  36. © NTT, Inc. 2025 46 LLMによる心の理論の獲得に向けて ◼ 大きな方向性 ➢ 評価:より実応用を意識した心の理論の評価

    ➢ 学習:LLMの学習方法やデータを工夫して心の理論の性能を改善する ➢ 推論:学習をせずに、テスト時の手法で改善する ➢ 分析:LLMの心の理論を分析して理解を深め、改善方法についての着想を得る
  37. © NTT, Inc. 2025 47 評価:未来の行動の予測 ◼ BigToM [Gandhi+ 2023],

    SimpleToM [Gu+ 2024] ➢ 他者の心的状態だけでなく、未来の行動(と行動の合理性)を推測 ➢ 心的状態よりも、未来の行動を推測する方が難しい Gandhi et al. 2023. Understanding Social Reasoning in Language Models with Language Models. In NeurIPS. Gu et al. 2024. SimpleToM: Exposing the gap between explicit ToM inference and implicit ToM application in LLMs. SimpleToM BigToM
  38. © NTT, Inc. 2025 48 評価:White Lie の理解 ◼ TactfulToM

    [Liu+ 2025] ➢ 対話の中の、White Lie(人を傷つけないためにつく嘘)の理解を評価するベンチマーク ➢ 登場人物の信念と感情を同時に理解して推論する必要があり、より挑戦的なテスト Liu et al. 2025. TactfulToM: Do LLMs have the Theory of Mind ability to understand white lies? In EMNLP.
  39. © NTT, Inc. 2025 49 学習:Supervised Fine-Tuning(SFT) ◼ 結論:あまり筋が良くない ➢

    教師あり微調整(Supervised Fine-Tuning, SFT)とは、問題(入力)が与えられた時の 答え(出力)の確率を最大化すること ➢ 心の理論に特化した学習データでSFTすると、似たテストデータではスコアが改善する ➢ しかし、分布が大きく異なるテストデータでは、逆に劣化してしまう [Shinoda+ 2025] ➢ 他の研究でも同様の報告 [Sclar+ 2023]。強化学習が有効な可能性(最近論文が増えてきた) ToMATOと類似データを作成してSFTした結果 学習データとは分布 が大きく異なるテス トデータ Shinoda et al. 2025. ToMATO: Verbalizing the mental states of role-playing LLMs for benchmarking Theory of Mind. In AAAI. Sclar et al. 2023. Minding Language Models’ (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker. In ACL. SFT後 → SFT前 →
  40. © NTT, Inc. 2025 50 推論:SimToM [Wilf+ 2023] ◼ 質問が対象とする人物が知っている情報のみを元にLLMに回答させる

    ➢ 紛らわしい答えを入力から消すことで、誤答することが減る可能性 ➢ 人の物理的な移動による情報の非対称性が生じる文脈で適用可能 = Jimが知っている情報 Wilf et al. 2023. Think Twice: Perspective-Taking Improves Large Language Models’ Theory-of-Mind Capabilities. In ACL. = Jimが知っている情報 + Jimが知らない情報
  41. © NTT, Inc. 2025 51 推論:Shoes-of-Others Prefixing [Shinoda+ 2025] ◼

    “Let’s put ourselves in A’s shoes.” の続きを生成させてから回答させる ➢ LLMの思考過程の prefix を指定するだけなので、幅広いタスクに応用可能。 ➢ これにより、心の理論の性能だけでなく、思考過程の誠実性(※)が改善 Shinoda et al. 2025. Let’s put ourselves in sally’s shoes: Shoes-of-Others prefixing improves Theory of Mind in large language models. Lyu et al. 2023. Faithful Chain-of-Thought Reasoning. In IJCNLP-AACL. ※誠実性 (faithfulness) とは LLMの思考過程が、最後に出 したLLMの回答を正しく説明し ていること。LLMの思考では、 誠実性が低い思考が生成される ことがある [Lyu+ 2023]。
  42. © NTT, Inc. 2025 52 分析:神経科学に着想を得たLLMの分析 ◼ LLMにも、ToM Network があるか?

    ➢ 人には、心の理論を使う時に発火する脳の部位 (ToM Network) がある [Dodell-Feder+ 2011] ➢ まず、神経科学で人に対して行われるのと同様の方法で、LLMの ToM Network (Units) を特定 ➢ ランダムに介入した時よりも、 ToM Units に介入する時の方が、モデルによっては、心の理論の性 能が劣化する → ToM Unitsが心の理論で重要な役割を持っている?心の理論の獲得のヒントが得られるかも? Dodell-Feder et al. 2011. fMRI item analysis in a theory of mind task. NeuroImage. AlKhamissi et al. 2025. The LLM language network: A neuroscientific approach for identifying causally task-relevant units. In NAACL.