Slide 1

Slide 1 text

AI説明の表現は意思決定を変えるのか? [Human-AI Decision Making勉強会] 2025/02/19 大社綾乃

Slide 2

Slide 2 text

本日紹介する論文 Do Expressions Change Decisions? Exploring the Impact of AI's Explanation Tone on Decision-Making ※ 本スライド内の参考文献番号は, 論文の参考文献番号に対応しています 著者: Ayano Okoso, Mingzhe Yang, Yukino Baba 発表: CHI2025 AI説明の表現(トーン:フォーマルやカジュアルなど)は意思決定に影響を及ぼし, AIの役割・ユーザ属性によって影響が異なることを明らかにした 中立トーン 介入トーン タスクのスコア変化から, 意思決定に及ぼす影響を検証する • 映画推薦 ( アシスタント) • 意見形成 ( セカンドオピニオ ン) • 再犯リスク予測 ( 専門家) 3つのシナリオで ユーザ実験を実施 2/30

Slide 3

Slide 3 text

背景・目的 1/8 意思決定支援システムにおけるAIの説明 ■意思決定支援システムとは? • ECサイトにおける推薦システム[56] • 検索エンジンアルゴリズム[28] • 再犯リスクの予測ツール[2, 18, 24] • 医療診断[11, 67] • … ■ AIの説明とは?[36, 72] • AIモデルのロジック • 予測の根拠 • 結果の正当性 • 使用された学習データ • … ■AIの説明例: • ローン不履行予測タスク[36] 「この人は,信用スコアが低くて年収が4万ドル未満なので,不履行リスクが高い」(予測の根拠) • 推薦システム 「あなたの視聴履歴に基づいて,この恋愛映画をおすすめしました」(使用された学習データ) 「このレストランは,テラス席がありペット同伴OKです」(予測の根拠・結果の正当性) 3/30

Slide 4

Slide 4 text

背景・目的 2/8 自然言語による文章 AI説明の表現スタイル[72] どのような表現スタイルが効果的かに着目した研究は多くある ワードクラウド チャート アノテーション 「この人は,信用スコアが低くて 年収が4万ドル未満なので, 不履行リスクが高い」 4/30

Slide 5

Slide 5 text

背景・目的 2/8 自然言語による文章 AI説明の表現スタイル[72] どのような表現スタイルが効果的かに着目した研究は多くある ワードクラウド チャート アノテーション 「この人は,信用スコアが低くて 年収が4万ドル未満なので, 不履行リスクが高い」 定型文や画一的な表現が一般的 LLMの登場により説明表現の調整が自在になった現代で,AI説明の表現は画一的なままでよいのか? 5/30

Slide 6

Slide 6 text

背景・目的 3/8 AI説明(自然言語)の表現が及ぼす影響 AI説明の表現は,人間の意思決定に影響を及ぼすのか? 説明の表現を変えて得られる効果は良いものなのか? 人同士のコミュニケーションでは, 言い方によって気持ちが変わることはよくある 6/30

Slide 7

Slide 7 text

背景・目的 4/8 表現の例: 温かさ,共感力,メタファー,擬人化,トーン(フォーマルさ等) → 説明の表現がAIシステムの知覚に影響を及ぼすことは明らかになっている では,説明の表現は意思決定にも影響を及ぼすに違いない! … 本当? AI説明の表現に関する既存研究 • AIシステムの選択において,能力よりも温かさが優先される傾向にある[21] • 協調タスクにおいて,能力が低くても温かみが高いAIは,使いやすさや協力意欲が向上[33] • 女性チャットボットの方が,温かみや共感を喚起しやすい[30] • クラウドワーカとの会話エージェントでは,無生物よりも動物メタファーで相互作用が喚起される[31] • 高齢ユーザ向け音声アシスタントにおいて,協調性の低いユーザはカジュアルな会話スタイルを好む[12] • 推薦システムにおいて,説明のトーンが説得力や信頼性に影響を及ぼす[51] 7/30

Slide 8

Slide 8 text

背景・目的 5/8 意思決定は知覚に従うという単純な仮定は成り立たない システムへの知覚と意思決定 AIシステムを信頼している,理解していると主張していたとしても, その提案に従うとは限らないことが知られている[54, 55, 57, 62] • ユーザの過信(「AIの性能は高いけど,自分の方がもっとうまくやれる」) • 知覚と行動の一対一対応の欠如 • 礼儀バイアスや観察者期待効果 説明の表現においても,知覚と意思決定にはギャップがあると考えられるが,未解明である 本研究の目的: AI説明の表現が,人間の意思決定に及ぼす影響を明らかにする 8/30

Slide 9

Slide 9 text

背景・目的 6/8 知識ベースシステムの6つの役割[4]: アシスタント,批評家,セカンドオピニオン,専門家,教師,自動化 観点① AIシステムの役割 RQ: AI説明の表現が意思決定に及ぼす影響は,AIシステムの役割によって異なるだろうか? ユーザが説明に期待することは,AIの役割によって異なる[3, 19] アシスタント(推薦システムや会話エージェント) 娯楽などの主観的な場面で期待される → 内容と同じくらい,表現も重要だと予想. 豊かな表現力の方が好まれそう. 本研究の目的: AI説明の表現が,人間の意思決定に及ぼす影響を明らかにする 専門家,セカンドオピニオン (医療,法律) 専門知識を求められる場面で期待される → 説明の内容を重視し,シンプルな表現が好まれそう 9/30

Slide 10

Slide 10 text

背景・目的 7/8 観点② ユーザ属性 RQ: AI説明の表現が意思決定に及ぼす影響は,ユーザ属性によって異なるだろうか? 年齢や性格特性などのユーザ属性によって, 説明表現がAIシステムへの知覚(使用意志,説得力など)に及ぼす影響が異なる[12, 51] → 説明表現が意思決定に及ぼす影響もユーザ属性によって異なる場合,様々なリスクが考えられる 本研究の目的: AI説明の表現が,人間の意思決定に及ぼす影響を明らかにする 意図しないバイアスのリスク システム運営者が意図的に ユーザの意思決定に影響を及ぼすリスク 10/30

Slide 11

Slide 11 text

背景・目的 8/8 AIの説明表現が意思決定に及ぼす影響を,AIの役割とユーザ属性の観点から明らかにする 本研究の目的と概要まとめ 中立トーン 介入トーン ■説明表現 • 6種のトーンを採用 (中立,フォーマル,権威的など) ■AIの役割に応じた3つのシナリオ • 映画推薦 ( アシスタント) • 意見形成 ( セカンドオピニオン) • 再犯リスク予測 ( 専門家) ■ユーザ属性 • 年齢 • 性別 • Big Five性格特性 ■意思決定に及ぼす影響の測定 • 異なるトーンで書かれた説明を提示し, そのタスクスコアの変化量を比較 11/30

Slide 12

Slide 12 text

実験概要 1/6 実験の流れ(全シナリオで共通) 12/30

Slide 13

Slide 13 text

実験概要 1/6 実験の流れ(全シナリオで共通) 説明有無の影響 トーンの違いによる影響 ※実施するタスクは 各フェーズで共通 Phase 1 Phase 2 Phase 3 13/30

Slide 14

Slide 14 text

実験概要 2/6 トーンの種類 介入トーン(Phase 3) 各被験者をランダムに割り当てる 基準トーン(Phase 2) 14/30

Slide 15

Slide 15 text

実験概要 3/6 各シナリオのタスク詳細 映画の嗜好評価 賛否あるトピックへの立場表明 被告人の再犯リスクの予測 提示する説明: 映画の広告文 提示する説明: トピックに賛成立場の意見 提示する説明: AIの予測リスクスコアと根拠 タイトル ジャンル 短いあらすじ この映画をどの程度視聴したいと 思ったか?(7段階リッカート尺度) 「雇用主はワクチン接種を義 務付けるべきか?」 このトピックにどの程度賛成か? (7段階リッカート尺度) +回答への自信 +このトピックに対する知識 被告人のプロファイル情報 (年齢,性別,罪状,前科有無等) 2年以内に再犯するリスクは? (10段階: 10が高リスク) +回答への自信 映画推薦シナリオ (役割:アシスタント) 意見形成シナリオ (役割:セカンドオピニオン) 再犯予測助言シナリオ (役割:専門家) 指標: 嗜好 指標: 立場・自信・知識 指標: リスクスコア・自信 15/30

Slide 16

Slide 16 text

実験概要 4/6 各シナリオのデータセット 映画の嗜好評価 賛否あるトピックへの立場表明 被告人の再犯リスクの予測 + 映画の広告文 + トピックに賛成立場の意見 + AIの予測リスクスコアと根拠 映画推薦シナリオ (役割:アシスタント) 意見形成シナリオ (役割:セカンドオピニオン) 再犯予測助言シナリオ (役割:専門家) • LLMで35件架空映画を生成 • LLMで広告文を生成 (+LLMでトーン変換) • 各タスク:7映画 • ProConサイト(https://www.procon.org/) より10トピック選択 • LLMで賛成意見を生成 (+LLMでトーン変換) • 各タスク:5トピック • COMPASデータセット[50]から 100人分のデータを抽出 • 被告人情報から,LLMでリスクス コアと根拠を予測(+トーン変換) • 予測リスクスコアが元データと一 致した30人分を使用 • 各タスク: 10人分 タイトル ジャンル 短いあらすじ 「雇用主はワクチン接種を義 務付けるべきか?」 被告人のプロファイル情報 (年齢,性別,罪状,前科有無等) 16/30

Slide 17

Slide 17 text

実験概要 5/6 実験の流れ(映画推薦の例) Phase 1 (説明なし) Phase 2 (中立トーン説明) Phase 3 (介入トーン説明) 中立トーン広告文 介入トーン広告文 共通の提示情報 嗜好の評価 ↓ 7映画分評価 ↓ 同一の7映画分評価 ↓ 同一の7映画分評価 17/30

Slide 18

Slide 18 text

実験概要 6/6 被験者情報 18/30

Slide 19

Slide 19 text

分析方法 1/1 説明有無による平均スコア変化 評価指標 トーンの違いによる平均スコア変化 Phase 1 Phase 2 Phase 3 • 介入トーン群間で平均値に差があるか? (ANOVA) → 各シナリオで有意差なし(以降説明は割愛) • 介入トーン群間で平均値に差があるか?(ANOVA) • どのペア間に差があるか?(Tukey HSD 事後検定) • 各ユーザ属性との相関は? (無相関検定+two-way ANOVA) フェーズ1における, ユーザ𝑢のタスク𝑖の回答スコア 19/30

Slide 20

Slide 20 text

実験結果1:推薦シナリオ 1/2 • 平均的な映画嗜好スコアの影響に,有意差なし • 性別との相互作用は有意差あり(女性はロマンティックトーンでスコアが低下) • 年齢があがるほどフォーマルでスコア上昇,ロマンティックやユーモラスでスコア低下 全被験者に対する嗜好スコア変化量の分布 性別ごとの嗜好スコア変化量の分布 20/30

Slide 21

Slide 21 text

実験結果1:推薦シナリオ 2/2 • 110人(約37%)の被験者は,説明が意思決定に影響を及ぼさなかったと回答 • 説明がニーズを満たす十分な情報を提供していなかった • 映画のジャンルだけで決めた • AIが感情を模倣して映画を宣伝していることが不快だった ■Q1: AI説明は意思決定にどのように影響を及ぼしたか? 定性評価 ■Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか? • 同じトーンでも,被験者の反応は異なっていた • ロマンティックトーン • P131「より豊かな表現力があり,スコアを高くつけた」 • P151「言葉遣いが過剰に感じて,映画への興味が薄れた」 映画推薦においては,説明は「自身の好みに一致するか」の判断のために用いられ, 内容を重視する傾向にあった → 全体的なトーンの有意な影響は見られなかった([51]と対応) 21/30

Slide 22

Slide 22 text

実験結果2:意見形成シナリオ 1/2 • 立場と自信は,トーン間でスコア変化量に有意差あり(ユーモラストーンで立場反転&自信低下) • ユーザ属性との相関は,ほぼ認められなかった 全被験者に対する立場スコア変化量の分布 全被験者に対する自信スコア変化量の分布 全被験者に対する知識スコア変化量の分布 22/30

Slide 23

Slide 23 text

実験結果2:意見形成シナリオ 2/2 影響を及ぼさなかった • すでにそのトピックについて十分に知っていた • AIに頼らず自信の信念に基づいて回答した → トーンの影響を受けづらかった可能性がある ■Q1: AI説明は意思決定にどのように影響を及ぼしたか? 定性評価 ■Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか? 同じトーンであっても,異なる印象を受けていた • ユーモラストーン • P56,57,59「トピックへの関心が高まった」 • P115「熱狂的過ぎて,説明に対して慎重になった」 • 権威的なトーン • P83「説明が知識豊富で自信に繋がった」 • P31「傲慢な印象を受けた」 52% 36% 12% 影響を及ぼした 「説明が新たな視点を提供し,より深く考える 一助となった,自信に繋がった」 26% 22% 52% 影響を及ぼした 影響を及ぼさなかった 23/30

Slide 24

Slide 24 text

実験結果3:助言シナリオ 1/3 • 自信スコアのみ,トーン間でスコア変化量に有意差あり(カジュアルトーンで低下傾向) • 予測リスクスコアの変化量は,性格特性や年齢と相関に一部有意差あり • 年齢が高いほどフォーマルトーンで変化量が低下(→説明に従う傾向) • 協調性・誠実性・開放性が高いほど,ユーモラストーンで変化量が低下 全被験者に対する予測リスクスコア変化量の分布 全被験者に対する自信スコア変化量の分布 年齢・各性格特性と予測リスクスコア変化量の相関 ※ 予測リスクスコア変化量が小さい→説明に従っている 24/30

Slide 25

Slide 25 text

実験結果3:助言シナリオ 2/3 • 約24%の被験者は意思決定に影響を及ぼさなかったと回答(意見シナリオより10ポイント低い) • AIの説明は役に立ったが,感情的な側面の配慮が欠けていた • 新しい情報がないと感じた • 自分の視点に基づいて予測した • → トーンの影響を受けづらかった可能性がある ■Q1: AI説明は意思決定にどのように影響を及ぼしたか? 定性評価 • 説明の参照アプローチが被験者によって異なることが判明した 1. AIの予測を確認→自身の意見や感情を統合して予測(同時型パラダイム[65]) 2. まず自分で予測→AIの予測と比較して調整(逐次型パラダイム[65]) • 不一致が起きない限り説明を軽視する可能性 • 予測の一致が繰り返されることで自動化バイアスが助長する可能性 3. AI嫌悪により説明に頼らない トーンの影響は 小さいと予想 25/30

Slide 26

Slide 26 text

実験結果3:助言シナリオ 3/3 定性評価 ■Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか? • 同じトーンであっても,異なる印象を受けていた • カジュアルトーン • P137「深刻なテーマには不適切で,全体的に気が散った」 • P99「説得力に欠けた」 • P9「人間味があり,信頼できると思った」 • P152「同僚と話しているようで,理解しやすかった」 • 一部の被験者は,カジュアルやユーモラストーンに対して,「AIが偏見を持っている」と感じた 27% 26% 47% 影響を及ぼした 影響を及ぼさなかった 26/30

Slide 27

Slide 27 text

結果まとめ・考察 1/3 ① AIの役割によって,トーンの影響の仕方が異なっていた 意見形成(統一的に有意な影響) vs. 推薦・助言(ユーザ属性に依存した影響) → AIの役割によって,説明への期待や参照方法が異なっていたためと考えられる • 映画推薦: 「自身の嗜好と一致するかを評価するため」に利用 • 意見形成: 「新たな視点の提供や,自身の立場の補強のため」に利用 • 助言: 説明はタスク遂行に不可欠 → 参照方法が異なる(同時型 vs. 逐次型) 27/30

Slide 28

Slide 28 text

結果まとめ・考察 2/3 ② 推薦・助言シナリオでは,トーンの影響はユーザ属性に依存していた • 特に年齢が顕著であった • 推薦: 高齢ほど,フォーマルトーンで嗜好が向上, ロマンティック・ユーモラストーンで嗜好が低下 • 助言: 高齢ほど,フォーマルトーンで助言に従いやすく,権威的トーンで自信が向上 28/30

Slide 29

Slide 29 text

結果まとめ・考察 3/3 ③ 外向性との有意な相互作用は認められなかった(従来研究[51]と対照的) • [51] 外向性が高いユーザは,トーンにより信頼性や説得力に肯定的な影響を及ぼした • 知覚と意思決定が不一致 • 外向性が高いユーザは,システムとの相互作用に適応しやすく肯定的に捉える一方で, 自分の意見を強く主張する傾向があり,意思決定がトーンの影響を受けづらいと考えられる 29/30

Slide 30

Slide 30 text

まとめ ✓ AIの役割によって説明への期待や参照方法が異なり,トーンの影響が異なった ✓ トーンの影響はユーザ属性によって異なっていた ✓ 外向性との有意な相互作用は認められなかった AIの説明表現が意思決定に及ぼす影響を,AIの役割とユーザ属性の観点から明らかにした 中立トーン 介入トーン ■説明表現 • 6種のトーンを採用 (中立,フォーマル,権威的など) ■AIの役割に応じた3つのシナリオ • 映画推薦 ( アシスタント) • 意見形成 ( セカンドオピニオン) • 再犯リスク予測 ( 専門家) ■ユーザ属性 • 年齢 • 性別 • Big Five性格特性 ■意思決定に及ぼす影響の測定 • 異なるトーンで書かれた説明を提示し, そのタスクスコアの変化量を比較 30/30