[Human-AI Decision Making勉強会] AIの説明表現は人間の意思決定にどのような影響をもたらすのか

AI説明の表現は意思決定を変えるのか？ [Human-AI Decision Making勉強会] 2025/02/19 大社綾乃

本日紹介する論文 Do Expressions Change Decisions? Exploring the Impact of AI's
Explanation Tone on Decision-Making ※ 本スライド内の参考文献番号は，論文の参考文献番号に対応しています著者： Ayano Okoso, Mingzhe Yang, Yukino Baba 発表： CHI2025 AI説明の表現（トーン：フォーマルやカジュアルなど）は意思決定に影響を及ぼし， AIの役割・ユーザ属性によって影響が異なることを明らかにした中立トーン介入トーンタスクのスコア変化から，意思決定に及ぼす影響を検証する • 映画推薦（アシスタント） • 意見形成（セカンドオピニオン） • 再犯リスク予測（専門家） 3つのシナリオでユーザ実験を実施 2/30

背景・目的 1/8 意思決定支援システムにおけるAIの説明 ▪意思決定支援システムとは？ • ECサイトにおける推薦システム[56] • 検索エンジンアルゴリズム[28] • 再犯リスクの予測ツール[2,
18, 24] • 医療診断[11, 67] • … ▪ AIの説明とは？[36, 72] • AIモデルのロジック • 予測の根拠 • 結果の正当性 • 使用された学習データ • … ▪AIの説明例： • ローン不履行予測タスク[36] 「この人は，信用スコアが低くて年収が４万ドル未満なので，不履行リスクが高い」（予測の根拠） • 推薦システム「あなたの視聴履歴に基づいて，この恋愛映画をおすすめしました」（使用された学習データ）「このレストランは，テラス席がありペット同伴OKです」（予測の根拠・結果の正当性） 3/30

背景・目的 2/8 自然言語による文章 AI説明の表現スタイル[72] どのような表現スタイルが効果的かに着目した研究は多くあるワードクラウドチャートアノテーション「この人は，信用スコアが低くて年収が４万ドル未満なので，
不履行リスクが高い」 4/30

背景・目的 2/8 自然言語による文章 AI説明の表現スタイル[72] どのような表現スタイルが効果的かに着目した研究は多くあるワードクラウドチャートアノテーション「この人は，信用スコアが低くて年収が４万ドル未満なので，
不履行リスクが高い」定型文や画一的な表現が一般的 LLMの登場により説明表現の調整が自在になった現代で，AI説明の表現は画一的なままでよいのか？ 5/30

背景・目的 3/8 AI説明（自然言語）の表現が及ぼす影響 AI説明の表現は，人間の意思決定に影響を及ぼすのか？説明の表現を変えて得られる効果は良いものなのか？人同士のコミュニケーションでは，言い方によって気持ちが変わることはよくある 6/30

背景・目的 4/8 表現の例：温かさ，共感力，メタファー，擬人化，トーン（フォーマルさ等） → 説明の表現がAIシステムの知覚に影響を及ぼすことは明らかになっているでは，説明の表現は意思決定にも影響を及ぼすに違いない! … 本当？ AI説明の表現に関する既存研究
• AIシステムの選択において，能力よりも温かさが優先される傾向にある[21] • 協調タスクにおいて，能力が低くても温かみが高いAIは，使いやすさや協力意欲が向上[33] • 女性チャットボットの方が，温かみや共感を喚起しやすい[30] • クラウドワーカとの会話エージェントでは，無生物よりも動物メタファーで相互作用が喚起される[31] • 高齢ユーザ向け音声アシスタントにおいて，協調性の低いユーザはカジュアルな会話スタイルを好む[12] • 推薦システムにおいて，説明のトーンが説得力や信頼性に影響を及ぼす[51] 7/30

背景・目的 5/8 意思決定は知覚に従うという単純な仮定は成り立たないシステムへの知覚と意思決定 AIシステムを信頼している，理解していると主張していたとしても，その提案に従うとは限らないことが知られている[54, 55, 57, 62] •
ユーザの過信（「AIの性能は高いけど，自分の方がもっとうまくやれる」） • 知覚と行動の一対一対応の欠如 • 礼儀バイアスや観察者期待効果説明の表現においても，知覚と意思決定にはギャップがあると考えられるが，未解明である本研究の目的： AI説明の表現が，人間の意思決定に及ぼす影響を明らかにする 8/30

背景・目的 6/8 知識ベースシステムの６つの役割[4]：アシスタント，批評家，セカンドオピニオン，専門家，教師，自動化観点① AIシステムの役割 RQ： AI説明の表現が意思決定に及ぼす影響は，AIシステムの役割によって異なるだろうか？ユーザが説明に期待することは，AIの役割によって異なる[3, 19]
アシスタント（推薦システムや会話エージェント）娯楽などの主観的な場面で期待される → 内容と同じくらい，表現も重要だと予想．豊かな表現力の方が好まれそう．本研究の目的： AI説明の表現が，人間の意思決定に及ぼす影響を明らかにする専門家，セカンドオピニオン（医療，法律）専門知識を求められる場面で期待される → 説明の内容を重視し，シンプルな表現が好まれそう 9/30

背景・目的 7/8 観点② ユーザ属性 RQ： AI説明の表現が意思決定に及ぼす影響は，ユーザ属性によって異なるだろうか？年齢や性格特性などのユーザ属性によって，説明表現がAIシステムへの知覚（使用意志，説得力など）に及ぼす影響が異なる[12, 51] →
説明表現が意思決定に及ぼす影響もユーザ属性によって異なる場合，様々なリスクが考えられる本研究の目的： AI説明の表現が，人間の意思決定に及ぼす影響を明らかにする意図しないバイアスのリスクシステム運営者が意図的にユーザの意思決定に影響を及ぼすリスク 10/30

背景・目的 8/8 AIの説明表現が意思決定に及ぼす影響を，AIの役割とユーザ属性の観点から明らかにする本研究の目的と概要まとめ中立トーン介入トーン ▪説明表現 • 6種のトーンを採用（中立，フォーマル，権威的など）
▪AIの役割に応じた3つのシナリオ • 映画推薦（アシスタント） • 意見形成（セカンドオピニオン） • 再犯リスク予測（専門家） ▪ユーザ属性 • 年齢 • 性別 • Big Five性格特性 ▪意思決定に及ぼす影響の測定 • 異なるトーンで書かれた説明を提示し，そのタスクスコアの変化量を比較 11/30

実験概要 1/6 実験の流れ（全シナリオで共通） 12/30

実験概要 1/6 実験の流れ（全シナリオで共通）説明有無の影響トーンの違いによる影響 ※実施するタスクは各フェーズで共通 Phase 1 Phase
2 Phase 3 13/30

実験概要 2/6 トーンの種類介入トーン（Phase 3）各被験者をランダムに割り当てる基準トーン（Phase 2） 14/30

実験概要 3/6 各シナリオのタスク詳細映画の嗜好評価賛否あるトピックへの立場表明被告人の再犯リスクの予測提示する説明：映画の広告文提示する説明：トピックに賛成立場の意見
提示する説明： AIの予測リスクスコアと根拠タイトルジャンル短いあらすじこの映画をどの程度視聴したいと思ったか？（７段階リッカート尺度）「雇用主はワクチン接種を義務付けるべきか？」このトピックにどの程度賛成か？（７段階リッカート尺度）＋回答への自信＋このトピックに対する知識被告人のプロファイル情報（年齢，性別，罪状，前科有無等）２年以内に再犯するリスクは？（１０段階：１０が高リスク）＋回答への自信映画推薦シナリオ（役割：アシスタント）意見形成シナリオ（役割：セカンドオピニオン）再犯予測助言シナリオ（役割：専門家）指標：嗜好指標：立場・自信・知識指標：リスクスコア・自信 15/30

実験概要 4/6 各シナリオのデータセット映画の嗜好評価賛否あるトピックへの立場表明被告人の再犯リスクの予測＋映画の広告文＋トピックに賛成立場の意見
＋ AIの予測リスクスコアと根拠映画推薦シナリオ（役割：アシスタント）意見形成シナリオ（役割：セカンドオピニオン）再犯予測助言シナリオ（役割：専門家） • LLMで35件架空映画を生成 • LLMで広告文を生成（＋LLMでトーン変換） • 各タスク：７映画 • ProConサイト（https://www.procon.org/）より10トピック選択 • LLMで賛成意見を生成（＋LLMでトーン変換） • 各タスク：5トピック • COMPASデータセット[50]から 100人分のデータを抽出 • 被告人情報から，LLMでリスクスコアと根拠を予測（＋トーン変換） • 予測リスクスコアが元データと一致した30人分を使用 • 各タスク： 10人分タイトルジャンル短いあらすじ「雇用主はワクチン接種を義務付けるべきか？」被告人のプロファイル情報（年齢，性別，罪状，前科有無等） 16/30

実験概要 5/6 実験の流れ（映画推薦の例） Phase 1 （説明なし） Phase 2 (中立トーン説明) Phase
3 （介入トーン説明）中立トーン広告文介入トーン広告文共通の提示情報嗜好の評価 ↓ 7映画分評価 ↓ 同一の7映画分評価 ↓ 同一の7映画分評価 17/30

実験概要 6/6 被験者情報 18/30

分析方法 1/1 説明有無による平均スコア変化評価指標トーンの違いによる平均スコア変化 Phase 1 Phase 2 Phase
3 • 介入トーン群間で平均値に差があるか？（ANOVA） → 各シナリオで有意差なし（以降説明は割愛） • 介入トーン群間で平均値に差があるか？（ANOVA） • どのペア間に差があるか？（Tukey HSD 事後検定） • 各ユーザ属性との相関は？（無相関検定＋two-way ANOVA）フェーズ1における，ユーザ𝑢のタスク𝑖の回答スコア 19/30

実験結果１：推薦シナリオ 1/2 • 平均的な映画嗜好スコアの影響に，有意差なし • 性別との相互作用は有意差あり（女性はロマンティックトーンでスコアが低下） • 年齢があがるほどフォーマルでスコア上昇，ロマンティックやユーモラスでスコア低下全被験者に対する嗜好スコア変化量の分布性別ごとの嗜好スコア変化量の分布
20/30

実験結果１：推薦シナリオ 2/2 • 110人（約37%）の被験者は，説明が意思決定に影響を及ぼさなかったと回答 • 説明がニーズを満たす十分な情報を提供していなかった • 映画のジャンルだけで決めた • AIが感情を模倣して映画を宣伝していることが不快だった
▪Q1: AI説明は意思決定にどのように影響を及ぼしたか？定性評価 ▪Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか？ • 同じトーンでも，被験者の反応は異なっていた • ロマンティックトーン • P131「より豊かな表現力があり，スコアを高くつけた」 • P151「言葉遣いが過剰に感じて，映画への興味が薄れた」映画推薦においては，説明は「自身の好みに一致するか」の判断のために用いられ，内容を重視する傾向にあった → 全体的なトーンの有意な影響は見られなかった（[51]と対応） 21/30

実験結果２：意見形成シナリオ 1/2 • 立場と自信は，トーン間でスコア変化量に有意差あり（ユーモラストーンで立場反転＆自信低下） • ユーザ属性との相関は，ほぼ認められなかった全被験者に対する立場スコア変化量の分布全被験者に対する自信スコア変化量の分布全被験者に対する知識スコア変化量の分布 22/30

実験結果２：意見形成シナリオ 2/2 影響を及ぼさなかった • すでにそのトピックについて十分に知っていた • AIに頼らず自信の信念に基づいて回答した → トーンの影響を受けづらかった可能性がある ▪Q1:
AI説明は意思決定にどのように影響を及ぼしたか？定性評価 ▪Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか？同じトーンであっても，異なる印象を受けていた • ユーモラストーン • P56,57,59「トピックへの関心が高まった」 • P115「熱狂的過ぎて，説明に対して慎重になった」 • 権威的なトーン • P83「説明が知識豊富で自信に繋がった」 • P31「傲慢な印象を受けた」 52% 36% 12% 影響を及ぼした「説明が新たな視点を提供し，より深く考える一助となった，自信に繋がった」 26% 22% 52% 影響を及ぼした影響を及ぼさなかった 23/30

実験結果３：助言シナリオ 1/3 • 自信スコアのみ，トーン間でスコア変化量に有意差あり（カジュアルトーンで低下傾向） • 予測リスクスコアの変化量は，性格特性や年齢と相関に一部有意差あり • 年齢が高いほどフォーマルトーンで変化量が低下（→説明に従う傾向） • 協調性・誠実性・開放性が高いほど，ユーモラストーンで変化量が低下
全被験者に対する予測リスクスコア変化量の分布全被験者に対する自信スコア変化量の分布年齢・各性格特性と予測リスクスコア変化量の相関 ※ 予測リスクスコア変化量が小さい→説明に従っている 24/30

実験結果３：助言シナリオ 2/3 • 約24%の被験者は意思決定に影響を及ぼさなかったと回答（意見シナリオより10ポイント低い） • AIの説明は役に立ったが，感情的な側面の配慮が欠けていた • 新しい情報がないと感じた • 自分の視点に基づいて予測した
• → トーンの影響を受けづらかった可能性がある ▪Q1: AI説明は意思決定にどのように影響を及ぼしたか？定性評価 • 説明の参照アプローチが被験者によって異なることが判明した 1. AIの予測を確認→自身の意見や感情を統合して予測（同時型パラダイム[65]） 2. まず自分で予測→AIの予測と比較して調整（逐次型パラダイム[65]） • 不一致が起きない限り説明を軽視する可能性 • 予測の一致が繰り返されることで自動化バイアスが助長する可能性 3. AI嫌悪により説明に頼らないトーンの影響は小さいと予想 25/30

実験結果３：助言シナリオ 3/3 定性評価 ▪Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか？ • 同じトーンであっても，異なる印象を受けていた • カジュアルトーン •
P137「深刻なテーマには不適切で，全体的に気が散った」 • P99「説得力に欠けた」 • P9「人間味があり，信頼できると思った」 • P152「同僚と話しているようで，理解しやすかった」 • 一部の被験者は，カジュアルやユーモラストーンに対して，「AIが偏見を持っている」と感じた 27% 26% 47% 影響を及ぼした影響を及ぼさなかった 26/30

結果まとめ・考察 1/3 ① AIの役割によって，トーンの影響の仕方が異なっていた意見形成（統一的に有意な影響） vs. 推薦・助言（ユーザ属性に依存した影響） → AIの役割によって，説明への期待や参照方法が異なっていたためと考えられる •
映画推薦：「自身の嗜好と一致するかを評価するため」に利用 • 意見形成：「新たな視点の提供や，自身の立場の補強のため」に利用 • 助言：説明はタスク遂行に不可欠 → 参照方法が異なる（同時型 vs. 逐次型） 27/30

結果まとめ・考察 2/3 ② 推薦・助言シナリオでは，トーンの影響はユーザ属性に依存していた • 特に年齢が顕著であった • 推薦：高齢ほど，フォーマルトーンで嗜好が向上，ロマンティック・ユーモラストーンで嗜好が低下
• 助言：高齢ほど，フォーマルトーンで助言に従いやすく，権威的トーンで自信が向上 28/30

結果まとめ・考察 3/3 ③ 外向性との有意な相互作用は認められなかった（従来研究[51]と対照的） • [51] 外向性が高いユーザは，トーンにより信頼性や説得力に肯定的な影響を及ぼした • 知覚と意思決定が不一致 •
外向性が高いユーザは，システムとの相互作用に適応しやすく肯定的に捉える一方で，自分の意見を強く主張する傾向があり，意思決定がトーンの影響を受けづらいと考えられる 29/30

まとめ ✓ AIの役割によって説明への期待や参照方法が異なり，トーンの影響が異なった ✓ トーンの影響はユーザ属性によって異なっていた ✓ 外向性との有意な相互作用は認められなかった AIの説明表現が意思決定に及ぼす影響を，AIの役割とユーザ属性の観点から明らかにした中立トーン介入トーン
▪説明表現 • 6種のトーンを採用（中立，フォーマル，権威的など） ▪AIの役割に応じた3つのシナリオ • 映画推薦（アシスタント） • 意見形成（セカンドオピニオン） • 再犯リスク予測（専門家） ▪ユーザ属性 • 年齢 • 性別 • Big Five性格特性 ▪意思決定に及ぼす影響の測定 • 異なるトーンで書かれた説明を提示し，そのタスクスコアの変化量を比較 30/30

[Human-AI Decision Making勉強会] AIの説明表現は人間の意思決定にど...

[Human-AI Decision Making勉強会] AIの説明表現は人間の意思決定にどのような影響をもたらすのか

AyanoOkoso

More Decks by AyanoOkoso

Featured

Transcript

AI説明の表現は意思決定を変えるのか？ [Human-AI Decision Making勉強会] 2025/02/19 大社綾乃

本日紹介する論文 Do Expressions Change Decisions? Exploring the Impact of AI's

背景・目的 1/8 意思決定支援システムにおけるAIの説明 ▪意思決定支援システムとは？ • ECサイトにおける推薦システム[56] • 検索エンジンアルゴリズム[28] • 再犯リスクの予測ツール[2,

背景・目的 8/8 AIの説明表現が意思決定に及ぼす影響を，AIの役割とユーザ属性の観点から明らかにする本研究の目的と概要まとめ中立トーン介入トーン ▪説明表現 • 6種のトーンを採用（中立，フォーマル，権威的など）

実験概要 1/6 実験の流れ（全シナリオで共通） 12/30

実験概要 1/6 実験の流れ（全シナリオで共通）説明有無の影響トーンの違いによる影響 ※実施するタスクは各フェーズで共通 Phase 1 Phase

実験概要 2/6 トーンの種類介入トーン（Phase 3）各被験者をランダムに割り当てる基準トーン（Phase 2） 14/30

実験概要 3/6 各シナリオのタスク詳細映画の嗜好評価賛否あるトピックへの立場表明被告人の再犯リスクの予測提示する説明：映画の広告文提示する説明：トピックに賛成立場の意見

実験概要 4/6 各シナリオのデータセット映画の嗜好評価賛否あるトピックへの立場表明被告人の再犯リスクの予測＋映画の広告文＋トピックに賛成立場の意見

実験概要 5/6 実験の流れ（映画推薦の例） Phase 1 （説明なし） Phase 2 (中立トーン説明) Phase

実験概要 6/6 被験者情報 18/30

分析方法 1/1 説明有無による平均スコア変化評価指標トーンの違いによる平均スコア変化 Phase 1 Phase 2 Phase

実験結果２：意見形成シナリオ 2/2 影響を及ぼさなかった • すでにそのトピックについて十分に知っていた • AIに頼らず自信の信念に基づいて回答した → トーンの影響を受けづらかった可能性がある ▪Q1:

実験結果３：助言シナリオ 3/3 定性評価 ▪Q2: AI説明のトーンの違いは意思決定にどのように影響を及ぼしたか？ • 同じトーンであっても，異なる印象を受けていた • カジュアルトーン •

結果まとめ・考察 3/3 ③ 外向性との有意な相互作用は認められなかった（従来研究[51]と対照的） • [51] 外向性が高いユーザは，トーンにより信頼性や説得力に肯定的な影響を及ぼした • 知覚と意思決定が不一致 •