[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか

AIモデルの時間経過に伴う説明の変化はユーザにどのような影響をもたらすか [Human-AI Decision Making勉強会] 2024/04/17 大社綾乃

本日紹介する論文 Watch Out for Updates: Understanding the Effects of Model
Explanation Updates in AI-Assisted Decision Making ※ 本スライド内の参考文献番号は，論文の参考文献番号に対応しています著者： Xinru Wang, Ming Yin (Purdue大学) 発表： CHI2023 論文： https://dl.acm.org/doi/full/10.1145/3544548.3581366 予測はXだよ！なぜなら，A＆Bだから… 予測はXだよ！なぜなら，C＆Bだから… or AIによる意思決定支援タスクにおいて，時間経過に伴いAIモデルの説明が変化した場合，人はAIモデルに対してどのように感じるのか？結論： • AIモデルからの推薦を受け入れるかどうかには変化なし • モデルの精度に対する認識や，自分の事前知識との整合性に対する認識を変化させることで，主観的な信頼度・満足度が変化する可能性がある 2/22

背景・目的 1/5 AIによる意思決定支援では，特定の意思決定を推薦する理由（≒説明）を提示することが望ましいそのキノコは傘の形が特徴的なので，毒キノコだよ近年のトレンドを考慮すると，その株価は下落しそうだよ今日は雨だから，白いズボンはやめた方がいいよ 3/22

背景・目的 2/5 現実世界では，AIモデルは更新される場合が多々ある学習データの追加より高度なアルゴリズムの導入規約の変更他にも，ユーザFBの考慮や，公平性の確保など 4/22

背景・目的 3/5 AIモデルの利用者が，時間経過とともに変化するモデルをどのように認識し，どのように反応するかを探る研究が増えている • AIモデルに対する信頼を醸成するためには，第一印象が重要[64,84] • ユーザが十分なドメイン知識をもつ場合は，時間経過に伴う性能の観察に基づいて，信頼が動的に調整される[64] •
AIや機械学習に対する知識が乏しいユーザは，AIがエラーを修正し自ら改善することを期待する[79] • 更新された結果，旧モデルの方が正しいことがある場合には，ユーザの意思決定パフォーマンスが著しく低下する[6] 5/22

背景・目的 4/5 AIモデルの更新は，モデルの推薦判断や性能の変化だけでなく，説明にも変化をもたらす可能性がある（説明の内容が類似しない可能性がある） AIモデルの更新による説明の変化が，ユーザのAIモデルに対する認識と利用にどのような影響を与えるかについては，十分に検討されていない今日は雨だから白いズボンはやめた方がいいよ今日のお昼はカレーうどんだから，
白いズボンはやめた方がいいよ or 6/22

背景・目的 5/5 AIによる意思決定支援において，AIモデルの更新に伴う説明の変化に対し，ユーザがどのように感じるか（信頼度・満足度）を実証的に検証するモデル更新後，ユーザはモデルの変化を知覚できるか？ ▪本研究の目的  これらを理解することで，AIモデル更新時の説明の適切な設計や，意図しないネガティブな結果を最小限に抑えることができる RQ1
更新後の説明（新説明）と更新前の説明（旧説明）の類似度によって，ユーザはAIモデルに対する信頼度・満足度は変化するか？ AIによる説明の変化が，ユーザのAIモデルに対する信頼度・満足度に影響を与える潜在的なメカニズムはなにか？ RQ2 RQ3 7/22

検証方法の概要 1/6 AIモデルの支援を受けながら意思決定タスクを実施してもらい，モデルの更新（≒説明の更新）前後でアンケートに回答してもらうフェーズ１（全員同じモデルによる説明を受ける） ※ AIモデルがどのように予測を行なうかのメンタルモデルをユーザに確立させる予測はA！
特徴がXでYだから予測はB！特徴がXでYだから予測はB！特徴がXでZだから予測はB！特徴がVでZだからフェーズ２ (旧説明との類似度を3種異なる群に分ける) 8/22

検証方法の概要 2/6 事前知識†の有無による違いを観測するため，２つのドメインを対象とする実験１：毒キノコかどうかの判断（事前知識を持っていないタスク）実験２：ローンの不履行リスクの予測 (事前知識を持っているタスク) †ここで事前知識とは，ユーザ自身の知識ではなく，意思決定に関するユーザの一般的な共通知識を意味するローン申込書のプロファイルを元に，
申込者がローン不履行するかどうかを予測するプロファイル：金額，発行月，年収，住所の州，クレジットスコア，クレジット口座の開設月予測タスク：全額返済 or 不履行 ※ 下線の特徴は参加者が最も関連性が高いと考えたもの，他の特徴は最も低いと考えたもの（パイロットテスト）プロファイル：傘の質感，エラの間隔，柄の形状，生息地，生育習性キノコのプロファイルを元に，毒キノコかどうかを予測する 9/22

検証方法の概要 3/6 フェーズ１（15タスク）目的： AIモデルがどのように予測を行なうかについてメンタルモデルをユーザに確立させること ▪ 実験デザイン (実験１の例；実験2もほぼ同じ) モデル𝑀𝑀0 3つの説明が繰り返される
• UCIキノコデータセットの半分を学習とし，その一部でロジスティック回帰モデルを構築する • Post-hocな手法であるSHAPアルゴリズム[58]を用いて説明を生成 →予測の寄与度が高い2つの特徴量を提示説明1.a. 「傘の表面：繊維質」＆「エラ間隔：密」→食用説明1.b. 「傘の表面：なめらか」＆「エラ間隔：狭い」→有毒説明1.c. 「柄の形状:大きい」＆「エラ間隔：狭い」→有毒フェーズ2（15タスク）目的：ユーザのメンタルモデルが侵襲されていることを認識させること（ 𝑀𝑀2 ， 𝑀𝑀3 群のみ）モデル𝑀𝑀1 （高類似度）モデル𝑀𝑀2 （中類似度）モデル𝑀𝑀3 （低類似度） • 学習データを再サンプリングし，モデルを再構築する • 強調する特徴が類似度によって異なる • 例：中程度の場合 • 「エラの間隔：狭い」＆「生息地：都市」→ … 10/22

検証方法の概要 4/6 ▪ 実験手順 1. 属性，AIや機械学習に関する専門知識に関するアンケートに回答する 2. チュートリアルの提示（毒キノコ予測タスクの練習） 3. キノコの5つの特徴と毒性の有無にどう関係するかのリストを提示．
（例：エラの間隔が密なキノコの10%は毒キノコである） 4. タスク内容を理解したかのアンケートに回答モデル𝑀𝑀0 5. フェーズ１ i. キノコのプロファイルを確認し，自分なりの予測を立てるように指示 ii. AIモデルの予測結果と説明を提示し，読むように指示 iii. 最終的な予測を行なう 6. モデル更新中であることを伝える 7. 中間アンケートに回答 8. フェーズ２（フェーズ１と手順は同じ） 9. 最終アンケート 361人(実験1) 11/22

検証方法の概要 5/6 ▪ 中間アンケート１．フェーズ１でAIのメンタルモデル形成に成功したかの確認 • 3つの説明パターンに対する質問 • 例：傘がなめらかで，エラの間隔が狭い場合，AIモデルの予測は？２．AIモデルに対する主観的な信頼度・満足度の確認
• 信頼度と満足度を7段階のリッカート尺度で自己申告してもらう３．事前知識と説明の整合性の確認 (7段階のリッカート尺度) • AIモデルの説明は，毒キノコの予測方法に関するあなたの知識と一致していますか？ ▪ 最終アンケート 1. AIモデルに対する主観的な信頼度・満足度の確認 (7段階のリッカート尺度) 2. 事前知識と説明の整合性の確認 (7段階のリッカート尺度) ３．AIモデルの変化を知覚したかの確認 (7段階のリッカート尺度) • 【説明の変化】「モデル更新後，旧モデルと比較して非常に異なる特徴を利用している」 • 【精度の変化】「更新されたモデルは，旧モデルよりも正確であるようだ」 12/22

検証方法の概要 6/6 ▪独立変数： • モデル説明の新旧での類似度レベル（実験1の場合… 高類似度モデル𝑀𝑀1 : 1.0, 中類似度モデル𝑀𝑀2
: 0.6, 低類似度モデル𝑀𝑀3 : 0.1） Given a task instance, we can compute the similarity between two AI models’ explanations on this instance using the feature agreement metric introduced in [49] (i.e., the size of the intersection of the two sets of top-k features divided by k; k = 2 in our study). ▪従属変数： • changes in the model explanations （最終アンケート時のスコア；値が大きいほど異なったと感じた） • objective trust（ユーザの予測とモデルの予測が同じであったタスクの割合） → objective trust gain = objective trust (Phase 2) – objective trust (Phase 1) • subjective trust（中間/最終アンケート時のスコア） → subjective trust gain = subjective trust (Phase 2) – subjective trust (Phase 1) • satisfaction （中間/最終アンケート時のスコア） → satisfaction gain = satisfaction (Phase 2) – satisfaction (Phase 1) ▪ 分析手法【RQ１・２】 • 観測したい従属変数の平均値のプロット • 回帰モデルの構築（この結果の詳細は割愛）【RQ3】 • SEMのパス分析 13/22

結果（実験１） 1/3 メンタルモデルの形成に成功しているか（全問正解 or Not） • 例：傘がなめらかで，エラの間隔が狭い場合，AIモデルの予測は？ ▪RQ1: モデルの変化を知覚できるか ①
新旧モデルの説明の非類似度が大きいほど，説明の変化をより知覚できている（…自明感） ② メンタルモデルの形成が上手なほど，（説明の類似度が低い場合に，）説明の変化をより知覚できている（…自明感） ① ② 14/22

結果（実験１） 2/3 ▪RQ2: 信頼度・満足度はどのように変化するか ① (b)(c)より，主観的・客観的な信頼度は，説明の類似度には影響を受けていない ② (d)より，満足度は有意に変化していない 15/22

結果（実験１） 3/3 ▪RQ3: 信頼度・満足度に影響をおよぼすメカニズムメンタルモデルの形成に成功している98名のデータに着目した，パス分析を実施新旧説明の類似度群説明の変化の知覚精度変化の知覚客観的な信頼度の変化主観的な信頼度の変化
満足度の変化 [仮説１] 説明の類似度は，参加者が感じる説明の変化に直接的な影響を与える [仮説2] 説明の変化に対する認知は，更新後のAIモデルの精度の変化に対する認知に直接的な影響を与える [仮説3] 精度変化に対する認知は，AIモデルに対する客観的・主観的な信頼度と満足度に直接的な影響を与える ① 旧モデルと新モデルの類似度が低い群ほど，モデル説明の変化を有意に知覚できる（…自明感） ② 説明が変化したと感じるほど，精度が高まったと感じる可能性が高くなる（！） ③ 精度が高まったと感じることで，客観的・主観的な信頼度，満足度が高まる ※ パス分析では信頼度・満足度に影響を及ぼすように観察されたが，前頁のプロット＆回帰分析では有意な影響は見られなかった 16/22

実験２の設定 1/1 ローンの申込書プロファイルをもとに，不履行するかどうかを予測するタスク • 事前知識がどのように影響するかを観測したい • 説明が更新された結果，自身の事前知識と整合しない場合は…?/整合する場合は…? ▪ 実験デザイン (実験１と異なり，2つのサブ実験を設計)
• 基本的な手順，アンケート内容，分析手法は同じ旧モデル (𝑴𝑴𝟎𝟎 ) 高類似度 (𝑴𝑴𝟏𝟏 ) 中類似度 (𝑴𝑴𝟐𝟐 ) 低類似度 (𝑴𝑴𝟑𝟑 ) 実験2.1 （394人）事前知識と矛盾（関連性の低い特徴による説明）事前知識と整合実験2.2 （412人）事前知識と整合事前知識と整合 17/22

結果（実験2） 1/3 ▪RQ1: モデルの変化を知覚できるか整合整合実験2.1: Fig.6(a) ① 中・低類似度群（更新後，事前知識と整合する群）は，モデル説明の変化を有意に高いレベルで知覚できた
② メンタルモデル形成がうまくできた群のみ，モデル説明の変化を高いレベルで知覚できた（回帰分析より）実験2.2: Fig.6(b) ① 全参加者に着目すると，説明の変化の知覚は説明の類似度に影響を受けなかった ② メンタルモデル形成がうまくできた群にのみ着目すると．低類似度群（更新後，事前知識と不整合になる群）は，高いレベルで説明の変化を知覚できた 18/22

結果（実験2） 2/3 ▪ RQ2: 信頼度・満足度はどのように変化するか整合整合整合整合 ①
事前知識との整合性に関わらず，説明の類似度によって，客観的な信頼度に変化はなかった（Fig.7 (a)(c)） ② 更新の結果，自身の事前知識との整合性が高くなる場合，主観的な信頼度が増加（Fig.7 (b)） ←満足度も同じ ③ 更新の結果，自身の事前知識との整合性が低くなる場合，主観的な信頼度が低下（Fig.7 (d)） ←〃 ② ③ ※ Fig.8 (満足度)の説明は割愛 19/22

結果（実験2） 3/3 ▪RQ3: 信頼度・満足度に影響をおよぼすメカニズム [仮説１] 説明の類似度は，参加者が感じる説明の変化に直接的な影響を与える [仮説2] 説明の変化に対する認知は，自身の事前知識と説明がどの程度整合しているかの変化に対する認知に直接的な影響を与える [仮説3] 精度変化に対する認知は，説明の知覚変化と，事前知識との整合性の知覚変化の両方から影響をうける
[仮説4] 事前知識との整合性の変化と精度変化の両方を知覚することで，AIモデルに対する客観的・主観的な信頼度と満足度に直接的な影響を与える [仮説1] ✓ （類似度が中・程度群では，説明の変化を知覚できる） [仮説2] ✓ （説明の変化を知覚することで，自身の事前知識との整合性の変化を知覚できる） [仮説3] 部分的に✓ （説明の変化を知覚することで，知覚する精度を有意に高めた）（事前知識の整合性が，モデルの精度の認知に及ぼす効果は，実験2.2のみで有意だった） [仮説4] 部分的に✓ (客観的信頼は，事前知識との整合性の変化にのみ影響される．) （主観的信頼と満足度は，事前知識との整合性・精度の変化の両方に影響される） 20/22

まとめ意思決定支援AIモデルの更新に伴い説明が変化することで，ユーザのAIモデルに対する知覚と利用にどのような影響を及ぼすかを調査したモデル更新後，ユーザはモデルの変化を知覚できるか？ RQ1 更新後の説明（新説明）と更新前の説明（旧説明）の類似度によって，ユーザはAIモデルに対する信頼度・満足度は変化するか？ AIによる説明の変化が，ユーザのAIモデルに対する信頼度・満足度に影響を与える潜在的なメカニズムはなにか？ RQ2
RQ3 → YES．事前知識の有無にかかわらず，変化を知覚できる． → 部分的にYES．事前知識がある場合は，信頼度・満足度に影響を及ぼす．（事前知識がない場合は，有意な影響は見られなかった．） → （事前知識がない場合＆）事前知識と整合する場合には，説明の変化は精度向上を知覚させ，主観的な信頼度・満足度の向上に繋がる 21/22

Open Question (?) 説明の更新については奥が深そう • 精度が向上したとしても，更新頻度が高すぎても不安になる • そもそもドメインによりそう（画像分類，自動運転…） • 説明の変更部分を指摘されても直感的でない場合は…
• （推薦システムの場合）人に合わせて説明や表現を変えるのは邪悪？説明の更新と関連して… 22/22

[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響...

[Human-AI Decision Making勉強会] 説明の更新はユーザにどのような影響をもたらすか

AyanoOkoso

More Decks by AyanoOkoso

Other Decks in Research

Featured

Transcript

AIモデルの時間経過に伴う説明の変化はユーザにどのような影響をもたらすか [Human-AI Decision Making勉強会] 2024/04/17 大社綾乃

本日紹介する論文 Watch Out for Updates: Understanding the Effects of Model

背景・目的 2/5 現実世界では，AIモデルは更新される場合が多々ある学習データの追加より高度なアルゴリズムの導入規約の変更他にも，ユーザFBの考慮や，公平性の確保など 4/22

検証方法の概要 6/6 ▪独立変数： • モデル説明の新旧での類似度レベル（実験1の場合… 高類似度モデル𝑀𝑀1 : 1.0, 中類似度モデル𝑀𝑀2

結果（実験１） 1/3 メンタルモデルの形成に成功しているか（全問正解 or Not） • 例：傘がなめらかで，エラの間隔が狭い場合，AIモデルの予測は？ ▪RQ1: モデルの変化を知覚できるか ①

結果（実験１） 2/3 ▪RQ2: 信頼度・満足度はどのように変化するか ① (b)(c)より，主観的・客観的な信頼度は，説明の類似度には影響を受けていない ② (d)より，満足度は有意に変化していない 15/22

結果（実験2） 1/3 ▪RQ1: モデルの変化を知覚できるか整合整合実験2.1: Fig.6(a) ① 中・低類似度群（更新後，事前知識と整合する群）は，モデル説明の変化を有意に高いレベルで知覚できた

結果（実験2） 2/3 ▪ RQ2: 信頼度・満足度はどのように変化するか整合整合整合整合 ①