Slide 1

Slide 1 text

人間の判断根拠は文脈によって異なるのか? 〜信頼されるXAIに向けた人間の判断根拠理解〜 JSAI2024 OS-5 ヒューマン・イン・ザ・ループAI 楊 明哲 (東京大学) 香川 璃奈 (筑波大学) 馬場 雪乃 (東京大学)

Slide 2

Slide 2 text

研究背景|AI挙動理解のための説明可能なAI (XAI) 2
 研究背景 ● AIの挙動理解のために、説明可能なAI (XAI)の研究が進んでいる ○ モデル予測の判断根拠を可視化し、挙動理解を支援[1] 既存研究 ● XAIでは、タスク精度改善やAIへの信頼や理解への影響に注目[2] ● AIを利用するかの判断において、利用者のAIへの信頼が関係[3] ● AIへの信頼獲得のために、利用者にどのような説明が望ましいか明らかではない [1] Scott M. Lundberg and Su-In Lee. “A unified approach to interpreting model predictions.” NIPS'17 [2] Alufaisan, Yasmeen, et al. “Does explainable artificial intelligence improve human decision-making?." AAAI’21 [3] Venkatesh Sivaraman, et al. “Ignore, Trust, or Negotiate: Understanding Clinician Acceptance of AI-Based Treatment Recommendations in Health Care”. CHI’23 タスク精度向上 挙動理解 信頼醸成

Slide 3

Slide 3 text

本研究の目的|人間に近い説明によって信頼は向上するのか? 3
 本研究の目的 信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考える 人間は、自分の支持する情報を優先する傾向がある (確証バイアス) → AIの説明が、人間の判断根拠に近い方がより信頼されるのでは? A w B B B の方が考えが近いからAにしよう

Slide 4

Slide 4 text

本研究の目的|文脈に応じて説明のみを変更 4
 ● 同じタスクを判断したAIであっても、そのAIを使う文脈に応じて信頼される説明 が違うのでは? →人間の判断根拠が文脈によって異なる可能性があるため AIモデル (*)説明=判断根拠の可視化 入力データ この人にお金を貸す? y/n 同じタスクを判断したAIであっても、そのAIを使う文脈に応じて、説明だけを人間の判断根 拠に近い説明に変更してもいいのではないか? 高額の金融審査 低額の金融審査

Slide 5

Slide 5 text

本研究のリサーチクエスチョン 5
 研究目的 信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考える リサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか? (アンケート調査1) 2. 自身の判断根拠に近い説明を、人間は信頼するのか? (アンケート調査2) これらに答えるために2つのアンケート調査を実施

Slide 6

Slide 6 text

本研究のリサーチクエスチョン 6
 研究目的 信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考える リサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか? (アンケート調査1) 2. 自身の判断根拠に近い説明を、人間は信頼するのか? (アンケート調査2)

Slide 7

Slide 7 text

アンケート調査1|AI活用シナリオに文脈を追加 7
 仮説1:ハイステーク文脈では、人間は幅広い観点を判断根拠に用いる ● シナリオ状況の中で、回答者はどのような判断観点を用いるか調査 ● 判断重要性(ローステーク・ハイステーク)を文脈として追加 低額の金融審査 高額の金融審査 (*) 文脈の違い=融資金額の違い

Slide 8

Slide 8 text

アンケート調査1|実験参加者・アンケート内容・分析方法 8
 ● 実験参加者は、クラウドソーシングサイトを通じて集めた200名 ● シナリオ状況を説明し、回答者がどの観点で判断するかの選択肢を回答 ○ シナリオは客観、主観タスクで各3種類x2文脈(合計12シナリオ) ● 分析方法として判断観点数を用いる ○ 設定した項目内の選択率を表す。高いほど多くの観点を判断根拠としている 体重予測 金融審査 医療審査 客観タスク ローステーク ダイエットの体重 少額の金融貸与 風邪の医療診断 ハイステーク 飛行機搭乗者の体重 多額の金融貸与 ガンの医療診断 音楽推薦 献立推薦 イラスト推薦 主観タスク ローステーク これから聞く音楽 今日の献立 SNSのイラスト ハイステーク 大事なイベントの音楽 特別なイベントの献立 VTuberのイラスト

Slide 9

Slide 9 text

アンケート調査1|判断観点数の比較 9
 ハイステーク文脈の方が、多くのシナリオで判断観点数が多かった 客観タスク 主観タスク 体重予測以外のシナリオで統計的有意差を確認 判断観点数 判断観点数

Slide 10

Slide 10 text

本研究のリサーチクエスチョン 10
 研究目的 信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考える リサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか? (アンケート調査1) 2. 自身の判断根拠に近い説明を、人間は信頼するのか? (アンケート調査2)

Slide 11

Slide 11 text

アンケート調査2|二種類の説明を比較 11
 ● 人間の判断根拠に近い説明の方を高く評価するかを調査 ○ 金融審査タスクを用いて、2種類の説明を提示した ● 比較する判断根拠の説明 1. AIモデルの説明: 学習されたモデルの判断根拠の可視化 2. 人間の説明: アンケート調査1に基づく判断根拠の可視化 AIモデル 入力データ この人にお金を貸す? y/n 人間の説明 AIモデルの説明 ※説明のみを変更

Slide 12

Slide 12 text

アンケート調査2|AIモデルの説明作成 12
 ● AIモデルとして、勾配ブースティング決定木のLightGBM[4]を利用 ● 金融審査データセット[5]を用いてモデルを訓練 ○ モデルの予測精度は0.7であり、人間の予測精度0.6より高い ● SHAPを用いて特徴量重要度(判断根拠)を算出し、可視化 AIモデルの特徴量重要度の例 [4] Guolin Ke, et al. "LightGBM: A Highly Efficient Gradient Boosting Decision Tree". NIPS’17. [5] Hofmann ,Hans. Statlog (German Credit Data). UCI Machine Learning Repository. 1994

Slide 13

Slide 13 text

アンケート調査2|人間の判断根拠に近い説明の作成 13
 ● 人間に近い説明を作るためにアンケート調査1の回答結果を用いる ○ 回答者が判断時に利用する観点を集計し、判断根拠として可視化 ● AIが重視する判断根拠と、人間が重視する判断根拠に違いが存在 ハイステーク ローステーク AIモデルの説明 人間の説明

Slide 14

Slide 14 text

アンケート調査2|アンケート設定 14
 仮説2: 自身の判断根拠に近い説明を人間は高く評価する ● 金融シナリオで、AIの説明と人間の説明を提示し、どちらを評価するか調査 ● 参加者には、AIが二種類存在し、説明のみが異なることを指示 ○ 片方がAIの説明(タイプA)、もう片方が我々が作成した説明(タイプB)であ ることは知らせない

Slide 15

Slide 15 text

アンケート調査2|アンケート項目内容 15
 ● アンケート項目 ○ 信頼できるか? このシナリオにおいて適切か? 理解しやすいか? 回答者の 好みであるか?の4項目を7段階リッカート尺度で調査 ○ 数値が大きいほど人間の説明を高く評価 AIモデルの説明 人間の説明

Slide 16

Slide 16 text

アンケート調査2|どちらの説明が信頼できるか? 16
 ● 多くの参加者が人間の説明を信頼 ● ハイステーク文脈になることで、より人間の説明を信頼するようになった 人間の説明を評価 AIの説明を評価 どちらの説明が信頼できるか? ハイステークで より人間の説明を高く評価

Slide 17

Slide 17 text

● 適切か?理解しやすいか?回答者の好みか?のそれぞれの観点でも、 ハイステーク文脈では人間の説明を好むように違った アンケート調査2|人間の説明を好む回答者が多い 17
 どちらの説明が適切か? どちら説明が理解しやすいか? どちらの説明が好みか?

Slide 18

Slide 18 text

本研究のまとめ 18
 アンケート結果まとめ ● 同じ判断タスクでも、人間の判断根拠は文脈によって異なる ○ ハイステークなタスクの時、幅広い観点を用いた ● AI本来の説明よりも、人間の判断に近い説明を高く評価 ○ ハイステークなタスクでは、より人間の説明を評価するようになった 本研究の限界 ● ユーザに2種類の説明の違いを示していない ○ 変更された説明であることを開示したとき評価が変わるかもしれない 将来への提案 ● 人間の判断根拠が変わる文脈の調査 ● 利用者✖文脈に応じた個別化された説明の生成