[JSAI'24] 人間の判断根拠は文脈によって異なるのか？〜信頼されるXAIに向けた人間の判断根拠理解〜

by mei28

Slide 1

Slide 1 text

人間の判断根拠は文脈によって異なるのか？〜信頼されるXAIに向けた人間の判断根拠理解〜 JSAI2024 OS-5 ヒューマン・イン・ザ・ループAI 楊明哲（東京大学）香川璃奈（筑波大学）馬場雪乃（東京大学）

Slide 2

Slide 2 text

研究背景｜AI挙動理解のための説明可能なAI （XAI） 2  研究背景 ● AIの挙動理解のために、説明可能なAI （XAI）の研究が進んでいる ○ モデル予測の判断根拠を可視化し、挙動理解を支援[1] 既存研究 ● XAIでは、タスク精度改善やAIへの信頼や理解への影響に注目[2] ● AIを利用するかの判断において、利用者のAIへの信頼が関係[3] ● AIへの信頼獲得のために、利用者にどのような説明が望ましいか明らかではない [1] Scott M. Lundberg and Su-In Lee. “A unified approach to interpreting model predictions.” NIPS'17 [2] Alufaisan, Yasmeen, et al. “Does explainable artificial intelligence improve human decision-making?." AAAI’21 [3] Venkatesh Sivaraman, et al. “Ignore, Trust, or Negotiate: Understanding Clinician Acceptance of AI-Based Treatment Recommendations in Health Care”. CHI’23 タスク精度向上挙動理解信頼醸成

Slide 3

Slide 3 text

本研究の目的｜人間に近い説明によって信頼は向上するのか？ 3  本研究の目的信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考える人間は、自分の支持する情報を優先する傾向がある（確証バイアス） → AIの説明が、人間の判断根拠に近い方がより信頼されるのでは？ A w B B B の方が考えが近いからAにしよう

Slide 4

Slide 4 text

本研究の目的｜文脈に応じて説明のみを変更 4  ● 同じタスクを判断したAIであっても、そのAIを使う文脈に応じて信頼される説明が違うのでは？ →人間の判断根拠が文脈によって異なる可能性があるため AIモデル (*)説明=判断根拠の可視化入力データこの人にお金を貸す？ y/n 同じタスクを判断したAIであっても、そのAIを使う文脈に応じて、説明だけを人間の判断根拠に近い説明に変更してもいいのではないか? 高額の金融審査低額の金融審査

Slide 5

Slide 5 text

本研究のリサーチクエスチョン 5  研究目的信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考えるリサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか？（アンケート調査１） 2. 自身の判断根拠に近い説明を、人間は信頼するのか？（アンケート調査2）これらに答えるために2つのアンケート調査を実施

Slide 6

Slide 6 text

本研究のリサーチクエスチョン 6  研究目的信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考えるリサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか？（アンケート調査１） 2. 自身の判断根拠に近い説明を、人間は信頼するのか？（アンケート調査2）

Slide 7

Slide 7 text

アンケート調査1｜AI活用シナリオに文脈を追加 7  仮説1：ハイステーク文脈では、人間は幅広い観点を判断根拠に用いる ● シナリオ状況の中で、回答者はどのような判断観点を用いるか調査 ● 判断重要性（ローステーク・ハイステーク）を文脈として追加低額の金融審査高額の金融審査 (*) 文脈の違い＝融資金額の違い

Slide 8

Slide 8 text

アンケート調査1｜実験参加者・アンケート内容・分析方法 8  ● 実験参加者は、クラウドソーシングサイトを通じて集めた200名 ● シナリオ状況を説明し、回答者がどの観点で判断するかの選択肢を回答 ○ シナリオは客観、主観タスクで各３種類x2文脈（合計12シナリオ） ● 分析方法として判断観点数を用いる ○ 設定した項目内の選択率を表す。高いほど多くの観点を判断根拠としている体重予測金融審査医療審査客観タスクローステークダイエットの体重少額の金融貸与風邪の医療診断ハイステーク飛行機搭乗者の体重多額の金融貸与ガンの医療診断音楽推薦献立推薦イラスト推薦主観タスクローステークこれから聞く音楽今日の献立 SNSのイラストハイステーク大事なイベントの音楽特別なイベントの献立 VTuberのイラスト

Slide 9

Slide 9 text

アンケート調査1｜判断観点数の比較 9  ハイステーク文脈の方が、多くのシナリオで判断観点数が多かった客観タスク主観タスク体重予測以外のシナリオで統計的有意差を確認判断観点数判断観点数

Slide 10

Slide 10 text

本研究のリサーチクエスチョン 10  研究目的信頼されるAIの説明で何が必要か明らかにする → 本研究では、人間の判断根拠に近いことが有効であると考えるリサーチクエスチョン 1. 同じ情報に基づいた判断では、判断文脈の違いで、人間の判断根拠は違うのか？（アンケート調査１） 2. 自身の判断根拠に近い説明を、人間は信頼するのか？（アンケート調査2）

Slide 11

Slide 11 text

アンケート調査２｜二種類の説明を比較 11  ● 人間の判断根拠に近い説明の方を高く評価するかを調査 ○ 金融審査タスクを用いて、２種類の説明を提示した ● 比較する判断根拠の説明 1. AIモデルの説明：学習されたモデルの判断根拠の可視化 2. 人間の説明：アンケート調査１に基づく判断根拠の可視化 AIモデル入力データこの人にお金を貸す？ y/n 人間の説明 AIモデルの説明 ※説明のみを変更

Slide 12

Slide 12 text

アンケート調査2｜AIモデルの説明作成 12  ● AIモデルとして、勾配ブースティング決定木のLightGBM[4]を利用 ● 金融審査データセット[5]を用いてモデルを訓練 ○ モデルの予測精度は0.７であり、人間の予測精度0.6より高い ● SHAPを用いて特徴量重要度（判断根拠）を算出し、可視化 AIモデルの特徴量重要度の例 [4] Guolin Ke, et al. "LightGBM: A Highly Efficient Gradient Boosting Decision Tree". NIPS’17. [5] Hofmann ,Hans. Statlog (German Credit Data). UCI Machine Learning Repository. 1994

Slide 13

Slide 13 text

アンケート調査2｜人間の判断根拠に近い説明の作成 13  ● 人間に近い説明を作るためにアンケート調査１の回答結果を用いる ○ 回答者が判断時に利用する観点を集計し、判断根拠として可視化 ● AIが重視する判断根拠と、人間が重視する判断根拠に違いが存在ハイステークローステーク AIモデルの説明人間の説明

Slide 14

Slide 14 text

アンケート調査2｜アンケート設定 14  仮説2: 自身の判断根拠に近い説明を人間は高く評価する ● 金融シナリオで、AIの説明と人間の説明を提示し、どちらを評価するか調査 ● 参加者には、AIが二種類存在し、説明のみが異なることを指示 ○ 片方がAIの説明（タイプA）、もう片方が我々が作成した説明（タイプB）であることは知らせない

Slide 15

Slide 15 text

アンケート調査2｜アンケート項目内容 15  ● アンケート項目 ○ 信頼できるか？このシナリオにおいて適切か？理解しやすいか？回答者の好みであるか？の４項目を7段階リッカート尺度で調査 ○ 数値が大きいほど人間の説明を高く評価 AIモデルの説明人間の説明

Slide 16

Slide 16 text

アンケート調査2｜どちらの説明が信頼できるか？ 16  ● 多くの参加者が人間の説明を信頼 ● ハイステーク文脈になることで、より人間の説明を信頼するようになった人間の説明を評価 AIの説明を評価どちらの説明が信頼できるか? ハイステークでより人間の説明を高く評価

Slide 17

Slide 17 text

● 適切か？理解しやすいか？回答者の好みか？のそれぞれの観点でも、ハイステーク文脈では人間の説明を好むように違ったアンケート調査2｜人間の説明を好む回答者が多い 17  どちらの説明が適切か? どちら説明が理解しやすいか? どちらの説明が好みか?

Slide 18

Slide 18 text

本研究のまとめ 18  アンケート結果まとめ ● 同じ判断タスクでも、人間の判断根拠は文脈によって異なる ○ ハイステークなタスクの時、幅広い観点を用いた ● AI本来の説明よりも、人間の判断に近い説明を高く評価 ○ ハイステークなタスクでは、より人間の説明を評価するようになった本研究の限界 ● ユーザに2種類の説明の違いを示していない ○ 変更された説明であることを開示したとき評価が変わるかもしれない将来への提案 ● 人間の判断根拠が変わる文脈の調査 ● 利用者✖文脈に応じた個別化された説明の生成