[読み会] “Are You Really Sure?” Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making

"Are You Really Sure?" Understanding the Effects of Human Self-Confidence
Calibration in AI-Assisted Decision Making 読み会 @ 2024/06/12 発表者：楊明哲　

論文情報 2 概要 • AI支援決定における人間の自己信頼較正方法の検討 • 適切な信頼較正が人間とAI協働で良い効果を与える著者名 • Shuai
Ma, Xinru Wang, Ying Lei, Chuhan Shi, Ming Yin, Xiaojuan Ma (香港科技大、Purdue大、華東師範大、東南大）投稿会議 • CHI’2024

本研究でRQと研究内容 3 RQ1. 人間の不適切なconfidenceは、AIの信頼にどのような影響を与えるか？ →研究1. 人間の適切なconfidenceを分析フレームワークの提案 RQ2. 人間のconfidenceはどのように変更されるのか？ →研究2.
異なるcalibrationアプローチによる変化の違いを調査 RQ3. 人間のconfidenceのcalibrationは、AIとタスクパフォーマンスの信頼の適切さにどのような影響を与えるか？ →研究3. 意思決定 with AI時の人間のcalibration効果の調査

研究背景｜AIによる意思決定支援 4 • AIによる意思決定支援はさまざまな場面で使われる • 医療診断、簡易裁判とか • AIによる意思決定支援では、最終判断は人間に譲る • 法律的な、倫理的な考えを踏まえてAIの判断を鵜呑みしない
• あくまでもAIがアドバイスをするのみの存在アドバイス採用不採用

研究背景｜ 5 • AIの判断は、（現状では）完璧なものではない • もちろん、人間の判断も完璧ではない • 人間とAIの両方が不確実さを有しているから、人間がAIを適切に依存することが、重要な課題として挙げられる

適切な依存ってなに？ 6 適切な依存不適切な依存 Over-reliance Under-reliance 初期決定 AI助言最終決定初期決定
AI助言最終決定

AIのConfidence = AIがきちんと正解できる確率 7 • 適切な依存のために信頼スコアを用いる • もし信頼スコアがwell-calibratedになっているなら、予測の正解確率を信頼スコア（Correct Liklihood）として用いる
ことが可能 • 人間はこの信頼スコアをもとに、判断を調整するこの問題には90%で正解できる Confidence score (Correct Likelihood)

既存研究におけるAI-Confidenceの活用 8 • AIのconfidenceを提示することが、人間の適切な依存を促すうえで必ずしも効果がなかった • また、タスクパフォーマンス向上に寄与するわけでもない • この結果の理由として以下のことが議論されている •
理由１：人間とAIの相互補完が不十分 • AIのconfidenceが低い時、人間は判断をどうすればいいか分からない • 理由2：人間が自分のconfidence評価が誤っている • 間違ったconfidenceのせいで、判断を変更しない

人間の自信を正していこう 9 人間自身のConfidenceは間違ったものになりやすい →人間のConfidenceを上手にCalibrationする必要がある！じゃあ何が適切なHuman self-confidenceとは？本研究で二種類のHuman self-confidenceを導入する • タスクレベル：
Expected calibration error (ECE) • インスタンスレベル： C-C Matching (本研究で新しく定義）

タスクレベルでの適切なConfidenceの評価方法 10 ECE = m=1 ∑ M |Bm | N
|acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated 自信があるものは正答率が高く、自信が低いものは正答率を低くしたい B：Confidenceをbinにしたもの

インスタンスレベルでの適切なConfidenceの評価方法 11 • ConfidenceとCorrectnessがズレているもの = C-C Mismatched

研究1｜C-Cに基づく分析パターン 12 • 人間のC-C(４パターン) x AIのC-C（４パターン) x 最終結果 (2パターン)の合計32パターンに分けられる。
• 特に興味あるのは人間の初期判断とAIの判断が異なる時ダメなパターンよいパターン

研究１｜リサーチクエスチョンを細分化 13 RQ1 人間の不適切なconfidenceは、AIの信頼にどのような影響を与えるか？ RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか？ RQ1.2
人間のConfidenceと信頼に相関はあるか？ RQ1.3 AIのConfidence提示の有無は、人間のConfidenceの正しい評価にどのような影響を与えるか？ RQ1.4 AIのConfidence提示の有無は、タスクパフォーマンスに影響をあたえるか？

研究１｜実験タスク 14 • タスクとしては、Incomeデータセットでの年収高低の予測 • AIモデルはロジスティック回帰を利用 • 20インスタンスをデータセットから選択 • 10インスタンスでAIはConfidenceが0.75以上（高い自信）
• ９インスタンスについては正解する（Accracy=0.9) • 残り10インスタンスのAI-Confidenceが0.75未満（低い自信） • 6インスタンスのみ正解（Accuracy=0.6) • AIのConfidenceを提示するパターンと提示しないパターンで比較実験 • 参加者は、初期回答後に判断のconfidenceを回答

研究１｜分析方法 15 • C-Cのパターンごとに、エラー率をみる • ここでのエラー率は最終決定が正しいかどうかのみ • 初期の判断結果は関係ない

研究１｜RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか？ 16 • Human C-CがMismatchだとエラー率が上がる→人間のせい • AI C-CがMismatchだと人間が正しくても間違える
• 人間のConfidenceが判断結果を悪くしている各C-Cにおけるエラー率。低い方が判断結果が正しい

研究2｜異なるcalibrationアプローチによる変化の違いを調査 17 • 人間のConfidenceのcalibrationのために３パターンを用意 1. Think the opposite (Think) •
人間に反対意見を考えるように促す 2. Thinking the bets (Bet) • 自分の判断に賭け金を設定できる 3. Calibration status feedback (Feedback) • 判断の結果フィードバックを受け取る • リアルタイムフィードバックと全体フィードバックの二種類

研究２｜ThinkとBetの実験画面 18 Think Bet

研究２｜フィードバックアプローチの具体的な画面 19 confidenceの結果を毎回提示全体を通した傾向をフィードバックとして提示

研究2｜リサーチクエスチョンを細分化 20 RQ2. 人間のconfidenceはどのように変更されるのか？ RQ2.1 calibrationの違いによって、タスクパフォーマンスや Human self-confidenceに違いが出るのか？ RQ2.2 calibrationの違いによって、人間の知覚やUXにどのよう
な影響を与えるのか？

研究2｜実験設定 21 • 予測タスクは、年収予測（研究１）と同じ • AIの予測は導入しない →純粋なcalibrationの効果を見たいため • Calibrationは、Think, Bet,
Feedback+Controlの４種類 • 評価指標はAccuracyとECEを用いる ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated

研究2｜RQ2.1 タスクパフォーマンスやHuman self-confidenceに違いが出るのか？ 22 • タスクパフォーマンスはControlと比べ、どのCalibrationも向上 → 考えることを促せたからでは？ • ECEでは、Think,
FeedbackがControlと比べself-confideceを修正できた • Betは十分な動機づけはできなかった

研究2｜RQ2.2 calibrationの違いによって、人間の知覚やUXにどのような影響を与えるのか？ 23 • ユーザの主観アンケートから各calibrationの影響を見る Think • 参加者に作業負荷が高い • 好みや満足度が低い
• → 反対意見を考えるのは人間にとって苦痛 Bet, Feedback • Controlと比べてユーザ体験に悪い影響を与えない

研究2｜Calibrationの使いわけ 24 メリットデメリット限界 Think 自信評価の修正、タスクパフォーマンス向上 UXが良くない素早い判断に向かない
Bet （有意ではないが）過信を抑える、パフォーマンス向上自信修正に有効ではない賭けによるインセンティブが発揮できるとは限らない Feedback 自信評価の修正、タスクパフォーマンス向上フィードバックを当てるため時間がかかる正答がないとフィードバックできない

研究３｜意思決定 with AI時の人間のcalibration効果の調査 25 • 研究１で、self-confidenceを修正する必要性を確認 • 研究2で、calibration w/o AIでの効果を確認
• 研究3では、研究1と研究2を組み合わせる • RQ3 人間のconfidenceのcalibrationは、AIとタスクパフォーマンスの信頼の適切さにどのような影響を与えるか？ • RQ3.1 calibrationがAI信頼にどんな影響を与えるか？ • RQ3.2 calibrationはAI依存にどんな影響を与えるか？ • RQ3.3 calibrationはタスクパフォにどんな影響を与えるか？

研究3|実験設定 26 実験群 • Calibrationの有無で比較 • CalibrationはFeedbackを用いる評価指標 • Accuracy,
ECE (研究1,2と同様) • Reliance（依存） • Over-Reliance, Under-Reliance (研究2と同じ) • Accuracy w/ initial disagreement: 判断を変えたもの

研究３| RQ3.1 CalibrationによるAI信頼の変化 27 • 一致率、変更率に違いがなかった初期予測がAIと異なる時、calibrationすることで、高い信頼度をもつ意見を聞くように変化した • 人間のconfidenceをcalibrationすることで合理的なconfidence情報活用を促せたのでは？

研究3｜Calibrationによる依存の変化 28 • Under-Relianceに関して、Calibrationがあることで改善された • しかし全ての側面で改善されるわけではなかった • Confidenceを較正するだけでは、AIの適切な依存を促進できないのでは？

研究３|Calibrationによるタスクパフォーマンスの変化 29 • Calibration条件では、人間の最終精度は、AIの精度（75%）と初期精度を上回った • AI単純とコラボするより、Calibrationすることの有用性がある • AIの推薦を見たことによって、判断を変更した効果が現れている

まとめ 30 • 人間のconfidence calibrationについて取り扱った • Confidence-Correct matchingの分析観点を導入 • AIのconfidenceよりも人間のconfidenceを較正する必要性を確認
• どのCalibrationがいいかを実験 • 異なるCalibrationでも、適用効果があることを確認 • どのCalibrationがいいかは目的に応じて変えていいかも • Calibrationを意思決定時に導入した時の効果を検証 • Confidenceを較正することで、人間は合理的な行動を取れるように変化 • Under-relianceに対しては効果があった

[読み会] “Are You Really Sure?” Understanding the ...

[読み会] “Are You Really Sure?” Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making

mei28

More Decks by mei28

Featured

Transcript

"Are You Really Sure?" Understanding the Effects of Human Self-Confidence

論文情報 2 概要 • AI支援決定における人間の自己信頼較正方法の検討 • 適切な信頼較正が人間とAI協働で良い効果を与える著者名 • Shuai

本研究でRQと研究内容 3 RQ1. 人間の不適切なconfidenceは、AIの信頼にどのような影響を与えるか？ →研究1. 人間の適切なconfidenceを分析フレームワークの提案 RQ2. 人間のconfidenceはどのように変更されるのか？ →研究2.

研究背景｜ 5 • AIの判断は、（現状では）完璧なものではない • もちろん、人間の判断も完璧ではない • 人間とAIの両方が不確実さを有しているから、人間がAIを適切に依存することが、重要な課題として挙げられる

適切な依存ってなに？ 6 適切な依存不適切な依存 Over-reliance Under-reliance 初期決定 AI助言最終決定初期決定

AIのConfidence = AIがきちんと正解できる確率 7 • 適切な依存のために信頼スコアを用いる • もし信頼スコアがwell-calibratedになっているなら、予測の正解確率を信頼スコア（Correct Liklihood）として用いる

タスクレベルでの適切なConfidenceの評価方法 10 ECE = m=1 ∑ M |Bm | N

インスタンスレベルでの適切なConfidenceの評価方法 11 • ConfidenceとCorrectnessがズレているもの = C-C Mismatched

研究1｜C-Cに基づく分析パターン 12 • 人間のC-C(４パターン) x AIのC-C（４パターン) x 最終結果 (2パターン)の合計32パターンに分けられる。

研究１｜リサーチクエスチョンを細分化 13 RQ1 人間の不適切なconfidenceは、AIの信頼にどのような影響を与えるか？ RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか？ RQ1.2

研究１｜実験タスク 14 • タスクとしては、Incomeデータセットでの年収高低の予測 • AIモデルはロジスティック回帰を利用 • 20インスタンスをデータセットから選択 • 10インスタンスでAIはConfidenceが0.75以上（高い自信）

研究１｜分析方法 15 • C-Cのパターンごとに、エラー率をみる • ここでのエラー率は最終決定が正しいかどうかのみ • 初期の判断結果は関係ない

研究１｜RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか？ 16 • Human C-CがMismatchだとエラー率が上がる→人間のせい • AI C-CがMismatchだと人間が正しくても間違える

研究2｜異なるcalibrationアプローチによる変化の違いを調査 17 • 人間のConfidenceのcalibrationのために３パターンを用意 1. Think the opposite (Think) •

研究２｜ThinkとBetの実験画面 18 Think Bet

研究２｜フィードバックアプローチの具体的な画面 19 confidenceの結果を毎回提示全体を通した傾向をフィードバックとして提示

研究2｜実験設定 21 • 予測タスクは、年収予測（研究１）と同じ • AIの予測は導入しない →純粋なcalibrationの効果を見たいため • Calibrationは、Think, Bet,

研究2｜RQ2.1 タスクパフォーマンスやHuman self-confidenceに違いが出るのか？ 22 • タスクパフォーマンスはControlと比べ、どのCalibrationも向上 → 考えることを促せたからでは？ • ECEでは、Think,

研究2｜RQ2.2 calibrationの違いによって、人間の知覚やUXにどのような影響を与えるのか？ 23 • ユーザの主観アンケートから各calibrationの影響を見る Think • 参加者に作業負荷が高い • 好みや満足度が低い

研究2｜Calibrationの使いわけ 24 メリットデメリット限界 Think 自信評価の修正、タスクパフォーマンス向上 UXが良くない素早い判断に向かない

研究３｜意思決定 with AI時の人間のcalibration効果の調査 25 • 研究１で、self-confidenceを修正する必要性を確認 • 研究2で、calibration w/o AIでの効果を確認

研究3|実験設定 26 実験群 • Calibrationの有無で比較 • CalibrationはFeedbackを用いる評価指標 • Accuracy,

研究3｜Calibrationによる依存の変化 28 • Under-Relianceに関して、Calibrationがあることで改善された • しかし全ての側面で改善されるわけではなかった • Confidenceを較正するだけでは、AIの適切な依存を促進できないのでは？

まとめ 30 • 人間のconfidence calibrationについて取り扱った • Confidence-Correct matchingの分析観点を導入 • AIのconfidenceよりも人間のconfidenceを較正する必要性を確認