Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
"Are You Really Sure?" Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making 読み会 @ 2024/06/12 発表者:楊明哲
Slide 2
Slide 2 text
論文情報 2 概要 • AI支援決定における人間の自己信頼較正方法の検討 • 適切な信頼較正が人間とAI協働で良い効果を与える 著者名 • Shuai Ma, Xinru Wang, Ying Lei, Chuhan Shi, Ming Yin, Xiaojuan Ma (香港科技大、Purdue大、華東師範大、東南大) 投稿会議 • CHI’2024
Slide 3
Slide 3 text
本研究でRQと研究内容 3 RQ1. 人間の不適切なconfidenceは、AIの信頼にどのような影響 を与えるか? →研究1. 人間の適切なconfidenceを分析フレームワークの提案 RQ2. 人間のconfidenceはどのように変更されるのか? →研究2. 異なるcalibrationアプローチによる変化の違いを調査 RQ3. 人間のconfidenceのcalibrationは、AIとタスクパフォーマ ンスの信頼の適切さにどのような影響を与えるか? →研究3. 意思決定 with AI時の人間のcalibration効果の調査
Slide 4
Slide 4 text
研究背景|AIによる意思決定支援 4 • AIによる意思決定支援はさまざまな場面で使われる • 医療診断、簡易裁判とか • AIによる意思決定支援では、最終判断は人間に譲る • 法律的な、倫理的な考えを踏まえてAIの判断を鵜呑みしない • あくまでもAIがアドバイスをするのみの存在 アドバイス 採用 不採用
Slide 5
Slide 5 text
研究背景| 5 • AIの判断は、(現状では)完璧なものではない • もちろん、人間の判断も完璧ではない • 人間とAIの両方が不確実さを有しているから、人間がAIを適切に依 存することが、重要な課題として挙げられる
Slide 6
Slide 6 text
適切な依存ってなに? 6 適切な依存 不適切な依存 Over-reliance Under-reliance 初期決定 AI助言 最終決定 初期決定 AI助言 最終決定
Slide 7
Slide 7 text
AIのConfidence = AIがきちんと正解できる確率 7 • 適切な依存のために信頼スコアを用いる • もし信頼スコアがwell-calibratedになっているなら、 予測の正解確率を信頼スコア(Correct Liklihood)として用いる ことが可能 • 人間はこの信頼スコアをもとに、判断を調整する この問題には90%で 正解できる Confidence score (Correct Likelihood)
Slide 8
Slide 8 text
既存研究におけるAI-Confidenceの活用 8 • AIのconfidenceを提示することが、人間の適切な依存を促すうえ で必ずしも効果がなかった • また、タスクパフォーマンス向上に寄与するわけでもない • この結果の理由として以下のことが議論されている • 理由1: 人間とAIの相互補完が不十分 • AIのconfidenceが低い時、人間は判断をどうすればいいか分 からない • 理由2:人間が自分のconfidence評価が誤っている • 間違ったconfidenceのせいで、判断を変更しない
Slide 9
Slide 9 text
人間の自信を正していこう 9 人間自身のConfidenceは間違ったものになりやすい →人間のConfidenceを上手にCalibrationする必要がある! じゃあ何が適切なHuman self-confidenceとは? 本研究で二種類のHuman self-confidenceを導入する • タスクレベル: Expected calibration error (ECE) • インスタンスレベル: C-C Matching (本研究で新しく定義)
Slide 10
Slide 10 text
タスクレベルでの適切なConfidenceの評価方法 10 ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated 自信があるものは正答率が高く、自信が低いものは正答率を低くしたい B:Confidenceをbinにしたもの
Slide 11
Slide 11 text
インスタンスレベルでの適切なConfidenceの評価方法 11 • ConfidenceとCorrectnessがズレているもの = C-C Mismatched
Slide 12
Slide 12 text
研究1|C-Cに基づく分析パターン 12 • 人間のC-C(4パターン) x AIのC-C(4パターン) x 最終結果 (2パ ターン)の合計32パターンに分けられる。 • 特に興味あるのは人間の初期判断とAIの判断が異なる時 ダメなパターン よいパターン
Slide 13
Slide 13 text
研究1|リサーチクエスチョンを細分化 13 RQ1 人間の不適切なconfidenceは、AIの信頼にどのような影響を 与えるか? RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当 たるか? RQ1.2 人間のConfidenceと信頼に相関はあるか? RQ1.3 AIのConfidence提示の有無は、人間のConfidenceの 正しい評価にどのような影響を与えるか? RQ1.4 AIのConfidence提示の有無は、タスクパフォーマンスに 影響をあたえるか?
Slide 14
Slide 14 text
研究1|実験タスク 14 • タスクとしては、Incomeデータセットでの年収高低の予測 • AIモデルはロジスティック回帰を利用 • 20インスタンスをデータセットから選択 • 10インスタンスでAIはConfidenceが0.75以上(高い自信) • 9インスタンスについては正解する(Accracy=0.9) • 残り10インスタンスのAI-Confidenceが0.75未満(低い自信) • 6インスタンスのみ正解(Accuracy=0.6) • AIのConfidenceを提示するパターンと提示しないパターンで比 較実験 • 参加者は、初期回答後に判断のconfidenceを回答
Slide 15
Slide 15 text
研究1|分析方法 15 • C-Cのパターンごとに、エラー率をみる • ここでのエラー率は最終決定が正しいかどうかのみ • 初期の判断結果は関係ない
Slide 16
Slide 16 text
研究1|RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか? 16 • Human C-CがMismatchだとエラー率が上がる→人間のせい • AI C-CがMismatchだと人間が正しくても間違える • 人間のConfidenceが判断結果を悪くしている 各C-Cにおけるエラー率。低い方が判断結果が正しい
Slide 17
Slide 17 text
研究2|異なるcalibrationアプローチによる変化の違いを調査 17 • 人間のConfidenceのcalibrationのために3パターンを用意 1. Think the opposite (Think) • 人間に反対意見を考えるように促す 2. Thinking the bets (Bet) • 自分の判断に賭け金を設定できる 3. Calibration status feedback (Feedback) • 判断の結果フィードバックを受け取る • リアルタイムフィードバックと全体フィードバックの二種類
Slide 18
Slide 18 text
研究2|ThinkとBetの実験画面 18 Think Bet
Slide 19
Slide 19 text
研究2|フィードバックアプローチの具体的な画面 19 confidenceの結果を毎回提示 全体を通し た傾向を フィード バックとし て提示
Slide 20
Slide 20 text
研究2|リサーチクエスチョンを細分化 20 RQ2. 人間のconfidenceはどのように変更されるのか? RQ2.1 calibrationの違いによって、タスクパフォーマンスや Human self-confidenceに違いが出るのか? RQ2.2 calibrationの違いによって、人間の知覚やUXにどのよう な影響を与えるのか?
Slide 21
Slide 21 text
研究2|実験設定 21 • 予測タスクは、年収予測(研究1)と同じ • AIの予測は導入しない →純粋なcalibrationの効果を見たいため • Calibrationは、Think, Bet, Feedback+Controlの4種類 • 評価指標はAccuracyとECEを用いる ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated
Slide 22
Slide 22 text
研究2|RQ2.1 タスクパフォーマンスやHuman self-confidenceに違いが出るのか? 22 • タスクパフォーマンスはControlと比べ、どのCalibrationも向上 → 考えることを促せたからでは? • ECEでは、Think, FeedbackがControlと比べself-confideceを修正できた • Betは十分な動機づけはできなかった
Slide 23
Slide 23 text
研究2|RQ2.2 calibrationの違いによって、人間の知覚やUXにどのような影響を与えるのか? 23 • ユーザの主観アンケートから各calibrationの影響を見る Think • 参加者に作業負荷が高い • 好みや満足度が低い • → 反対意見を考えるのは人間にとって苦痛 Bet, Feedback • Controlと比べてユーザ体験に悪い影響を与えない
Slide 24
Slide 24 text
研究2|Calibrationの使いわけ 24 メリット デメリット 限界 Think 自信評価の修正、タスクパ フォーマンス向上 UXが良くない 素早い判断に向かない Bet (有意ではないが)過信を抑 える、パフォーマンス向上 自信修正に有効ではない 賭けによるインセンティブ が発揮できるとは限らない Feedback 自信評価の修正、タスクパ フォーマンス向上 フィードバックを当てるため 時間がかかる 正答がないとフィードバッ クできない
Slide 25
Slide 25 text
研究3|意思決定 with AI時の人間のcalibration効果の調査 25 • 研究1で、self-confidenceを修正する必要性を確認 • 研究2で、calibration w/o AIでの効果を確認 • 研究3では、研究1と研究2を組み合わせる • RQ3 人間のconfidenceのcalibrationは、AIとタスクパフォー マンスの信頼の適切さにどのような影響を与えるか? • RQ3.1 calibrationがAI信頼にどんな影響を与えるか? • RQ3.2 calibrationはAI依存にどんな影響を与えるか? • RQ3.3 calibrationはタスクパフォにどんな影響を与えるか?
Slide 26
Slide 26 text
研究3|実験設定 26 実験群 • Calibrationの有無で比較 • CalibrationはFeedbackを用いる 評価指標 • Accuracy, ECE (研究1,2と同様) • Reliance(依存) • Over-Reliance, Under-Reliance (研究2と同じ) • Accuracy w/ initial disagreement: 判断を変えたもの
Slide 27
Slide 27 text
研究3| RQ3.1 CalibrationによるAI信頼の変化 27 • 一致率、変更率に違いがなかった初期予測がAIと異なる時、calibrationすることで、高い信頼度をもつ 意見を聞くように変化した • 人間のconfidenceをcalibrationすることで合理的なconfidence情報活用を促せたのでは?
Slide 28
Slide 28 text
研究3|Calibrationによる依存の変化 28 • Under-Relianceに関して、Calibrationがあることで改善された • しかし全ての側面で改善されるわけではなかった • Confidenceを較正するだけでは、AIの適切な依存を促進できないのでは?
Slide 29
Slide 29 text
研究3|Calibrationによるタスクパフォーマンスの変化 29 • Calibration条件では、人間の最終精度は、AIの精度(75%)と初期精度を上回った • AI単純とコラボするより、Calibrationすることの有用性がある • AIの推薦を見たことによって、判断を変更した効果が現れている
Slide 30
Slide 30 text
まとめ 30 • 人間のconfidence calibrationについて取り扱った • Confidence-Correct matchingの分析観点を導入 • AIのconfidenceよりも人間のconfidenceを較正する必要性を確認 • どのCalibrationがいいかを実験 • 異なるCalibrationでも、適用効果があることを確認 • どのCalibrationがいいかは目的に応じて変えていいかも • Calibrationを意思決定時に導入した時の効果を検証 • Confidenceを較正することで、人間は合理的な行動を取れるように変化 • Under-relianceに対しては効果があった