Slide 1

Slide 1 text

"Are You Really Sure?" Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making 読み会 @ 2024/06/12 発表者:楊明哲 

Slide 2

Slide 2 text

論文情報 2 概要 • AI支援決定における人間の自己信頼較正方法の検討 • 適切な信頼較正が人間とAI協働で良い効果を与える 著者名 • Shuai Ma, Xinru Wang, Ying Lei, Chuhan Shi, Ming Yin, Xiaojuan Ma (香港科技大、Purdue大、華東師範大、東南大) 投稿会議 • CHI’2024

Slide 3

Slide 3 text

本研究でRQと研究内容 3 RQ1. 人間の不適切なconfidenceは、AIの信頼にどのような影響 を与えるか? →研究1. 人間の適切なconfidenceを分析フレームワークの提案 RQ2. 人間のconfidenceはどのように変更されるのか? →研究2. 異なるcalibrationアプローチによる変化の違いを調査 RQ3. 人間のconfidenceのcalibrationは、AIとタスクパフォーマ ンスの信頼の適切さにどのような影響を与えるか? →研究3. 意思決定 with AI時の人間のcalibration効果の調査

Slide 4

Slide 4 text

研究背景|AIによる意思決定支援 4 • AIによる意思決定支援はさまざまな場面で使われる • 医療診断、簡易裁判とか • AIによる意思決定支援では、最終判断は人間に譲る • 法律的な、倫理的な考えを踏まえてAIの判断を鵜呑みしない • あくまでもAIがアドバイスをするのみの存在 アドバイス 採用 不採用

Slide 5

Slide 5 text

研究背景| 5 • AIの判断は、(現状では)完璧なものではない • もちろん、人間の判断も完璧ではない • 人間とAIの両方が不確実さを有しているから、人間がAIを適切に依 存することが、重要な課題として挙げられる

Slide 6

Slide 6 text

適切な依存ってなに? 6 適切な依存 不適切な依存 Over-reliance Under-reliance 初期決定 AI助言 最終決定 初期決定 AI助言 最終決定

Slide 7

Slide 7 text

AIのConfidence = AIがきちんと正解できる確率 7 • 適切な依存のために信頼スコアを用いる • もし信頼スコアがwell-calibratedになっているなら、 予測の正解確率を信頼スコア(Correct Liklihood)として用いる ことが可能 • 人間はこの信頼スコアをもとに、判断を調整する この問題には90%で 正解できる Confidence score (Correct Likelihood)

Slide 8

Slide 8 text

既存研究におけるAI-Confidenceの活用 8 • AIのconfidenceを提示することが、人間の適切な依存を促すうえ で必ずしも効果がなかった • また、タスクパフォーマンス向上に寄与するわけでもない • この結果の理由として以下のことが議論されている • 理由1: 人間とAIの相互補完が不十分 • AIのconfidenceが低い時、人間は判断をどうすればいいか分 からない • 理由2:人間が自分のconfidence評価が誤っている • 間違ったconfidenceのせいで、判断を変更しない

Slide 9

Slide 9 text

人間の自信を正していこう 9 人間自身のConfidenceは間違ったものになりやすい →人間のConfidenceを上手にCalibrationする必要がある! じゃあ何が適切なHuman self-confidenceとは? 本研究で二種類のHuman self-confidenceを導入する • タスクレベル: Expected calibration error (ECE) • インスタンスレベル: C-C Matching (本研究で新しく定義)

Slide 10

Slide 10 text

タスクレベルでの適切なConfidenceの評価方法 10 ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated 自信があるものは正答率が高く、自信が低いものは正答率を低くしたい B:Confidenceをbinにしたもの

Slide 11

Slide 11 text

インスタンスレベルでの適切なConfidenceの評価方法 11 • ConfidenceとCorrectnessがズレているもの = C-C Mismatched

Slide 12

Slide 12 text

研究1|C-Cに基づく分析パターン 12 • 人間のC-C(4パターン) x AIのC-C(4パターン) x 最終結果 (2パ ターン)の合計32パターンに分けられる。 • 特に興味あるのは人間の初期判断とAIの判断が異なる時 ダメなパターン よいパターン

Slide 13

Slide 13 text

研究1|リサーチクエスチョンを細分化 13 RQ1 人間の不適切なconfidenceは、AIの信頼にどのような影響を 与えるか? RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当 たるか? RQ1.2 人間のConfidenceと信頼に相関はあるか? RQ1.3 AIのConfidence提示の有無は、人間のConfidenceの 正しい評価にどのような影響を与えるか? RQ1.4 AIのConfidence提示の有無は、タスクパフォーマンスに 影響をあたえるか?

Slide 14

Slide 14 text

研究1|実験タスク 14 • タスクとしては、Incomeデータセットでの年収高低の予測 • AIモデルはロジスティック回帰を利用 • 20インスタンスをデータセットから選択 • 10インスタンスでAIはConfidenceが0.75以上(高い自信) • 9インスタンスについては正解する(Accracy=0.9) • 残り10インスタンスのAI-Confidenceが0.75未満(低い自信) • 6インスタンスのみ正解(Accuracy=0.6) • AIのConfidenceを提示するパターンと提示しないパターンで比 較実験 • 参加者は、初期回答後に判断のconfidenceを回答

Slide 15

Slide 15 text

研究1|分析方法 15 • C-Cのパターンごとに、エラー率をみる • ここでのエラー率は最終決定が正しいかどうかのみ • 初期の判断結果は関係ない

Slide 16

Slide 16 text

研究1|RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当たるか? 16 • Human C-CがMismatchだとエラー率が上がる→人間のせい • AI C-CがMismatchだと人間が正しくても間違える • 人間のConfidenceが判断結果を悪くしている 各C-Cにおけるエラー率。低い方が判断結果が正しい

Slide 17

Slide 17 text

研究2|異なるcalibrationアプローチによる変化の違いを調査 17 • 人間のConfidenceのcalibrationのために3パターンを用意 1. Think the opposite (Think) • 人間に反対意見を考えるように促す 2. Thinking the bets (Bet) • 自分の判断に賭け金を設定できる 3. Calibration status feedback (Feedback) • 判断の結果フィードバックを受け取る • リアルタイムフィードバックと全体フィードバックの二種類

Slide 18

Slide 18 text

研究2|ThinkとBetの実験画面 18 Think Bet

Slide 19

Slide 19 text

研究2|フィードバックアプローチの具体的な画面 19 confidenceの結果を毎回提示 全体を通し た傾向を フィード バックとし て提示

Slide 20

Slide 20 text

研究2|リサーチクエスチョンを細分化 20 RQ2. 人間のconfidenceはどのように変更されるのか? RQ2.1 calibrationの違いによって、タスクパフォーマンスや Human self-confidenceに違いが出るのか? RQ2.2 calibrationの違いによって、人間の知覚やUXにどのよう な影響を与えるのか?

Slide 21

Slide 21 text

研究2|実験設定 21 • 予測タスクは、年収予測(研究1)と同じ • AIの予測は導入しない →純粋なcalibrationの効果を見たいため • Calibrationは、Think, Bet, Feedback+Controlの4種類 • 評価指標はAccuracyとECEを用いる ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated

Slide 22

Slide 22 text

研究2|RQ2.1 タスクパフォーマンスやHuman self-confidenceに違いが出るのか? 22 • タスクパフォーマンスはControlと比べ、どのCalibrationも向上 → 考えることを促せたからでは? • ECEでは、Think, FeedbackがControlと比べself-confideceを修正できた • Betは十分な動機づけはできなかった

Slide 23

Slide 23 text

研究2|RQ2.2 calibrationの違いによって、人間の知覚やUXにどのような影響を与えるのか? 23 • ユーザの主観アンケートから各calibrationの影響を見る Think • 参加者に作業負荷が高い • 好みや満足度が低い • → 反対意見を考えるのは人間にとって苦痛 Bet, Feedback • Controlと比べてユーザ体験に悪い影響を与えない

Slide 24

Slide 24 text

研究2|Calibrationの使いわけ 24 メリット デメリット 限界 Think 自信評価の修正、タスクパ フォーマンス向上 UXが良くない 素早い判断に向かない Bet (有意ではないが)過信を抑 える、パフォーマンス向上 自信修正に有効ではない 賭けによるインセンティブ が発揮できるとは限らない Feedback 自信評価の修正、タスクパ フォーマンス向上 フィードバックを当てるため 時間がかかる 正答がないとフィードバッ クできない

Slide 25

Slide 25 text

研究3|意思決定 with AI時の人間のcalibration効果の調査 25 • 研究1で、self-confidenceを修正する必要性を確認 • 研究2で、calibration w/o AIでの効果を確認 • 研究3では、研究1と研究2を組み合わせる • RQ3 人間のconfidenceのcalibrationは、AIとタスクパフォー マンスの信頼の適切さにどのような影響を与えるか? • RQ3.1 calibrationがAI信頼にどんな影響を与えるか? • RQ3.2 calibrationはAI依存にどんな影響を与えるか? • RQ3.3 calibrationはタスクパフォにどんな影響を与えるか?

Slide 26

Slide 26 text

研究3|実験設定 26 実験群 • Calibrationの有無で比較 • CalibrationはFeedbackを用いる 評価指標 • Accuracy, ECE (研究1,2と同様) • Reliance(依存) • Over-Reliance, Under-Reliance (研究2と同じ) • Accuracy w/ initial disagreement: 判断を変えたもの

Slide 27

Slide 27 text

研究3| RQ3.1 CalibrationによるAI信頼の変化 27 • 一致率、変更率に違いがなかった初期予測がAIと異なる時、calibrationすることで、高い信頼度をもつ 意見を聞くように変化した • 人間のconfidenceをcalibrationすることで合理的なconfidence情報活用を促せたのでは?

Slide 28

Slide 28 text

研究3|Calibrationによる依存の変化 28 • Under-Relianceに関して、Calibrationがあることで改善された • しかし全ての側面で改善されるわけではなかった • Confidenceを較正するだけでは、AIの適切な依存を促進できないのでは?

Slide 29

Slide 29 text

研究3|Calibrationによるタスクパフォーマンスの変化 29 • Calibration条件では、人間の最終精度は、AIの精度(75%)と初期精度を上回った • AI単純とコラボするより、Calibrationすることの有用性がある • AIの推薦を見たことによって、判断を変更した効果が現れている

Slide 30

Slide 30 text

まとめ 30 • 人間のconfidence calibrationについて取り扱った • Confidence-Correct matchingの分析観点を導入 • AIのconfidenceよりも人間のconfidenceを較正する必要性を確認 • どのCalibrationがいいかを実験 • 異なるCalibrationでも、適用効果があることを確認 • どのCalibrationがいいかは目的に応じて変えていいかも • Calibrationを意思決定時に導入した時の効果を検証 • Confidenceを較正することで、人間は合理的な行動を取れるように変化 • Under-relianceに対しては効果があった