Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[読み会] “Are You Really Sure?” Understanding the ...

mei28
June 11, 2024
50

[読み会] “Are You Really Sure?” Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making

読み会資料
“Are You Really Sure?” Understanding the Effects of Human Self-Confidence Calibration in AI-Assisted Decision Making

mei28

June 11, 2024
Tweet

Transcript

  1. "Are You Really Sure?" Understanding the Effects of Human Self-Confidence

    Calibration in AI-Assisted Decision Making 読み会 @ 2024/06/12 発表者:楊明哲 
  2. 論文情報 2 概要 • AI支援決定における人間の自己信頼較正方法の検討 • 適切な信頼較正が人間とAI協働で良い効果を与える 著者名 • Shuai

    Ma, Xinru Wang, Ying Lei, Chuhan Shi, Ming Yin, Xiaojuan Ma (香港科技大、Purdue大、華東師範大、東南大) 投稿会議 • CHI’2024
  3. 本研究でRQと研究内容 3 RQ1. 人間の不適切なconfidenceは、AIの信頼にどのような影響 を与えるか? →研究1. 人間の適切なconfidenceを分析フレームワークの提案 RQ2. 人間のconfidenceはどのように変更されるのか? →研究2.

    異なるcalibrationアプローチによる変化の違いを調査 RQ3. 人間のconfidenceのcalibrationは、AIとタスクパフォーマ ンスの信頼の適切さにどのような影響を与えるか? →研究3. 意思決定 with AI時の人間のcalibration効果の調査
  4. 既存研究におけるAI-Confidenceの活用 8 • AIのconfidenceを提示することが、人間の適切な依存を促すうえ で必ずしも効果がなかった • また、タスクパフォーマンス向上に寄与するわけでもない • この結果の理由として以下のことが議論されている •

    理由1: 人間とAIの相互補完が不十分 • AIのconfidenceが低い時、人間は判断をどうすればいいか分 からない • 理由2:人間が自分のconfidence評価が誤っている • 間違ったconfidenceのせいで、判断を変更しない
  5. タスクレベルでの適切なConfidenceの評価方法 10 ECE = m=1 ∑ M |Bm | N

    |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated 自信があるものは正答率が高く、自信が低いものは正答率を低くしたい B:Confidenceをbinにしたもの
  6. 研究1|リサーチクエスチョンを細分化 13 RQ1 人間の不適切なconfidenceは、AIの信頼にどのような影響を 与えるか? RQ1.1 人間のC-C Mismatchはパフォーマンスにどんな影響を当 たるか? RQ1.2

    人間のConfidenceと信頼に相関はあるか? RQ1.3 AIのConfidence提示の有無は、人間のConfidenceの 正しい評価にどのような影響を与えるか? RQ1.4 AIのConfidence提示の有無は、タスクパフォーマンスに 影響をあたえるか?
  7. 研究1|実験タスク 14 • タスクとしては、Incomeデータセットでの年収高低の予測 • AIモデルはロジスティック回帰を利用 • 20インスタンスをデータセットから選択 • 10インスタンスでAIはConfidenceが0.75以上(高い自信)

    • 9インスタンスについては正解する(Accracy=0.9) • 残り10インスタンスのAI-Confidenceが0.75未満(低い自信) • 6インスタンスのみ正解(Accuracy=0.6) • AIのConfidenceを提示するパターンと提示しないパターンで比 較実験 • 参加者は、初期回答後に判断のconfidenceを回答
  8. 研究2|異なるcalibrationアプローチによる変化の違いを調査 17 • 人間のConfidenceのcalibrationのために3パターンを用意 1. Think the opposite (Think) •

    人間に反対意見を考えるように促す 2. Thinking the bets (Bet) • 自分の判断に賭け金を設定できる 3. Calibration status feedback (Feedback) • 判断の結果フィードバックを受け取る • リアルタイムフィードバックと全体フィードバックの二種類
  9. 研究2|実験設定 21 • 予測タスクは、年収予測(研究1)と同じ • AIの予測は導入しない →純粋なcalibrationの効果を見たいため • Calibrationは、Think, Bet,

    Feedback+Controlの4種類 • 評価指標はAccuracyとECEを用いる ECE = m=1 ∑ M |Bm | N |acc(Bm ) − conf(Bm )| Well-Calibrated Over-Calibrated Under-Calibrated
  10. 研究2|Calibrationの使いわけ 24 メリット デメリット 限界 Think 自信評価の修正、タスクパ フォーマンス向上 UXが良くない 素早い判断に向かない

    Bet (有意ではないが)過信を抑 える、パフォーマンス向上 自信修正に有効ではない 賭けによるインセンティブ が発揮できるとは限らない Feedback 自信評価の修正、タスクパ フォーマンス向上 フィードバックを当てるため 時間がかかる 正答がないとフィードバッ クできない
  11. 研究3|意思決定 with AI時の人間のcalibration効果の調査 25 • 研究1で、self-confidenceを修正する必要性を確認 • 研究2で、calibration w/o AIでの効果を確認

    • 研究3では、研究1と研究2を組み合わせる • RQ3 人間のconfidenceのcalibrationは、AIとタスクパフォー マンスの信頼の適切さにどのような影響を与えるか? • RQ3.1 calibrationがAI信頼にどんな影響を与えるか? • RQ3.2 calibrationはAI依存にどんな影響を与えるか? • RQ3.3 calibrationはタスクパフォにどんな影響を与えるか?
  12. 研究3|実験設定 26 実験群 • Calibrationの有無で比較 • CalibrationはFeedbackを用いる 評価指標 • Accuracy,

    ECE (研究1,2と同様) • Reliance(依存) • Over-Reliance, Under-Reliance (研究2と同じ) • Accuracy w/ initial disagreement: 判断を変えたもの
  13. まとめ 30 • 人間のconfidence calibrationについて取り扱った • Confidence-Correct matchingの分析観点を導入 • AIのconfidenceよりも人間のconfidenceを較正する必要性を確認

    • どのCalibrationがいいかを実験 • 異なるCalibrationでも、適用効果があることを確認 • どのCalibrationがいいかは目的に応じて変えていいかも • Calibrationを意思決定時に導入した時の効果を検証 • Confidenceを較正することで、人間は合理的な行動を取れるように変化 • Under-relianceに対しては効果があった