$30 off During Our Annual Pro Sale. View Details »

予測の不確かさの活用について

 予測の不確かさの活用について

第66回 Machine Learning 15minutes! Broadcastの発表資料です。

masatoto

May 28, 2022
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. 2 ⾃⼰紹介 株式会社 電通国際情報サービス X(クロス)イノベーション本部 A Iランスフォーメンションセンター 仕事:AI製品開発、データ分析案件 好きなML技術 •

    ベイズ深層学習、予測の不確実性 • 今⽇の資料は後ほどアップロードします。 • Twitter @ottamm_190 ← 質問などこちらに 太⽥ 真⼈
  2. 7 いつ予測の不確かさを使うのが適切でしょうか 安全性・信頼性が必要な業界、ノイズの多いデータを扱う場合で必要とされています。 ⾃動運転 医療 ロボット 衛星データ ⼊⼒ 真値 予測

    予測分散 Semantic Segmentation Bayesian SegNet [1] 不確実性の推論⾼速化 安全深層強化学習 ⾏動の選択時に 予測分散を制約条件[3] テスト時に未知クラスを検知 分布外検知(OOD検知)[4] CT画像の異常検知 [2] ピクセルレベルの不確実性 訓練ID 訓練OOD テストOOD
  3. 8 もっとシンプルに予測の不確かさを活⽤する場⾯ ⼈の意思決定の⽀援に活⽤できます。 不⾜データを知る 意思決定 データ収集する ラベル付けする モデルを改善する ユースケース ラベル付けコスト⾼

    キーワード ベイズ最適化(能動学習) 複雑なデータを知る 意思決定 エッジケースを探す スコープを考え直す データ取得⽅法を変える ユースケース データセット分析 キーワード Example Difficulty Label Noise 予測を信頼する 意思決定 AIの予測を使う ⼈の予測を使う ユースケース 需要予測 確信度>閾値 ⼈間 AI Yes No [5] [5]
  4. 10 本⽇は不確かさの活⽤効果を紹介 ⼈は「予測を信頼する」ことができるのでしょうか ユーザー調査した論⽂( FAT’20 採択)を1本紹介します。 FAT= Fairness, Accountability, and

    Transparency Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI- assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
  5. 11 実験設定 ⼈は「予測を信頼する」ことができるのか Zhang, Yunfeng, Q. Vera Liao, and Rachel

    KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. タスク 参加者 実験⼿順 評価指標 Amazon Mechanical Turk 72名 ⾮ドメイン専⾨家 確信度を⽰す vs. ⽰さない 1回⽬は説明変数を⾒て⾒積もる 2回⽬はAIの予測を⾒て⾒積もる 40回試⾏ ある⼈の年収が5万ドルを超えるか所得予測 説明変数の例 スイッチ率:参加者がAIの予測に変えた割合 ⼀致率:AIと最終的に同じ回答の割合 実験設定
  6. 12 実験結果 予測の不確かさを⽰すと、⼈は確信度のレベルに応じてAIを頼る。 Zhang, Yunfeng, Q. Vera Liao, and Rachel

    KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. ⼀致率 スイッチ率 条件 結果 確信度あり 確信度が⾼いとAIの結果を頼る。 最終的に確信度が⾼くなるにつれAIと同じ結果になる。 確信度なし ⼈はAIの結果を⾒ても変更しないことが多い。
  7. 14 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLモデルの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響

    1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 他にも複数の論⽂から正の影響と負の影響をまとめました。 本⽇は⼀番上の結果を紹介しました。残りは発表資料の付録にまとめています。
  8. 17 ISID AITCでは新しい仲間を募集してます! AITCで働く魅⼒ • 最先端の技術(AI、クラウド、DevOps)を使 ⽤したシステム開発 • Kaggle Master、書籍執筆経験者など多様な⼈

    材が在籍 • 様々な業種のAI活⽤に携われる AITC(AIトランスフォーメーションセンター)の主な業務内容 • 製造、流通、⾦融、ライフサイエンスなど様々な業種のAI活⽤の コンサルティング、データ分析 • 最新アルゴリズム研究、さらにAIをベースとしたシステム開発 ISID 採⽤ページへ
  9. 18 ISID AI Days 2022 詳しくは 知識の無い⽅も歓迎 AI基礎講座も充実 事前アンケートによる 視聴者参加型

    セッション(⼀部) 25以上のコンテンツが無料で 5⽇間⾒放題 https://mfg.isid.co.jp/event/detail/isid-ai-days-2022.php 参加申し込み URL
  10. 19 参考⽂献 [1] Kendall, Alex, Vijay Badrinarayanan, and Roberto Cipolla.

    "Bayesian segnet: Model uncertainty in deep convolutional encoder- decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015). [2] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98 [3] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint arXiv:2001.00496 (2019). [4] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of-distribution detection in satellite image classification,” in RobustML workshop at ICLR 2021. ICRL, 2021, pp. 1–5. [5] Gawlikowski, Jakob, et al. "A survey of uncertainty in deep neural networks." arXiv preprint arXiv:2107.03342 (2021).
  11. 21 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLシステムの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響

    1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 複数の論⽂から正の影響と負の影響をまとめました。
  12. 23 実験設定 予測の不確かさがMLシステムの解釈性向上につながるのか Suresh, Harini, et al. "Intuitively assessing ml

    model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. タスク 参加者 実験⼿順 評価 ⼼電図の波形の4分類問題 医療従事者 14名(ドメイン知識あり) 特徴空間内にあるサンプルのK近傍を可視化させ、不確実性を可視化 声に出しながら、インタラクティブに操作させ、感想を聞く 定性的な⾳読調査 50近傍 確信度 4クラス 4近傍のサンプルの可視化
  13. 24 予測の不確かさがMLシステムの解釈性向上につながる 不確かさを元からあるドメイン知識に関連付け、モデルの挙動を理解 Suresh, Harini, et al. "Intuitively assessing ml

    model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. 参加者の声からわかったこと • 「正常な拍動と似ているから同じクラスになっている。」とその不確実性をドメイン知識で解釈し、 モデルの予測を理解した。 • ⼀⽅で、最初の直感に反していても、間違った予測を合理化することが多かった。 例えば、ある参加者は異常な拍動を⾒て、最初は異常だと⾔い始めたが、予測されたクラスが(間 違って)正常であるのを⾒て、考えを変えた発⾔をした。 クラス間で元々似ている拍動 最初のスパイクの有無
  14. 26 実験設定 予測の不確かさに対する信頼は参加者の事前知識に依存するのか McGrath, Sean, et al. "When does uncertainty

    matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). タスク 参加者 実験⼿順 評価指標 複数の⼤学の研究者や⽣徒 95名 ドメイン知識かMLに関する参加者の専⾨知識の効果 1回⽬は予測を⾒る前に⾒積もる 2回⽬は予測と不確かさを⾒た後に⾒積もる ケンブリッジにあるアパートの⽉々の賃貸価格を予測 1回⽬と2回⽬の⾒積もりの差 1回⽬の⾒積もりとモデル予測の差 2回⽬の⾒積もりとモデル予測の差 予測分布 予測値 説明変数 1回⽬の⾒積もり
  15. 27 参加者の事前知識による予測の信頼結果 ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 McGrath, Sean, et al. "When does uncertainty

    matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). 条件 結果 ドメイン知識の有無 右図を⾒ると、ドメイン知識がある⽅が予測値との誤差が少ない。 AIの予測値を⾒てからの変更量はドメイン知識がない⽅が⼤きい。 最終的にドメイン知識のある⼈と予測結果が変わらなくなった。 ML知識の有無 多少知識がある⼈が⼀番AIの値を頼る結果になった。 ドメイン知識 ML知識
  16. 28 補⾜:分布の違いで⼈の信頼度は変わるのか 分散が⼩さいほど、信頼度が⾼い McGrath, Sean, et al. "When does uncertainty

    matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). 条件 結果 ドメイン知識の有無 分散が⼩さいほど予測に最も近づけている。 分散⼤、多峰性の分布でも、不確実性がない場合と同程度の影響があった。
  17. 29 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLシステムの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響

    1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 複数の論⽂から正の影響と負の影響をまとめました。
  18. 31 実験設定 ⼈は誤った予測を信じるのか D. Dos Santos Ribeiro, G. D. J.

    Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) タスク 参加者 実験⼿順 評価指標 88名(AI経験者51名、AI未経験者37名) 36回試⾏ 1回は予測値のみ 2回⽬は分類確率も⾒せる 視覚的類似性も含む動物写真の分類問題 7段階評価 同意度:予測に同意するか ⾃信度:結果に⾃信があるか
  19. 32 ⼈の過剰信頼の傾向があるのか 過信の傾向がある。正しい分類よりも誤った分類に同意することが多い。 D. Dos Santos Ribeiro, G. D. J.

    Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) 条件 結果 確信度低い画像 間違ったラベルに対して、同意度7が多く、⾃信もあると答えている。 明確な画像 曖昧な画像
  20. 33 分類確率の表⽰効果 過信は変化せず、不確かな同意が減り、適切な信頼が増えた。 不確かさは、過信を抑える効果はない。 D. Dos Santos Ribeiro, G. D.

    J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) Fumeng Yang, Zhuanyi Huang, Jean Scholtz, and Dustin L. Arendt. 2020. How do visual explanations foster end users' appropriate trust in machine learning? In Proceedings of the 25th International Conference on Intelligent User Interfaces (IUI '20). リッカート尺度:[1, 2] 不信、[3, 4, 5] 不確かさ、[6, 7] 信⽤
  21. 35 過信を抑えるテクニック UIでユーザーに考えさせる時間を与える。 Buçinca, Zana, Maja Barbara Malaya, and Krzysztof

    Z. Gajos. "To trust or to think: cognitive forcing functions can reduce overreliance on AI in AI-assisted decision-making." Proceedings of the ACM on Human-Computer Interaction 5.CSCW1 (2021): 1-21. AIの予測を結果をすぐに⾒せない • クリックしたら⾒れるようにする。 • ⼀定時間経ったら⾒せる。
  22. 37 不確実の可視化⽅法 タスクの⽬的に応じて、可視化⽅法を変える必要がある。 Bhatt, Umang, et al. "Uncertainty as a

    form of transparency: Measuring, communicating, and using uncertainty." Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. 2021.
  23. 38 不確実性の可視化によるバイアス ⽬的に応じた可視化をしないと不確かさを無視される。 • ⽐率バイアス: 1/10よりも10/100の⽅が⼤きくに感じる。 • 分⺟の過⼩評価:9/11は10/13より⼩さいと考える。 • 認知バイアス:例えば、乳がんの死亡確率20%よりも乳がんの⽣存確率80%を好む。

    気温の予測範囲 利⽤者の状況 時間帯に応じてみたいのか 瞬間で気温をみたいのか 時系列予測 95%信頼区間表⽰にすると予測平均のみを意識される アンサンブル表⽰にすると⼈は注意深く考える Miriam Greis, Emre Avci, Albrecht Schmidt, and Tonja Machulla. 2017. Increasing Users' Confidence in Uncertain Data by Aggregating Data from Multiple Sources. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (CHI '17).