Slide 1

Slide 1 text

1 AI技術動向:予測の不確かさの活⽤について 第66回 Machine Learning 15minutes! Broadcast 2022/5/28 株式会社 電通国際情報サービス X(クロス)イノベーション本部 A Iランスフォーメンションセンター 太⽥ 真⼈

Slide 2

Slide 2 text

2 ⾃⼰紹介 株式会社 電通国際情報サービス X(クロス)イノベーション本部 A Iランスフォーメンションセンター 仕事:AI製品開発、データ分析案件 好きなML技術 • ベイズ深層学習、予測の不確実性 • 今⽇の資料は後ほどアップロードします。 • Twitter @ottamm_190 ← 質問などこちらに 太⽥ 真⼈

Slide 3

Slide 3 text

3 本⽇お話すること 予測の不確かさの活⽤⽅法を紹介します。 皆様の業務で予測の不確かさを検討するきっかけになれば幸いです。 • 予測の不確かさの概要 • 予測の不確かさの活⽤場⾯ • ユーザーに対する予測の不確かさの活⽤効果(論⽂紹介)

Slide 4

Slide 4 text

4 予測の不確かさとは 予測に対する確信度、複数のモデルによる予測の分散で表されます。 予測を点推定するのではなく、確率分布で表現します。 不確かさの原因は、データによるもの、モデルによるものがあります。 分類 回帰 P(x) 0 x y Data Uncertainty Model Uncertainty

Slide 5

Slide 5 text

5 研究動向:予測の不確かさ 「Uncertain」や「Bayesian」が論⽂のタイトルに年々多く含まれています。 ⾮構造化データ(グラフなど)に対する予測の不確実性の定量化⼿法、 まだ⾒ぬクラスのOOD検知、不確かさの定量化の⾼速化が多いです。 3 24 7 44 39 43 23 53 56 26 0 10 20 30 40 50 60 Bayesian Uncertain NeurIPS 2017 2018 2019 2020 2021 7 4 8 3 22 10 23 16 28 24 0 5 10 15 20 25 30 Bayesian Uncertain AAAI 2017 2018 2019 2020 2021 論 ⽂ 数

Slide 6

Slide 6 text

6 不確実性を意識して活⽤されていますか 例えば、Azure Computer Visionのレスポンスにも確信度が含まれています。 時系列予測ライブラリにもベイズモデリングで不確かさが定量化されています。 確信度 https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/ /https://facebook.github.io/prophet/ https://github.com/uber/orbit 時系列予測ライブラリ Meta社 Uber社 Azure Computer Visionの例

Slide 7

Slide 7 text

7 いつ予測の不確かさを使うのが適切でしょうか 安全性・信頼性が必要な業界、ノイズの多いデータを扱う場合で必要とされています。 ⾃動運転 医療 ロボット 衛星データ ⼊⼒ 真値 予測 予測分散 Semantic Segmentation Bayesian SegNet [1] 不確実性の推論⾼速化 安全深層強化学習 ⾏動の選択時に 予測分散を制約条件[3] テスト時に未知クラスを検知 分布外検知(OOD検知)[4] CT画像の異常検知 [2] ピクセルレベルの不確実性 訓練ID 訓練OOD テストOOD

Slide 8

Slide 8 text

8 もっとシンプルに予測の不確かさを活⽤する場⾯ ⼈の意思決定の⽀援に活⽤できます。 不⾜データを知る 意思決定 データ収集する ラベル付けする モデルを改善する ユースケース ラベル付けコスト⾼ キーワード ベイズ最適化(能動学習) 複雑なデータを知る 意思決定 エッジケースを探す スコープを考え直す データ取得⽅法を変える ユースケース データセット分析 キーワード Example Difficulty Label Noise 予測を信頼する 意思決定 AIの予測を使う ⼈の予測を使う ユースケース 需要予測 確信度>閾値 ⼈間 AI Yes No [5] [5]

Slide 9

Slide 9 text

9 予測の不確かさの定量化⼿法について サーベイ論⽂をまとめたものをいくつかSlideShareにあげてます。 GitHubにも論⽂のリンク集を作りました。他の応⽤事例をまとめてます。 Speaker Deckに同じものアップしました。 https://speakerdeck.com/masatoto Github https://github.com/masamasa59/uncertainty-paper

Slide 10

Slide 10 text

10 本⽇は不確かさの活⽤効果を紹介 ⼈は「予測を信頼する」ことができるのでしょうか ユーザー調査した論⽂( FAT’20 採択)を1本紹介します。 FAT= Fairness, Accountability, and Transparency Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI- assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.

Slide 11

Slide 11 text

11 実験設定 ⼈は「予測を信頼する」ことができるのか Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. タスク 参加者 実験⼿順 評価指標 Amazon Mechanical Turk 72名 ⾮ドメイン専⾨家 確信度を⽰す vs. ⽰さない 1回⽬は説明変数を⾒て⾒積もる 2回⽬はAIの予測を⾒て⾒積もる 40回試⾏ ある⼈の年収が5万ドルを超えるか所得予測 説明変数の例 スイッチ率:参加者がAIの予測に変えた割合 ⼀致率:AIと最終的に同じ回答の割合 実験設定

Slide 12

Slide 12 text

12 実験結果 予測の不確かさを⽰すと、⼈は確信度のレベルに応じてAIを頼る。 Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. ⼀致率 スイッチ率 条件 結果 確信度あり 確信度が⾼いとAIの結果を頼る。 最終的に確信度が⾼くなるにつれAIと同じ結果になる。 確信度なし ⼈はAIの結果を⾒ても変更しないことが多い。

Slide 13

Slide 13 text

13 ⼈とAIの協調は実現したのか 確信度を⽰すことで⼈とAIの協調による精度向上は⾒られなかった。 原因は予測モデルの分類境界が⼈の感覚の分類境界と似ていたため。 条件 結果 確信度の有無 参加者⾃⾝の予測精度は平均65%、AIの予測精度は75%でした。 予測精度の順番:参加者<AI+参加者<AI 確信度を⾒せても精度は変わらない Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.

Slide 14

Slide 14 text

14 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLモデルの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響 1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 他にも複数の論⽂から正の影響と負の影響をまとめました。 本⽇は⼀番上の結果を紹介しました。残りは発表資料の付録にまとめています。

Slide 15

Slide 15 text

15 まとめ 予測の不確かさの活⽤⽅法をざっくりと紹介しました。 • 研究界隈で年々論⽂数が増加し、ホットな領域です。 • データセットの作成や意思決定に役⽴てることができます。 • [論⽂] ⼈は不確かさを⽰すと度合いに応じて予測を頼ることを⽰しました。 予測の不確かさを活⽤して、⼈に信頼される製品を作りませんか。

Slide 16

Slide 16 text

16 外観検査で⼈とAIの協調 ⼈⼯知能学会全国⼤会(JSAI2022) でポスター発表します。 「モデルの不確実性を考慮した外観検査の効率化」 Q. 異常検知システムに全ての判断を託せませすか Q. いつ、⼈が⽬視検査していますか Q. いつ、AIの結果を信頼しますか Q. AIの苦⼿な部分を⼈が取り組むことで、⼈の業務効率は改善されますか

Slide 17

Slide 17 text

17 ISID AITCでは新しい仲間を募集してます! AITCで働く魅⼒ • 最先端の技術(AI、クラウド、DevOps)を使 ⽤したシステム開発 • Kaggle Master、書籍執筆経験者など多様な⼈ 材が在籍 • 様々な業種のAI活⽤に携われる AITC(AIトランスフォーメーションセンター)の主な業務内容 • 製造、流通、⾦融、ライフサイエンスなど様々な業種のAI活⽤の コンサルティング、データ分析 • 最新アルゴリズム研究、さらにAIをベースとしたシステム開発 ISID 採⽤ページへ

Slide 18

Slide 18 text

18 ISID AI Days 2022 詳しくは 知識の無い⽅も歓迎 AI基礎講座も充実 事前アンケートによる 視聴者参加型 セッション(⼀部) 25以上のコンテンツが無料で 5⽇間⾒放題 https://mfg.isid.co.jp/event/detail/isid-ai-days-2022.php 参加申し込み URL

Slide 19

Slide 19 text

19 参考⽂献 [1] Kendall, Alex, Vijay Badrinarayanan, and Roberto Cipolla. "Bayesian segnet: Model uncertainty in deep convolutional encoder- decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015). [2] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98 [3] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint arXiv:2001.00496 (2019). [4] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of-distribution detection in satellite image classification,” in RobustML workshop at ICLR 2021. ICRL, 2021, pp. 1–5. [5] Gawlikowski, Jakob, et al. "A survey of uncertainty in deep neural networks." arXiv preprint arXiv:2107.03342 (2021).

Slide 20

Slide 20 text

20 付録

Slide 21

Slide 21 text

21 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLシステムの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響 1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 複数の論⽂から正の影響と負の影響をまとめました。

Slide 22

Slide 22 text

MLシステムの解釈性の向上

Slide 23

Slide 23 text

23 実験設定 予測の不確かさがMLシステムの解釈性向上につながるのか Suresh, Harini, et al. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. タスク 参加者 実験⼿順 評価 ⼼電図の波形の4分類問題 医療従事者 14名(ドメイン知識あり) 特徴空間内にあるサンプルのK近傍を可視化させ、不確実性を可視化 声に出しながら、インタラクティブに操作させ、感想を聞く 定性的な⾳読調査 50近傍 確信度 4クラス 4近傍のサンプルの可視化

Slide 24

Slide 24 text

24 予測の不確かさがMLシステムの解釈性向上につながる 不確かさを元からあるドメイン知識に関連付け、モデルの挙動を理解 Suresh, Harini, et al. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. 参加者の声からわかったこと • 「正常な拍動と似ているから同じクラスになっている。」とその不確実性をドメイン知識で解釈し、 モデルの予測を理解した。 • ⼀⽅で、最初の直感に反していても、間違った予測を合理化することが多かった。 例えば、ある参加者は異常な拍動を⾒て、最初は異常だと⾔い始めたが、予測されたクラスが(間 違って)正常であるのを⾒て、考えを変えた発⾔をした。 クラス間で元々似ている拍動 最初のスパイクの有無

Slide 25

Slide 25 text

⾮専⾨家が専⾨家と 同程度のパフォーマンスを獲得

Slide 26

Slide 26 text

26 実験設定 予測の不確かさに対する信頼は参加者の事前知識に依存するのか McGrath, Sean, et al. "When does uncertainty matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). タスク 参加者 実験⼿順 評価指標 複数の⼤学の研究者や⽣徒 95名 ドメイン知識かMLに関する参加者の専⾨知識の効果 1回⽬は予測を⾒る前に⾒積もる 2回⽬は予測と不確かさを⾒た後に⾒積もる ケンブリッジにあるアパートの⽉々の賃貸価格を予測 1回⽬と2回⽬の⾒積もりの差 1回⽬の⾒積もりとモデル予測の差 2回⽬の⾒積もりとモデル予測の差 予測分布 予測値 説明変数 1回⽬の⾒積もり

Slide 27

Slide 27 text

27 参加者の事前知識による予測の信頼結果 ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 McGrath, Sean, et al. "When does uncertainty matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). 条件 結果 ドメイン知識の有無 右図を⾒ると、ドメイン知識がある⽅が予測値との誤差が少ない。 AIの予測値を⾒てからの変更量はドメイン知識がない⽅が⼤きい。 最終的にドメイン知識のある⼈と予測結果が変わらなくなった。 ML知識の有無 多少知識がある⼈が⼀番AIの値を頼る結果になった。 ドメイン知識 ML知識

Slide 28

Slide 28 text

28 補⾜:分布の違いで⼈の信頼度は変わるのか 分散が⼩さいほど、信頼度が⾼い McGrath, Sean, et al. "When does uncertainty matter?: Understanding the impact of predictive uncertainty in ML assisted decision making." arXiv preprint arXiv:2011.06167 (2020). 条件 結果 ドメイン知識の有無 分散が⼩さいほど予測に最も近づけている。 分散⼤、多峰性の分布でも、不確実性がない場合と同程度の影響があった。

Slide 29

Slide 29 text

29 不確実性の定量化がユーザーに与える影響 正の影響 1. MLモデルへの信頼性の向上 2. MLシステムの解釈性の向上 3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得 負の影響 1. 予測値への過剰な信頼 2. 不確実性の可視化⽅法によるバイアス 複数の論⽂から正の影響と負の影響をまとめました。

Slide 30

Slide 30 text

⼈の過剰信頼の傾向

Slide 31

Slide 31 text

31 実験設定 ⼈は誤った予測を信じるのか D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) タスク 参加者 実験⼿順 評価指標 88名(AI経験者51名、AI未経験者37名) 36回試⾏ 1回は予測値のみ 2回⽬は分類確率も⾒せる 視覚的類似性も含む動物写真の分類問題 7段階評価 同意度:予測に同意するか ⾃信度:結果に⾃信があるか

Slide 32

Slide 32 text

32 ⼈の過剰信頼の傾向があるのか 過信の傾向がある。正しい分類よりも誤った分類に同意することが多い。 D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) 条件 結果 確信度低い画像 間違ったラベルに対して、同意度7が多く、⾃信もあると答えている。 明確な画像 曖昧な画像

Slide 33

Slide 33 text

33 分類確率の表⽰効果 過信は変化せず、不確かな同意が減り、適切な信頼が増えた。 不確かさは、過信を抑える効果はない。 D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) Fumeng Yang, Zhuanyi Huang, Jean Scholtz, and Dustin L. Arendt. 2020. How do visual explanations foster end users' appropriate trust in machine learning? In Proceedings of the 25th International Conference on Intelligent User Interfaces (IUI '20). リッカート尺度:[1, 2] 不信、[3, 4, 5] 不確かさ、[6, 7] 信⽤

Slide 34

Slide 34 text

過信を抑えるテクニック

Slide 35

Slide 35 text

35 過信を抑えるテクニック UIでユーザーに考えさせる時間を与える。 Buçinca, Zana, Maja Barbara Malaya, and Krzysztof Z. Gajos. "To trust or to think: cognitive forcing functions can reduce overreliance on AI in AI-assisted decision-making." Proceedings of the ACM on Human-Computer Interaction 5.CSCW1 (2021): 1-21. AIの予測を結果をすぐに⾒せない • クリックしたら⾒れるようにする。 • ⼀定時間経ったら⾒せる。

Slide 36

Slide 36 text

不確実性の可視化⽅法によるバイアス

Slide 37

Slide 37 text

37 不確実の可視化⽅法 タスクの⽬的に応じて、可視化⽅法を変える必要がある。 Bhatt, Umang, et al. "Uncertainty as a form of transparency: Measuring, communicating, and using uncertainty." Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. 2021.

Slide 38

Slide 38 text

38 不確実性の可視化によるバイアス ⽬的に応じた可視化をしないと不確かさを無視される。 • ⽐率バイアス: 1/10よりも10/100の⽅が⼤きくに感じる。 • 分⺟の過⼩評価:9/11は10/13より⼩さいと考える。 • 認知バイアス:例えば、乳がんの死亡確率20%よりも乳がんの⽣存確率80%を好む。 気温の予測範囲 利⽤者の状況 時間帯に応じてみたいのか 瞬間で気温をみたいのか 時系列予測 95%信頼区間表⽰にすると予測平均のみを意識される アンサンブル表⽰にすると⼈は注意深く考える Miriam Greis, Emre Avci, Albrecht Schmidt, and Tonja Machulla. 2017. Increasing Users' Confidence in Uncertain Data by Aggregating Data from Multiple Sources. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (CHI '17).