Upgrade to Pro — share decks privately, control downloads, hide ads and more …

意思決定のための機械学習

hyodo
October 26, 2020

 意思決定のための機械学習

2020年度 秋学期 文献調査ゼミで話した内容です。
参考文献リスト: https://hyodo.notion.site/Survey-list-ML-for-Decision-making-1f58b1e65de647a6a96a4d200d450057

hyodo

October 26, 2020
Tweet

More Decks by hyodo

Other Decks in Technology

Transcript

  1. アウトライン • 意思決定に関わる領域に 機械学習システムを導⼊する際の課題 • Explainable AI (XAI) について •

    実応⽤に基づく研究の必要性 • 論⽂紹介 1. Concept Bottleneck Models, [Koh+, ICML2020] 2. “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision-Making, [Cai+, CSCW2019] 2
  2. 意思決定に関わる領域に機械学習システムの導⼊が進む 3 医療 [Gomez-Uribe+, ACM2015] The Netflix Recommender System: Algorithms,

    Business Value, and Innovation [Emma+, CHI2020] A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy [Cai+, CHI2019] Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making 糖尿病性網膜症の画像診断 [Emma+, CHI2020] 前⽴腺癌の画像診断 [Cai+, CHI2019] 機械学習システムを⼈間の意思決定にどう活⽤していくか Webサービス 推薦システム [Gomez-Uribe+, ACM2015]
  3. 意思決定に関わる領域に 機械学習システムを導⼊する際の課題 4 解釈性が低い Black-boxシステムは実運⽤において意思決定の障害 = poor decision [Explainable AI

    in Industry @KDD2019 Tutorial] 不公平な判断 出⼒結果に存在するバイアス [Kay+, CHI2015][Caliskan+, Science2017] - 性別、⼈種、年齢 etc. 継続的な性能管理が必要 デプロイ後の環境変化に対応する必要がある [Laput+, CHI2015] - Dataset shift (データ収集⽅法, 条件の変更、季節 etc.) [Kay+, CHI2015] Unequal Representation and Gender Stereotypes in Image Search Results for Occupations [Caliskan+, Science2017] Semantics derived automatically from language corpora necessarily contain human biases [Laput+, CHI2015] Zensors: Adaptive, Rapidly Deployable, Human-Intelligent Sensor Feeds
  4. これらの課題に注⽬が集まる ワークショップ Human Interpretability in Machine Learning (WHI) @ICML 2016-2020

    WS トピック: Interpretability, Transparency FAT-ML Workshop @KDD 2014-2018 トピック: Fairness, Accountability, Transparency Human-Centric Machine Learning @NeurIPS 2019 WS トピック: Fairness, Interpretability, Privacy, Accountability ... オープンソース (MLOps関連) 5
  5. Explainable AI (XAI)の必要性 [Adadi+, IEEE Access2018] 6 先の課題にアプローチする研究分野として Explainable AI

    (XAI) が盛ん [Adadi+, IEEE Access2018] Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI) ⼈間-モデル間で 継続的な改善が可能 エラーの迅速な特定・修正 (デバック)が容易 モデルが学習した 新たな洞察が理解可能 予期せぬ判断結果への 正当化が可能
  6. 代表的な解釈⼿法 ⼤局的な説明 (Global-interpretability) モデル全体の挙動を記述可能にして説明とする • 任意の学習済みblack-boxモデルを決定⽊で近似 Born Again Trees [Breiman+,

    1996] 局所的な説明 (Local-interpretability) ある⼊⼒に対する予測の根拠を説明とする • ⼊⼒特徴量を説明として利⽤ LIME [Ribeiro+, SIGKDD2016], SHAP [Lundberg+, NIPS2017] • 画像内の注⽬箇所を勾配ベースでハイライト Saliency Map [Selvaraju+, ICCV2017]他 7 [Breiman+, 1996] Born Again Trees [Ribeiro+, SIGKDD2016] "Why Should I Trust You?": Explaining the Predictions of Any Classifier [Lundberg+, NIPS2017] A Unified Approach to Interpreting Model Predictions [Selvaraju+, ICCV2017] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
  7. Human Computer Interaction(HCI) 分野で ユーザスタディを取り⼊れた研究が進む 9 [Ahmed+, IUI2020] Evaluating Saliency

    Map Explanations for Convolutional Neural Networks: A User Study [Lai+, CHI2020] "Why is 'Chicago' deceptive?" Towards Building Model-Driven Tutorials for Humans [Emma+, CHI2020] A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy 専⾨家の意思決定とMLシステム間の実証実験 • 糖尿病性網膜症の画像診断ツールへの⼈間中⼼の評価研究 [Emma+, CHI2020] • タイの病院に導⼊、7600⼈の患者についての⼤規模調査 • 前⽴腺癌の画像診断システム導⼊時に専⾨家が求める情報の調査 [Cai+, CSCW2019] 論⽂紹介② XAI⼿法のユーザ評価 汎⽤的なタスク・説明⼿法が多い • 物体認識における Saliency Map 提⽰有無による説明性評価 [Ahmed+, IUI2020] • 嘘レビュー検知の説明有無によるユーザの予測性能評価 [Lai+, CHI2020] 詳しくは 【論⽂調査】XAI技術の効能を ユーザ実験で評価する研究 , 原聡准教授 より実運⽤に近い研究も
  8. 論⽂紹介 • 論⽂① Concept Bottleneck Models, [Koh+, ICML2020] - 専⾨家が判断に⽤いる概念が根拠として提⽰可能な⼿法

    • 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision- Making, [Cai+, CSCW2019] - AIシステム導⼊初期(human-AI onboarding)段階で 従事者がシステムに関して求める情報をユーザ調査 10
  9. Concept Bottleneck Models Pang Wei Koh, Thao Nguyen, Yew Siang

    Tang, Stephen Mussmann, Emma Pierson, Been Kim, Percy Liang Stanford University, Google Research ICML 2020 11
  10. 論⽂① Concept Bottleneck Models 背景 • ⼀般的なE2Eモデルは、⼈間が判断に⽤いる概念を通じ た介⼊が難しい (ex. ⽻が緑だからウグイス)

    ⼿法 • 上位概念(ex. ⽻が緑)の予測を経て、その概念を⽤いて タスクを予測するConcept Bottleneck Modelsを提案 • 専⾨家が判断に⽤いる概念が根拠として提⽰可能 結論 • 上位概念による解釈が可能、E2Eモデルと同等の性能 • テスト時に概念の補正を⾏う介⼊により性能が向上 • E2Eモデルに⽐べて背景変化に対する頑健性が向上 12
  11. 背景: ⼀般的なend-to-endモデルは ⼈間が判断に⽤いる概念を通じた介⼊が難しい 13 Task y ⿃の種類 Input x 鶯

    烏 鳩 雀 ︙ どうして‘鳩’? 頭はオレンジで 体は黒だから ‘鳩’ではないのに
  12. 提案⼿法: Concept Bottleneck Models ( ) 15 Input x 概念

    から⽬的変数 y への関数 ∶ ℝ! → ℝ ⼊⼒ ∈ ℝ" から概念 への関数 ∶ ℝ" → ℝ! 概念 ∈ ℝ! の推定を経由して⽬的変数 y ∈ ℝ を推定するボトルネック構造 データサンプル {( # , # , (#))}#&' ( ※新たに概念ベクトル (#)のアノテーションが必要
  13. 学習⽅法 1. Independent bottleneck 2. Sequential bottleneck 3. Joint bottleneck

    4. Standard model (⽐較対象) 18 ⽬的変数の損失関数 % ∶ ℝ × ℝ → ℝ& 番⽬の概念の損失関数 '! ∶ ℝ × ℝ → ℝ& ) = argmin ! 2 " # ( (") ; (")) 7 = argmin & 2 ",( )! (( (") ; ( (")) 7 = argmin & 2 ",( )! (( (") ; ( (") ) ⇒ ) = argmin ! 2 " # ( 7 ((")) ; (")) ) , 7 = argmin !, & 2 " [# " ; " + 2 ( )! (( (") ; ( (") )] , > 0 ) , 7 = argmin !, & 2 " # " ; " Input Concepts Target # )!
  14. タスク - データセット X-ray grading (OAI) ‒ 回帰 データ数: 36,369枚

    ⼊⼒ : 膝のX線画像 ⽬的変数 : 変形性膝関節症の重症度 0-4 (Kellgren-Laurence分類) 概念ベクトル : 関節裂隙の狭⼩化, ⾻棘, ⽯灰化等 (10項⽬) - 放射線科医がアノテーション Bird identification (CUB) ‒ 分類 データ数: 11,788枚 ⼊⼒ : ⿃の画像 ⽬的変数 : ⿃の種類 (200クラス) 概念ベクトル : ⽻の⾊, くちばしの形等 (112項⽬) - クラウドワーカーがアノテーション 19
  15. 実験1: Bottleneck modelのベンチマーク検証 22 少量データの下でタスクのエラーが⼩さい = Data efficiency 図. Data

    efficiency curves. 学習データ量に対するタスクの損失 提案モデル(Independent)は25%のデータ量で全データ⽤いたStandard モデルの性能と並ぶ (OAI) 新データ収集コストと概念をアノテーションするコストのトレードオフ を考慮して、前者が⼤きい分野(ex. 医療, 異常検知)では提案モデルが有⽤
  16. 実験2: テスト時の介⼊の例 (OAI) 24 NNベースのモデルが個々の放射線科医のパフォーマンスと同等 [Tiulpin+, Scientific Reports2018] [Pierson+, NBER2019]

    ⇒ 提案モデルと放射線科医の協調により、医師またはモデル単独の性 能を上回る可能性が⽰唆された。今後ユーザスタディが必要 [Tiulpin+, Scientific Reports2018] Automatic knee osteoarthritis diagnosis from plain radiographs: A deep learning-based approach. [Pierson+, NBER2019] Using machine learning to understand racial and socioeconomic differences in knee pain
  17. 議論: Future work • Crowdsourcingの利⽤ • ⼈間にクエリを投げて正しい概念を対話的に獲得 • クラウドワーカーを通じてタスクを解くための特徴量を⽣成 [Cheng+,

    CSCW2015] • Side channel from x → y • モデルに x → y からの直接のパスを追加することで不 完全な概念を考慮 • ボトルネック構造の理論的解析 27 [Cheng+, CSCW2015] Flock: Hybrid Crowd-Machine Learning Classifiers
  18. 論⽂紹介 • 論⽂① Concept Bottleneck Models, [Koh+, ICML2020] - 専⾨家が判断に⽤いる概念が根拠として提⽰可能な⼿法

    • 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision- Making, [Cai+, CSCW2019] - AIシステム導⼊初期(human-AI onboarding)段階で 従事者がシステムに関して求める情報をユーザ調査 28
  19. “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for

    Human‒AI Collaborative Decision-Making Carrie J. Cai, Samantha Winter, David Steiner, Lauren Wilcox, Michael Terry Google Research, Google Health CSCW 2019 29
  20. 背景/⽬的 • ⾼精度な予測だけでは⼈間-AI間の協調した意思決定に⼗分 とは⾔えない • システム導⼊初期(human-AI onboarding)段階で専⾨家(医 師)がAIシステムに関して求める情報を明らかに ⽅法 •

    前⽴腺癌診断システムの使⽤{前, 中, 後}、21⼈の病理医に半 構造化インタビュー/ think-aloud を⾏った 結論 • サンプル毎の予測の理由より、 システムに関する⼤局的な情報を求めることが明らかに • 強みと限界 (エッジケース) • システムの予測傾向 • 設計⽬的 • 導⼊前の検討事項(コスト, 既存のワークフローへの影響) 30 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision-Making
  21. 背景 Clinical Decision Support System (CDSS)の課題 システムの診断性能は⾼いが実運⽤が難しい • 機能, 使⽤⽬的,

    既存のワークフローへの有⽤性を理解して おらず、システムの採⽤に抵抗する [Maddox+, JAMA2018] • システムの誤りを認知後に使⽤を⽌める (Algorithm aversion) [Keeffe+, Medical care2005] 31 CDSS: 医者の “第⼆の⽬” として意思決定を⽀援するシステム = HCI的な観点の⽋如 本研究 DNNを⽤いた診断⽀援システムの導⼊初期段階に焦点を当て、 病理医がどのような情報を必要とするかを調査 [Maddox+, JAMA2018] Questions for Artificial Intelligence in Health Care [Keeffe+, Medical care2005] Provider response to computer-based care suggestions for chronic heart failure 導⼊初期段階: 最初の印象の形成、適切な使⽤戦略の構築に鍵となる段階
  22. 調査⽅法 ⽬的: DNNを⽤いた診断⽀援システムの導⼊初期段階に、 病理医がどのような情報を必要とするかを明らかに • AIシステムに抱くメンタルモデル • ‘AIシステムとの関わり’と‘同僚や既存ツールとの関わり’との相違 参加者: 病理医

    21⼈, 1 - 25(平均=10.8)年の経験年数 ユーザ調査のフロー (各1-1.5時間) 33 Phase1 Pre-probe Phase2 Probe Phase3 Post-probe 使⽤前にAIシステムについて知る必要がある情報を調査 AIシステムを⽤いて意思決定する際に必要な情報を調査 ・参加者はAIシステムの介⼊をうけて前⽴腺癌の症例を診断 AIシステムを効果的に使うために知る必要がある追加情報を調査 半構造化インタビューでの質問と思考発話法 (think aloud)を⽤いた調査
  23. 導⼊時に求められる情報の種類 1. 性能と限界 (Capabilities and Limitations) 2. 機能性 (Functionality) 3.

    医学的視点 (Medical Point-of-View) 4. 設計⽬的 (Design Objective) 5. 導⼊前の検討事項 (Considerations Prior to Adaption) 35 システムの特性に関する⼤局的な情報を求める傾向 • 規制当局の承認(FDA), 既存の臨床医のワークフローへの影響, ツールの有効性を⽰す査読付き出版物, 法的責任への影響, 導⼊コスト
  24. 1. 性能と限界 (Capabilities and Limitations) • ⼈間と関連性のある性能尺度 • 性能は知りたいが合理的なしきい値が判断しづらい、 “human-benchmark”との⽐較は理解が容易

    • よくある間違い • システムの弱点の把握 “AIが知りにくいことはなにか? どんな場⾯で敏感なのか?, どんな基準で認識するのが得意なのか、苦⼿なのか?”(P18) “AIの⽋陥を知ることは重要ですね。”(P4) • ⼈間も誤ることの多いエッジケース • システムも同様に誤った場合に納得 “たぶん尿道周囲浸潤以外はとても精度がいいんだろうな。 その場⾯では(システムの診断を)参考にしないほうがいいね。”(P20) 36 導⼊時に求められる情報の種類 導⼊段階でのシステムに対する適切なメンタルモデル(≠過度な期待)を形成
  25. 2. 機能性 (Functionality) • システムの⼊⼒ • 何の情報を元に判断しているか “AIは私が持っていない情報にアクセスできますか?”(P10) “AIが単⼀画像から判断してるのか、連続した画像から判断してい るのか知りたい。後者の⽅が信頼できる。”(P14)

    • ⼊⼒の前処理⽅法 • 前処理による間違いに困惑 (前処理でSegmentation→パッチ領域を⼊⼒したことによるエラーを⾒て) “なぜこの細胞を切ったの? これは⾃然にはありえないよ。”(P16) • システムの推論過程 • AIの予測過程が⾃⾝と似ているかを判断するのに苦労 “腺とstromaの関係を考慮している? それとも核との関係?”(P16) • 説明性を求める声やAIの基礎技術を学びたいという声 “誰かが簡単な⾔葉で説明してくれたら… AIと我々の判断過程を⽐較することができるのに。”(P1) 等 37 導⼊時に求められる情報の種類
  26. 3. 医学的視点 (Medical Point-of-View) • システムの予測の傾向 • 病理医はセカンドオピニオンを求める際、互いの診断 傾向を考慮 (ex.

    あの⼈は過⼤, 過⼩評価) • システムの予測傾向が想定内であってほしい “⼈間と同じような感覚で診断してほしい。Grade3, 4と診断し た時にかけ離れた診断をされたら、AIの活⽤は難しい。” (p2) • Human-AI キャリブレーション • システムとの診断傾向の違いを⽐較して認識したい “AIが診断して、私が診断して、より⾼度な専⾨家(GU)の診断を聞 きたい。⾃分の⽴ち位置を確認する意味でも⾯⽩い。” (P17) • しかし、対⽴しないように⾏われるべき “たいていの病理医は、もし『ああ、間違っている』と⾔われ たら、不快に思うでしょう。” (P14) 38 Gleason Scoreが医師同⼠でもばらつく主観的な値であることから “Grade4, 5は、10⼈の病理医に聞いても4⼈は⽚⽅、残りは他⽅を⾔うでしょう。”(P18) 導⼊時に求められる情報の種類
  27. 4. 設計⽬的 (Design Objective) • システムの⽬的関数 • どの指標に最適化されたか (ex. Precision

    vs Recall) “重要なのはどのようにシステムが調整されたか。 感度が⾼くて⾒逃しがないといいな。後は僕らで診るから。” (P2) 39 前⽴腺癌の悪性度予測システムとだけ知らされていたが、ほぼ全員がツールの具 体的な有⽤性 (既存の診療にどのようなメリットをもたらすか)の説明を求めた システム単独ではなく、医師と協調した活⽤を想定する声も ex. AIが⼀部の癌領域だけしか診断できなかった時 “がんの領域に注意を引いてくれたのかも、ここは私に判断してほしいの かな。” (P20) 導⼊時に求められる情報の種類
  28. 議論:産業分野を問わずAIシステム導⼊時に必要なこと 1. ⼈間に関連したテストケース • ⼈間が回答したテストケースと⽐較しながらシステムの挙動を理 解する (ex.新⼈が失敗した場⾯を確認しながらメンタリング) • エンドユーザとのCo-Designにつながる 2.

    AIに関する簡単な理解 • ユーザに機械学習の簡単な処理内容を⽰す (ex. 視覚的パターンを認 識していて、⽣物学的知識は明⽰的に学習していない) 3. Beyond Accuracy: Communicate the AI’s Point-of-View and Design Goal • 精度は1つの尺度に過ぎず、意思決定に活⽤されるにはその主観的 な出⼒傾向/設計⽬的の理解が必要 (ex. 判断が保守的か否か) 4. 現代型のAIシステムへの取り組み • 検出ベースなシステム ⇒ 協調的なシステム へのシフト • ユーザはAIシステムを同僚と共同作業する観点で解釈 • 今後 tool-centric, human-centricな考えも有⽤か 40 ただ性能を提⽰して、基本的なシステムの使い⽅を練習するだけでは不⼗分
  29. 代表的な解釈⼿法 - LIME 43 Local Interpretable Model-agnostic Explanations (LIME) 1.

    ある⼊⼒特徴量 ∈ ℝ( (ex. 画像)を 可読表現 ) ∈ 0, 1 (" (ex. スーパーピクセル)に変換 = 複雑なモデル の種類に関係なく局所的な説明が可能 2. の近傍データを⽤いて次式より得られる線形モデル() ∈ で を近似 = argmin #∈% , (','!)∈ + ( − , )- + Ω() + : との距離 (Exponential kernel) , ∈ 0, 1 .! : ,の近傍サンプル (,にuniformなノイズをのせる) Ω(): の複雑度 (線形モデルの⾮0の重みの数) () 3. 線形モデル()の重み係数より、 を⼊⼒とする予測に重要な可読表現が得られる
  30. 代表的な解釈⼿法 - LIME 44 Local Interpretable Model-agnostic Explanations (LIME) =

    複雑なモデル の種類に関係なく局所的な説明が可能 LIMEによる説明: 画像分類の例 : CNN (Inception) ⼊⼒特徴量 ∈ ℝ(: 画像 可読表現 ) ∈ 0, 1 (" : スーパーピクセル
  31. 関連研究 XAI ※原聡准教授のスライドより “説明できるAI” ≒ モデルから情報抽出する技術 45 原聡, 機械学習モデルの判断根拠の説明(Ver.2), https://www.slideshare.net/SatoshiHara3/ver2-225753735

    Q. “説明できるAI”は何をする技術なのか? A. 予測以外の 追加情報 を モデルから抽出する技術 • 追加情報 とは? • ユーザが知りたい情報 • 抽出したい追加情報を明確にするのはユーザの仕事
  32. 関連研究 XAI ※原聡准教授のスライドより “説明できるAI” の使い⽅ 46 原聡, 機械学習モデルの判断根拠の説明(Ver.2), https://www.slideshare.net/SatoshiHara3/ver2-225753735 1.

    ユーザが知りたい追加情報を明確にする • ユーザ⾃⾝が「何を知ることができたら役に⽴つか」を考える • 役に⽴たない情報を取り出しても意味はない 2. 適切な“抽出技術”を使ってモデルから追加情報を取り出す 3. 追加情報をもとに、ユーザが⾃⾝の⾏動を決定する • 抽出技術が確⽴されている追加情報については既存技術を使う • 抽出技術が未確⽴な場合は、抽出技術の研究開発が必要 • e.g. モデルが着⽬した重要特徴がおかしい → モデルの判断は誤りの可能性が⾼いので 無視する / ⼈間が判断する 特に1, 3より、通知時のUIを⽤いたユーザー評価は重要
  33. モデル X-ray grading (OAI) ‒ 回帰 : pretrained ResNet-18 :

    3-layer MLP Bird identification (CUB) ‒ 分類 : pretrained Inception-v3 : single linear layer 47 Input Concepts Target
  34. データセット ‒ 概念 X-ray grading (OAI) ‒ 回帰 10 clinical

    concepts: “osteophytes femur medial”, “sclerosis femur medial”, “joint space narrowing medial”, “osteophytes tibia medial”, “sclerosis tibia medial”, “osteophytes femur lateral”, “sclerosis femur lateral”, “joint space narrowing lateral”, “osteophytes tibia lateral”, and “sclerosis tibia lateral”. Bird identification (CUB) ‒ 分類 112 binary concepts ⽻の⾊, くちばしの形... 48
  35. 求められる情報の種類 1. 性能と限界 (Capabilities and Limitations) 2. 機能性 (Functionality) 3.

    医学的視点 (Medical Point-of-View) 4. 設計⽬的 (Design Objective) 5. 導⼊前の検討事項 (Considerations Prior to Adaption) 50 システムの特性に関する⼤局的な情報を求める傾向 • 専⾨家のベンチマークとの性能⽐較 • 専⾨家が誤ったデータ(edge-case)に対する性能 等 • システムの⼊⼒ (UIに提⽰されていないデータ等) • 前処理過程 (ex. パッチサイズに分割した画像を⼊⼒), 推論過程の概要 • システムの予測の傾向 (ex. 過⼤, 過⼩評価) • Human-AI キャリブレーション (ユーザとシステムの予測傾向の違いを認識) • 規制当局の承認(FDA), 既存の臨床医のワークフローへの影響, ツールの有効性を⽰す査読付き出版物, 法的責任への影響, 導⼊コスト • 意図するシステムの活⽤法 (ex. 効率性, 精度) • システムの⽬的関数におけるトレードオフ (ex. False positive vs False Negative)