意思決定のための機械学習

意思決定のための機械学習⽂献調査 2020/10/26 兵頭亮介

アウトライン • 意思決定に関わる領域に機械学習システムを導⼊する際の課題 • Explainable AI (XAI) について •
実応⽤に基づく研究の必要性 • 論⽂紹介 1. Concept Bottleneck Models, [Koh+, ICML2020] 2. “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision-Making, [Cai+, CSCW2019] 2

意思決定に関わる領域に機械学習システムの導⼊が進む 3 医療 [Gomez-Uribe+, ACM2015] The Netflix Recommender System: Algorithms,
Business Value, and Innovation [Emma+, CHI2020] A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy [Cai+, CHI2019] Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making 糖尿病性網膜症の画像診断 [Emma+, CHI2020] 前⽴腺癌の画像診断 [Cai+, CHI2019] 機械学習システムを⼈間の意思決定にどう活⽤していくか Webサービス推薦システム [Gomez-Uribe+, ACM2015]

意思決定に関わる領域に機械学習システムを導⼊する際の課題 4 解釈性が低い Black-boxシステムは実運⽤において意思決定の障害 = poor decision [Explainable AI
in Industry @KDD2019 Tutorial] 不公平な判断出⼒結果に存在するバイアス [Kay+, CHI2015][Caliskan+, Science2017] - 性別、⼈種、年齢 etc. 継続的な性能管理が必要デプロイ後の環境変化に対応する必要がある [Laput+, CHI2015] - Dataset shift (データ収集⽅法, 条件の変更、季節 etc.) [Kay+, CHI2015] Unequal Representation and Gender Stereotypes in Image Search Results for Occupations [Caliskan+, Science2017] Semantics derived automatically from language corpora necessarily contain human biases [Laput+, CHI2015] Zensors: Adaptive, Rapidly Deployable, Human-Intelligent Sensor Feeds

これらの課題に注⽬が集まるワークショップ Human Interpretability in Machine Learning (WHI) @ICML 2016-2020
WS トピック: Interpretability, Transparency FAT-ML Workshop @KDD 2014-2018 トピック: Fairness, Accountability, Transparency Human-Centric Machine Learning @NeurIPS 2019 WS トピック: Fairness, Interpretability, Privacy, Accountability ... オープンソース (MLOps関連) 5

Explainable AI (XAI)の必要性 [Adadi+, IEEE Access2018] 6 先の課題にアプローチする研究分野として Explainable AI
(XAI) が盛ん [Adadi+, IEEE Access2018] Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI) ⼈間-モデル間で継続的な改善が可能エラーの迅速な特定・修正 (デバック)が容易モデルが学習した新たな洞察が理解可能予期せぬ判断結果への正当化が可能

代表的な解釈⼿法⼤局的な説明 (Global-interpretability) モデル全体の挙動を記述可能にして説明とする • 任意の学習済みblack-boxモデルを決定⽊で近似 Born Again Trees [Breiman+,
1996] 局所的な説明 (Local-interpretability) ある⼊⼒に対する予測の根拠を説明とする • ⼊⼒特徴量を説明として利⽤ LIME [Ribeiro+, SIGKDD2016], SHAP [Lundberg+, NIPS2017] • 画像内の注⽬箇所を勾配ベースでハイライト Saliency Map [Selvaraju+, ICCV2017]他 7 [Breiman+, 1996] Born Again Trees [Ribeiro+, SIGKDD2016] "Why Should I Trust You?": Explaining the Predictions of Any Classifier [Lundberg+, NIPS2017] A Unified Approach to Interpreting Model Predictions [Selvaraju+, ICCV2017] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

実応⽤に基づく研究の必要性 AI/MLコミュニティ内のXAI研究に対する懐疑 8 機械学習が社会に影響を与えている中で、正しい問題を解決しているかどうかを確認しなければならない。システム導⼊先の分野の専⾨家や意思決定者に課題を共有してもらう必要がある。 XAI研究の多くが、実際の意思決定者にとって実⽤的な解釈性を考慮していない。「こういった解釈・説明ができると便利だろう」というAI/ML研究者の直感ではなく、哲学・⼼理学・認知科学の研究に基づいて“良い”説明が模索されるべきである。
Explanation in Artificial Intelligence: Insights from the Social Sciences [Miller, J. Artificial Intelligence2017] The Mythos of Model Interpretability [Lipton, ICML WHI2016]

Human Computer Interaction(HCI) 分野でユーザスタディを取り⼊れた研究が進む 9 [Ahmed+, IUI2020] Evaluating Saliency
Map Explanations for Convolutional Neural Networks: A User Study [Lai+, CHI2020] "Why is 'Chicago' deceptive?" Towards Building Model-Driven Tutorials for Humans [Emma+, CHI2020] A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy 専⾨家の意思決定とMLシステム間の実証実験 • 糖尿病性網膜症の画像診断ツールへの⼈間中⼼の評価研究 [Emma+, CHI2020] • タイの病院に導⼊、7600⼈の患者についての⼤規模調査 • 前⽴腺癌の画像診断システム導⼊時に専⾨家が求める情報の調査 [Cai+, CSCW2019] 論⽂紹介② XAI⼿法のユーザ評価汎⽤的なタスク・説明⼿法が多い • 物体認識における Saliency Map 提⽰有無による説明性評価 [Ahmed+, IUI2020] • 嘘レビュー検知の説明有無によるユーザの予測性能評価 [Lai+, CHI2020] 詳しくは【論⽂調査】XAI技術の効能をユーザ実験で評価する研究 , 原聡准教授より実運⽤に近い研究も

論⽂紹介 • 論⽂① Concept Bottleneck Models, [Koh+, ICML2020] - 専⾨家が判断に⽤いる概念が根拠として提⽰可能な⼿法
• 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision- Making, [Cai+, CSCW2019] - AIシステム導⼊初期(human-AI onboarding)段階で従事者がシステムに関して求める情報をユーザ調査 10

Concept Bottleneck Models Pang Wei Koh, Thao Nguyen, Yew Siang
Tang, Stephen Mussmann, Emma Pierson, Been Kim, Percy Liang Stanford University, Google Research ICML 2020 11

論⽂① Concept Bottleneck Models 背景 • ⼀般的なE2Eモデルは、⼈間が判断に⽤いる概念を通じた介⼊が難しい (ex. ⽻が緑だからウグイス)
⼿法 • 上位概念(ex. ⽻が緑)の予測を経て、その概念を⽤いてタスクを予測するConcept Bottleneck Modelsを提案 • 専⾨家が判断に⽤いる概念が根拠として提⽰可能結論 • 上位概念による解釈が可能、E2Eモデルと同等の性能 • テスト時に概念の補正を⾏う介⼊により性能が向上 • E2Eモデルに⽐べて背景変化に対する頑健性が向上 12

背景: ⼀般的なend-to-endモデルは⼈間が判断に⽤いる概念を通じた介⼊が難しい 13 Task y ⿃の種類 Input x 鶯
烏鳩雀 ︙ どうして‘鳩’? 頭はオレンジで体は黒だから ‘鳩’ではないのに

背景: 既存の説明技術でも専⾨家の判断に関連した概念的な解釈は難しい 14 Task y ⿃の種類 Input x 鶯
烏鳩雀 ︙ 注⽬箇所はわかるけどどうして‘鳩’?

提案⼿法: Concept Bottleneck Models ( ) 15 Input x 概念
から⽬的変数 y への関数 ∶ ℝ! → ℝ ⼊⼒ ∈ ℝ" から概念への関数 ∶ ℝ" → ℝ! 概念 ∈ ℝ! の推定を経由して⽬的変数 y ∈ ℝ を推定するボトルネック構造データサンプル {( # , # , (#))}#&' ( ※新たに概念ベクトル (#)のアノテーションが必要

提案⼿法: テスト時に概念への介⼊が可能 16 Input x ⽻はグレーではなくて黒だよ鶯烏鳩雀
︙ →

提案⼿法: 概念を⽤いてモデルの挙動が解釈可能反実仮想な説明 (counterfactual explanation) 17 ⽻が黒だとしたら... 鶯烏鳩
雀 ︙ ⽻が茶だとしたら... 鶯烏鳩雀 ︙ Input x 鶯烏鳩雀 ︙ → →

学習⽅法 1. Independent bottleneck 2. Sequential bottleneck 3. Joint bottleneck
4. Standard model (⽐較対象) 18 ⽬的変数の損失関数 % ∶ ℝ × ℝ → ℝ& 番⽬の概念の損失関数 '! ∶ ℝ × ℝ → ℝ& ) = argmin ! 2 " # ( (") ; (")) 7 = argmin & 2 ",( )! (( (") ; ( (")) 7 = argmin & 2 ",( )! (( (") ; ( (") ) ⇒ ) = argmin ! 2 " # ( 7 ((")) ; (")) ) , 7 = argmin !, & 2 " [# " ; " + 2 ( )! (( (") ; ( (") )] , > 0 ) , 7 = argmin !, & 2 " # " ; " Input Concepts Target # )!

タスク - データセット X-ray grading (OAI) ‒ 回帰データ数: 36,369枚
⼊⼒ : 膝のX線画像⽬的変数 : 変形性膝関節症の重症度 0-4 (Kellgren-Laurence分類) 概念ベクトル : 関節裂隙の狭⼩化, ⾻棘, ⽯灰化等 (10項⽬) - 放射線科医がアノテーション Bird identification (CUB) ‒ 分類データ数: 11,788枚⼊⼒ : ⿃の画像⽬的変数 : ⿃の種類 (200クラス) 概念ベクトル : ⽻の⾊, くちばしの形等 (112項⽬) - クラウドワーカーがアノテーション 19

実験実験1. Bottleneck modelのベンチマーク検証実験2. テスト時の介⼊による性能検証実験3. 背景画像の変化に対する頑健性検証 20

実験1: Bottleneck modelのベンチマーク検証 21 提案⼿法 E2E 表. 各データセットにおける各モデルのエラー全体的に提案モデルはStandardモデルに匹敵する性能 •
Joint bottleneck学習⽅法が少しながらエラーが⼩さい

実験1: Bottleneck modelのベンチマーク検証 22 少量データの下でタスクのエラーが⼩さい = Data efficiency 図. Data
efficiency curves. 学習データ量に対するタスクの損失提案モデル(Independent)は25%のデータ量で全データ⽤いたStandard モデルの性能と並ぶ (OAI) 新データ収集コストと概念をアノテーションするコストのトレードオフを考慮して、前者が⼤きい分野(ex. 医療, 異常検知)では提案モデルが有⽤

実験2: テスト時の介⼊による性能検証 (OAI) 23 介⼊によりモデルの性能が⼤きく改善 • 2個概念を修正することでタスクのRMSEを0.4⇒0.3程度に改善図. 介⼊(修正)した概念の数に対するタスクの損失
Control: Joint(λ=0.01) 概念の真値が得られるオラクルを想定

実験2: テスト時の介⼊の例 (OAI) 24 NNベースのモデルが個々の放射線科医のパフォーマンスと同等 [Tiulpin+, Scientific Reports2018] [Pierson+, NBER2019]
⇒ 提案モデルと放射線科医の協調により、医師またはモデル単独の性能を上回る可能性が⽰唆された。今後ユーザスタディが必要 [Tiulpin+, Scientific Reports2018] Automatic knee osteoarthritis diagnosis from plain radiographs: A deep learning-based approach. [Pierson+, NBER2019] Using machine learning to understand racial and socioeconomic differences in knee pain

実験3: 背景画像の変化に対する頑健性検証 (CUB) 25 背景変化への頑健性を調査するためにCUBを編集してトイデータを作成クラスごとに訓練データとテストデータで画像の背景を変更訓練データ “ハシグロカッコウ”の背景: 森テストデータ
“ハシグロカッコウ”の背景: コーヒーショップ

実験3: 背景画像の変化に対する頑健性検証 (CUB) 26 背景変化への頑健性を調査するためにCUBを変形したトイデータで実験表. 背景変更CUBデータセットにおける各モデルのエラー • Standardモデルは⽬的変数と背景の関係を学習 •
提案モデルは背景への依存が⼩さいため影響を受けづらい

議論: Future work • Crowdsourcingの利⽤ • ⼈間にクエリを投げて正しい概念を対話的に獲得 • クラウドワーカーを通じてタスクを解くための特徴量を⽣成 [Cheng+,
CSCW2015] • Side channel from x → y • モデルに x → y からの直接のパスを追加することで不完全な概念を考慮 • ボトルネック構造の理論的解析 27 [Cheng+, CSCW2015] Flock: Hybrid Crowd-Machine Learning Classifiers

論⽂紹介 • 論⽂① Concept Bottleneck Models, [Koh+, ICML2020] - 専⾨家が判断に⽤いる概念が根拠として提⽰可能な⼿法
• 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision- Making, [Cai+, CSCW2019] - AIシステム導⼊初期(human-AI onboarding)段階で従事者がシステムに関して求める情報をユーザ調査 28

“Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for
Human‒AI Collaborative Decision-Making Carrie J. Cai, Samantha Winter, David Steiner, Lauren Wilcox, Michael Terry Google Research, Google Health CSCW 2019 29

背景/⽬的 • ⾼精度な予測だけでは⼈間-AI間の協調した意思決定に⼗分とは⾔えない • システム導⼊初期(human-AI onboarding)段階で専⾨家(医師)がAIシステムに関して求める情報を明らかに⽅法 •
前⽴腺癌診断システムの使⽤{前, 中, 後}、21⼈の病理医に半構造化インタビュー/ think-aloud を⾏った結論 • サンプル毎の予測の理由より、システムに関する⼤局的な情報を求めることが明らかに • 強みと限界 (エッジケース) • システムの予測傾向 • 設計⽬的 • 導⼊前の検討事項(コスト, 既存のワークフローへの影響) 30 論⽂② “Hello AI”: Uncovering the Onboarding Needs of Medical Practitioners for Human‒AI Collaborative Decision-Making

背景 Clinical Decision Support System (CDSS)の課題システムの診断性能は⾼いが実運⽤が難しい • 機能, 使⽤⽬的,
既存のワークフローへの有⽤性を理解しておらず、システムの採⽤に抵抗する [Maddox+, JAMA2018] • システムの誤りを認知後に使⽤を⽌める (Algorithm aversion) [Keeffe+, Medical care2005] 31 CDSS: 医者の “第⼆の⽬” として意思決定を⽀援するシステム = HCI的な観点の⽋如本研究 DNNを⽤いた診断⽀援システムの導⼊初期段階に焦点を当て、病理医がどのような情報を必要とするかを調査 [Maddox+, JAMA2018] Questions for Artificial Intelligence in Health Care [Keeffe+, Medical care2005] Provider response to computer-based care suggestions for chronic heart failure 導⼊初期段階: 最初の印象の形成、適切な使⽤戦略の構築に鍵となる段階

タスクの背景: 細胞組織画像からの前⽴腺癌診断 • 病理医は細胞組織に基づく癌の最終的な判断を⾏う • Gleason Scoreで前⽴腺癌の重症度を診断 • 癌の有無は絶対的だが、その度合いの判断には主観が伴
い観察者間でばらつきがある 32 https://www.altaklinik.com/prostate/prostate-cancer/gleason-score/

調査⽅法⽬的: DNNを⽤いた診断⽀援システムの導⼊初期段階に、病理医がどのような情報を必要とするかを明らかに • AIシステムに抱くメンタルモデル • ‘AIシステムとの関わり’と‘同僚や既存ツールとの関わり’との相違参加者: 病理医
21⼈, 1 - 25(平均=10.8)年の経験年数ユーザ調査のフロー (各1-1.5時間) 33 Phase1 Pre-probe Phase2 Probe Phase3 Post-probe 使⽤前にAIシステムについて知る必要がある情報を調査 AIシステムを⽤いて意思決定する際に必要な情報を調査・参加者はAIシステムの介⼊をうけて前⽴腺癌の症例を診断 AIシステムを効果的に使うために知る必要がある追加情報を調査半構造化インタビューでの質問と思考発話法 (think aloud)を⽤いた調査

Phase2 Probe: 参加者はAIシステムの介⼊をうけて前⽴腺癌を画像診断 34 1. 実験参加者が判定 2. AIシステムがGleason Scoreを推定 (図)
3. 実験参加者が最終的な判定

導⼊時に求められる情報の種類 1. 性能と限界 (Capabilities and Limitations) 2. 機能性 (Functionality) 3.
医学的視点 (Medical Point-of-View) 4. 設計⽬的 (Design Objective) 5. 導⼊前の検討事項 (Considerations Prior to Adaption) 35 システムの特性に関する⼤局的な情報を求める傾向 • 規制当局の承認（FDA), 既存の臨床医のワークフローへの影響, ツールの有効性を⽰す査読付き出版物, 法的責任への影響, 導⼊コスト

1. 性能と限界 (Capabilities and Limitations) • ⼈間と関連性のある性能尺度 • 性能は知りたいが合理的なしきい値が判断しづらい、 “human-benchmark”との⽐較は理解が容易
• よくある間違い • システムの弱点の把握 “AIが知りにくいことはなにか? どんな場⾯で敏感なのか?, どんな基準で認識するのが得意なのか、苦⼿なのか?”(P18) “AIの⽋陥を知ることは重要ですね。”(P4) • ⼈間も誤ることの多いエッジケース • システムも同様に誤った場合に納得 “たぶん尿道周囲浸潤以外はとても精度がいいんだろうな。その場⾯では(システムの診断を)参考にしないほうがいいね。”(P20) 36 導⼊時に求められる情報の種類導⼊段階でのシステムに対する適切なメンタルモデル(≠過度な期待)を形成

2. 機能性 (Functionality) • システムの⼊⼒ • 何の情報を元に判断しているか “AIは私が持っていない情報にアクセスできますか?”(P10) “AIが単⼀画像から判断してるのか、連続した画像から判断しているのか知りたい。後者の⽅が信頼できる。”(P14)
• ⼊⼒の前処理⽅法 • 前処理による間違いに困惑 (前処理でSegmentation→パッチ領域を⼊⼒したことによるエラーを⾒て) “なぜこの細胞を切ったの? これは⾃然にはありえないよ。”(P16) • システムの推論過程 • AIの予測過程が⾃⾝と似ているかを判断するのに苦労 “腺とstromaの関係を考慮している? それとも核との関係?”(P16) • 説明性を求める声やAIの基礎技術を学びたいという声 “誰かが簡単な⾔葉で説明してくれたら… AIと我々の判断過程を⽐較することができるのに。”(P1) 等 37 導⼊時に求められる情報の種類

3. 医学的視点 (Medical Point-of-View) • システムの予測の傾向 • 病理医はセカンドオピニオンを求める際、互いの診断傾向を考慮 (ex.
あの⼈は過⼤, 過⼩評価) • システムの予測傾向が想定内であってほしい “⼈間と同じような感覚で診断してほしい。Grade3, 4と診断した時にかけ離れた診断をされたら、AIの活⽤は難しい。” (p2) • Human-AI キャリブレーション • システムとの診断傾向の違いを⽐較して認識したい “AIが診断して、私が診断して、より⾼度な専⾨家(GU)の診断を聞きたい。⾃分の⽴ち位置を確認する意味でも⾯⽩い。” (P17) • しかし、対⽴しないように⾏われるべき “たいていの病理医は、もし『ああ、間違っている』と⾔われたら、不快に思うでしょう。” (P14) 38 Gleason Scoreが医師同⼠でもばらつく主観的な値であることから “Grade4, 5は、10⼈の病理医に聞いても4⼈は⽚⽅、残りは他⽅を⾔うでしょう。”(P18) 導⼊時に求められる情報の種類

4. 設計⽬的 (Design Objective) • システムの⽬的関数 • どの指標に最適化されたか (ex. Precision
vs Recall) “重要なのはどのようにシステムが調整されたか。感度が⾼くて⾒逃しがないといいな。後は僕らで診るから。” (P2) 39 前⽴腺癌の悪性度予測システムとだけ知らされていたが、ほぼ全員がツールの具体的な有⽤性 (既存の診療にどのようなメリットをもたらすか)の説明を求めたシステム単独ではなく、医師と協調した活⽤を想定する声も ex. AIが⼀部の癌領域だけしか診断できなかった時 “がんの領域に注意を引いてくれたのかも、ここは私に判断してほしいのかな。” (P20) 導⼊時に求められる情報の種類

議論:産業分野を問わずAIシステム導⼊時に必要なこと 1. ⼈間に関連したテストケース • ⼈間が回答したテストケースと⽐較しながらシステムの挙動を理解する (ex.新⼈が失敗した場⾯を確認しながらメンタリング) • エンドユーザとのCo-Designにつながる 2.
AIに関する簡単な理解 • ユーザに機械学習の簡単な処理内容を⽰す (ex. 視覚的パターンを認識していて、⽣物学的知識は明⽰的に学習していない) 3. Beyond Accuracy: Communicate the AI’s Point-of-View and Design Goal • 精度は1つの尺度に過ぎず、意思決定に活⽤されるにはその主観的な出⼒傾向/設計⽬的の理解が必要 (ex. 判断が保守的か否か) 4. 現代型のAIシステムへの取り組み • 検出ベースなシステム ⇒ 協調的なシステムへのシフト • ユーザはAIシステムを同僚と共同作業する観点で解釈 • 今後 tool-centric, human-centricな考えも有⽤か 40 ただ性能を提⽰して、基本的なシステムの使い⽅を練習するだけでは不⼗分

まとめ • ⼈間の意思決定に関わる領域で機械学習システムが活⽤されていくための課題を整理 • ML/AIコミュニティ内での研究を超えて、社会科学、⼼理学、HCIを含む総合的な研究が必要 • ML/AI分野のXAI、HCI分野のユーザスタディに関する⽂献を紹介
• ユーザスタディはケース特有の内容ではあるが、実運⽤に向けての汎⽤的な知⾒もみられた 41

appendix 42

代表的な解釈⼿法 - LIME 43 Local Interpretable Model-agnostic Explanations (LIME) 1.
ある⼊⼒特徴量 ∈ ℝ( (ex. 画像)を可読表現 ) ∈ 0, 1 (" (ex. スーパーピクセル)に変換 = 複雑なモデルの種類に関係なく局所的な説明が可能 2. の近傍データを⽤いて次式より得られる線形モデル() ∈ でを近似 = argmin #∈% , (','!)∈ + ( − , )- + Ω() + : との距離 (Exponential kernel) , ∈ 0, 1 .! : ,の近傍サンプル (,にuniformなノイズをのせる) Ω(): の複雑度 (線形モデルの⾮0の重みの数) () 3. 線形モデル()の重み係数より、を⼊⼒とする予測に重要な可読表現が得られる

代表的な解釈⼿法 - LIME 44 Local Interpretable Model-agnostic Explanations (LIME) =
複雑なモデルの種類に関係なく局所的な説明が可能 LIMEによる説明: 画像分類の例 : CNN (Inception) ⼊⼒特徴量 ∈ ℝ(: 画像可読表現 ) ∈ 0, 1 (" : スーパーピクセル

関連研究 XAI ※原聡准教授のスライドより “説明できるAI” ≒ モデルから情報抽出する技術 45 原聡, 機械学習モデルの判断根拠の説明(Ver.2), https://www.slideshare.net/SatoshiHara3/ver2-225753735
Q. “説明できるAI”は何をする技術なのか？ A. 予測以外の追加情報をモデルから抽出する技術 • 追加情報とは？ • ユーザが知りたい情報 • 抽出したい追加情報を明確にするのはユーザの仕事

関連研究 XAI ※原聡准教授のスライドより “説明できるAI” の使い⽅ 46 原聡, 機械学習モデルの判断根拠の説明(Ver.2), https://www.slideshare.net/SatoshiHara3/ver2-225753735 1.
ユーザが知りたい追加情報を明確にする • ユーザ⾃⾝が「何を知ることができたら役に⽴つか」を考える • 役に⽴たない情報を取り出しても意味はない 2. 適切な“抽出技術”を使ってモデルから追加情報を取り出す 3. 追加情報をもとに、ユーザが⾃⾝の⾏動を決定する • 抽出技術が確⽴されている追加情報については既存技術を使う • 抽出技術が未確⽴な場合は、抽出技術の研究開発が必要 • e.g. モデルが着⽬した重要特徴がおかしい → モデルの判断は誤りの可能性が⾼いので無視する / ⼈間が判断する特に1, 3より、通知時のUIを⽤いたユーザー評価は重要

モデル X-ray grading (OAI) ‒ 回帰 : pretrained ResNet-18 :
3-layer MLP Bird identification (CUB) ‒ 分類 : pretrained Inception-v3 : single linear layer 47 Input Concepts Target

データセット ‒ 概念 X-ray grading (OAI) ‒ 回帰 10 clinical
concepts: “osteophytes femur medial”, “sclerosis femur medial”, “joint space narrowing medial”, “osteophytes tibia medial”, “sclerosis tibia medial”, “osteophytes femur lateral”, “sclerosis femur lateral”, “joint space narrowing lateral”, “osteophytes tibia lateral”, and “sclerosis tibia lateral”. Bird identification (CUB) ‒ 分類 112 binary concepts ⽻の⾊, くちばしの形... 48

実験1: Bottleneck modelのベンチマーク 49 概念の種類によらず、⾼い精度で予測ができている図. 概念に対する正確さ(Pearson Corr, F1) のヒストグラム

求められる情報の種類 1. 性能と限界 (Capabilities and Limitations) 2. 機能性 (Functionality) 3.
医学的視点 (Medical Point-of-View) 4. 設計⽬的 (Design Objective) 5. 導⼊前の検討事項 (Considerations Prior to Adaption) 50 システムの特性に関する⼤局的な情報を求める傾向 • 専⾨家のベンチマークとの性能⽐較 • 専⾨家が誤ったデータ(edge-case)に対する性能等 • システムの⼊⼒ (UIに提⽰されていないデータ等) • 前処理過程 (ex. パッチサイズに分割した画像を⼊⼒), 推論過程の概要 • システムの予測の傾向 (ex. 過⼤, 過⼩評価) • Human-AI キャリブレーション (ユーザとシステムの予測傾向の違いを認識) • 規制当局の承認（FDA), 既存の臨床医のワークフローへの影響, ツールの有効性を⽰す査読付き出版物, 法的責任への影響, 導⼊コスト • 意図するシステムの活⽤法 (ex. 効率性, 精度) • システムの⽬的関数におけるトレードオフ (ex. False positive vs False Negative)

意思決定のための機械学習

意思決定のための機械学習

More Decks by hyodo

Other Decks in Technology

Featured

Transcript