Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Human-Centered Tools for Coping with Imperfect ...

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making

NN 論文を肴に酒を飲む会 #11 オンライン! の登壇資料です
SMILY の動画は次から確認できます
https://youtu.be/kw_X7x3G6FY
https://youtu.be/htYFBFSSV58

Asei Sugiyama

May 20, 2020
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 杉山 阿聖 Software Engineer @ Repro AI Labs 機械学習, 統計,

    R&D, 開発 TensorFlow Docs 翻訳 & レビュー 翻訳:Performance with tf.function レビュー: Tutorials などなど 機械学習図鑑 共著
  2. Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making.

    Carrie J. Cai and Emily Reif and Narayan Hegde and Jason Hipp and Been Kim and Daniel Smilkov and Martin Wattenberg and Fernanda Viegas and Greg S. Corrado and Martin C. Stumpe and Michael Terry
  3. 1. Introduction <- 2. Related Works 3. User Needs 4.

    User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 7
  4. 1. Introduction 2. Related Works <- 3. User Needs 4.

    User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 11
  5. 1. Interactive Machine Learning 2. Deep Neural Nets (DNN) and

    Embeddings Related Works https://projector.tensorflow.org/ 12
  6. 1. Introduction 2. Related Works 3. User Needs <- 4.

    User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 13
  7. 病理学的診断において、さまざまな仮説をエビデンスの元で比較して、もっとも確 からしい診断を下す 診断は次のように行われる i. 仮説と、対立仮説を立てる ii. 生検の結果や過去の診断と照らし合わせ、どちらが妥当か判断する iii. はっきりしないときは、類似の画像を探したり、セカンドオピニオンを求めた り、再検査を要求する

    画像を探すときには、異なるカテゴリの診断を横断して、もっとも類似するように 見える画像を探し、見落としがないようにする 仮説はある、でも常にセーフティーネットを求めている…他にも似ているも のがあったりしないだろうか? Needs During Clinical Decision-Making 15
  8. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design <- 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 17
  9. 19

  10. いくつかのシナリオでは臨床上重要な概念が検索結果に現れない場合があった そのようなケースでは明示的に重要な概念を検索結果に含めることができるように した もしこの画像にもっと多くの癒着したリンパ腺があったら、それは診断にど う影響するだろう? Embedding space のなかで、そのような概念 (e.g. 癒着の個数)

    を示すような方向 を見つけるために、シンプルな線形識別機を用いた どのような概念が必要になるかは病理医にヒアリングして洗い出した どの画像にそのような概念が現れているかは病理医がラベル付けした Refine-by-concept Tool (1/3) 25
  11. それぞれの概念について、概ね 20 枚程度で方向を学習できるこ とがわかった 横軸 : 線形識別器の学習に使った 画像の数 縦軸 :

    全部の画像を使った場合の 決定境界の法線ベクトルと、n 枚 の画像を用いたときに得られた決 定境界の法線ベクトルのコサイン 類似度 Refine-by-concept Tool (3/3) 27
  12. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study <- 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 28
  13. それぞれの機能を有効にした場合と、無効にした場合とで比較した Refine-by-region : 1 人目が画像中の矩形を指定 2 人目が画像中のランダムな箇所を選んだ場合と人手で選んだ場合とで、臨床 上の概念が現れている画像の枚数を比較 Refine-by-example :

    1 人目がある臨床上の概念を表す典型的な 10 枚を選択 2 人目が一人目の選んだ画像をの検索結果を元にツールを用いて再検索 3 人目・4 人目が目的の臨床上の概念が検索結果に含まれている枚数を評価 Refine-by-concept : Refine-by-example の方法に同様 Tool Evaluation Study (1/2) 29
  14. すべての機能において、有効にした場合には優位に評価結果が良くなった Refine-by-concept においては、線形識別器により学習した Embedding 空間の方 向ベクトルが人の直感と合うかどうか追加で確認した 1 人目 : 画像を検索

    2 人目 : Refine-by-concept を使って検索結果を調整 3 人目 : どのような臨床上の概念に基づく調整を行ったか質問 (自由回答) 病理医はどのような臨床上の概念に基づいて調整を行ったかを正確に答えた Tool Evaluation Study (1/2) 30
  15. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study 6. User Study <- 7. User Study Results <- 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 31
  16. 既存の画像検索システムと今回作成した SMILE とのどちらのほうがユーザーにと って良かったのかアンケート調査 1. Diagnostic utility: 診断を下すために見つけた画像が役立っただった度合い 2. Mental

    support for decision-making: 診断や考えをまとめるのに役立った度合い 3. Workload: 使いこなすのに必要だった労力や、使うときに感じた苛立ち度合い 4. Trust: システムの能力と、その振る舞いについての信頼度合い 5. Future use: 業務でこの先使いたいと思う度合い 6. Overall preference between the two interfaces: 総合評価 User Study 32
  17. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns <- 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 34
  18. Refine-by-Concept は病理医に画像ではなく文字で考えることを強制する 診断結果を左右する要素のスペクトルの中を探索できる ステージ 3 とステージ 4 のガンを分ける重要な要素がリンパ腺の癒着だったと きに、その度合を強めてみたり弱めてみたりして結果を確認することで、さま ざまな可能性を検討できる

    検索結果がこれ以上良くならないときに、強制的に検索結果を向上できる ある病理学的な特徴の度合いを強めたことで、視覚的に似ている別の特徴を含む検 索結果を混入させてしまうことがあった (両方ともに小さな点が現れるケース) 人手によるラベル付が必要だが、総じてよく働いた Refine-by-Concept 38
  19. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML <- 10. Discussion 11. Conclusion TOC 41
  20. 「意味」のギャップを埋める ユーザーのメンタルモデルが SMILY の振る舞いと一致しない場合にユーザーは SMILY のツールを用いて「意味」のギャップを埋めようとする 一方、典型的なツールではユーザーはより多くの画像を見ることしかできない (典型的なツールで画像検索しているときに) next ボタンを押す、でも結

    果はどんどん悪くなる 機械学習モデルのメンタルモデルを作る ユーザーは機械学習モデルがどう「考えて」いるのかを想像する (特に、機械 学習モデルが意図しない間違え方をしたときに) こいつは人間の脳の動きを真似ようとしてると思うんだよね Refinement Strategies for Coping with ML (1/2) 44
  21. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 46
  22. 1. Introduction 2. Related Works 3. User Needs 4. User

    Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 48
  23. A Human-Centered Evaluation of a Deep Learning System Deployed in

    Clinics for the Detection of Diabetic Retinopathy Emma Beede, Elizabeth Baylor, Fred Hersch, Anna Iurchenko, Lauren Wilcox, Paisan Ruamviboonsuk, Laura M. Vardoulaki
  24. 研究室ではうま くいくものも、 現実だとうまく いかないんだ よ、という論調 いい結果も残し ている (念の為) Techcrunch に煽られる

    https://jp.techcrunch.com/2020/05/04/2020- 04-27-google-medical-researchers-humbled- when-ai-screening-tool-falls-short-in-real- life-testing/ 53
  25. from How Google does Machine Learning (coursera) 1. 業務が未定義 2.

    業務が定義され、手順書を作る <- 医療現場はここだった 3. 手順が明確になり、システム化を行う 4. 情報を可視化し、意思決定を行う 5. 意思決定の自動化 or 補助 <- 機械学習はここ 逆説的にこれが正しいと示す結果かもしれない 機械学習までのステップ by Google 54
  26. Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making

    | Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems Google AI Blog: Building SMILY, a Human-Centric, Similar-Image Search Tool for Pathology A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy | Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems Healthcare AI systems that put people at the center Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ How Google does Machine Learning 日本語版 | Coursera Reference 55