Slide 1

Slide 1 text

NN 論文を肴に酒を飲む会 #11 オンライン! Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making.

Slide 2

Slide 2 text

杉山 阿聖 Software Engineer @ Repro AI Labs 機械学習, 統計, R&D, 開発 TensorFlow Docs 翻訳 & レビュー 翻訳:Performance with tf.function レビュー: Tutorials などなど 機械学習図鑑 共著

Slide 3

Slide 3 text

1. イメージが伝わるようにする Web エンジニアが雰囲気をわかる 厳密さよりもわかりやすさ 2. 数式を用いた詳細な記述は行わない 日本語と図で頑張る 機械学習図鑑 3

Slide 4

Slide 4 text

https://japan.googleblog.com/2019/12/books-for-students.html 4

Slide 5

Slide 5 text

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making. Carrie J. Cai and Emily Reif and Narayan Hegde and Jason Hipp and Been Kim and Daniel Smilkov and Martin Wattenberg and Fernanda Viegas and Greg S. Corrado and Martin C. Stumpe and Michael Terry

Slide 6

Slide 6 text

深層学習は画像検索においても利用が拡大 している 類似する画像を検索する際に、単純に最近 傍の画像を取得するだけでは専門家の考え る「類似性」を捉えられるとは限らない この研究では医療画像検索 (類似画像検索) における専門家の考えるニーズを特定し、 システム SMILY を作成した SMILY を実際に使った結果を評価したとこ ろ、発見した画像が診断に役立つ度合い や、アルゴリズムの信頼度が向上した Abstract 6

Slide 7

Slide 7 text

1. Introduction <- 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 7

Slide 8

Slide 8 text

患者を撮影した画像と、よく似た 診断済みの画像を探すということ を医者は行っている 入力 : 未診断の患者の画像 出力 : 過去に診断済みの画像 検索結果の質が低いと医者の体験 を損ねるが、完全なアルゴリズム は存在しない Introduction 8

Slide 9

Slide 9 text

1. アルゴリズム的に類似すると判断される画像と、医者の目から見て関連性のある画 像は異なるが、医者の目から見て関連性のある検索結果を返さないと、システムは 信頼されない 2. 機械学習アルゴリズムが役立つ結果を返したとしても、それがブラックボックスの ままでは人間が使いこなせない Problems 9

Slide 10

Slide 10 text

SMILY (Similar Medical Images Like Yours) 10

Slide 11

Slide 11 text

1. Introduction 2. Related Works <- 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 11

Slide 12

Slide 12 text

1. Interactive Machine Learning 2. Deep Neural Nets (DNN) and Embeddings Related Works https://projector.tensorflow.org/ 12

Slide 13

Slide 13 text

1. Introduction 2. Related Works 3. User Needs <- 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 13

Slide 14

Slide 14 text

3 人の病理医と数カ月に渡ってイテレーティブな開発を行った 隔週で長時間の打ち合わせを実施 ペーパープロトタイピングやインタビュー、病理医のニーズの理解、様々なデザイ ンの試行錯誤といった複合的な手法で開発を行った User Needs 14

Slide 15

Slide 15 text

病理学的診断において、さまざまな仮説をエビデンスの元で比較して、もっとも確 からしい診断を下す 診断は次のように行われる i. 仮説と、対立仮説を立てる ii. 生検の結果や過去の診断と照らし合わせ、どちらが妥当か判断する iii. はっきりしないときは、類似の画像を探したり、セカンドオピニオンを求めた り、再検査を要求する 画像を探すときには、異なるカテゴリの診断を横断して、もっとも類似するように 見える画像を探し、見落としがないようにする 仮説はある、でも常にセーフティーネットを求めている…他にも似ているも のがあったりしないだろうか? Needs During Clinical Decision-Making 15

Slide 16

Slide 16 text

プロトタイプを病理医が触ったときに、病理医が類似性のタイプを調整しようとし たがっていたことに気がついた 関係のない特徴を弱めて、病理的に関連する特徴を強調しようとした 確認をしたいんだ、この甲状腺で現れているのは…それだと。『こいつだ!』 と言いたいんだ。 画像の局所的な位置に現れる特徴も、画像の全体に渡って出現する特徴もあった 特徴の関連度合いも、病理医が現在集中している事項によって変わった 病理医はシステムが場面ごとで異なる特徴に着目するよう、操作したいと要求した この箇所に出現した炎症に着目しているかもしれないけれど、そうじゃない。 「この炎症を見て欲しいんじゃない、それの周辺のすべてに着目してほし い」と伝えたいんだ。 Needs Arising from Machine Learning 16

Slide 17

Slide 17 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design <- 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 17

Slide 18

Slide 18 text

SMILY では入力画像に対して、学習済みの深層学習モデルを用いて高次元の Embedding を計算する データベースの中から、Embedding space での近傍画像を出力する ユーザーのフィードバックの結果、1 ページにおおよそ 15 枚の画像を出力するよ うに調整した User Interface and System Design 18

Slide 19

Slide 19 text

19

Slide 20

Slide 20 text

Refine-by-region Tool, Refine-by-example Tool, Refine-by-concept Tool の 3 種類 Refinement Tools 20

Slide 21

Slide 21 text

関連度の高い特徴が局所的に現れる場合がある (例: 生検中の特定のリンパ腺) 画像中の特定の箇所を矩形選択して、検索できるようにした UI 上ではユーザーが自由に矩形を設定できる一方、機械学習モデルは一定の縦横 比にしか対応できない傾向にあるので、ユーザーが選択した矩形に近い領域を検索 の入力として用いるようにした 上記について、病理医から「実際にシステムが見ている領域を表示してほしい」と いう要望があり、実際に入力した領域は赤いラインで囲み、ユーザーがわかるよう にした Refine-by-region Tool 21

Slide 22

Slide 22 text

Demo Movie 22

Slide 23

Slide 23 text

矩形選択だけでは着目したいものをうまく分離できない場合があった 検索結果には着目したいものがうまく現れている場合があり、これを利用できるよ うにした ユーザーが検索結果を選択すると、選択した画像についても Embedding を計算 し、すべての画像の埋め込みの平均値の近傍を改めて検索するようにした Refine-by-example Tool 23

Slide 24

Slide 24 text

Demo Movie (Capture) 24

Slide 25

Slide 25 text

いくつかのシナリオでは臨床上重要な概念が検索結果に現れない場合があった そのようなケースでは明示的に重要な概念を検索結果に含めることができるように した もしこの画像にもっと多くの癒着したリンパ腺があったら、それは診断にど う影響するだろう? Embedding space のなかで、そのような概念 (e.g. 癒着の個数) を示すような方向 を見つけるために、シンプルな線形識別機を用いた どのような概念が必要になるかは病理医にヒアリングして洗い出した どの画像にそのような概念が現れているかは病理医がラベル付けした Refine-by-concept Tool (1/3) 25

Slide 26

Slide 26 text

Refine-by-concept Tool (2/3) 26

Slide 27

Slide 27 text

それぞれの概念について、概ね 20 枚程度で方向を学習できるこ とがわかった 横軸 : 線形識別器の学習に使った 画像の数 縦軸 : 全部の画像を使った場合の 決定境界の法線ベクトルと、n 枚 の画像を用いたときに得られた決 定境界の法線ベクトルのコサイン 類似度 Refine-by-concept Tool (3/3) 27

Slide 28

Slide 28 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study <- 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 28

Slide 29

Slide 29 text

それぞれの機能を有効にした場合と、無効にした場合とで比較した Refine-by-region : 1 人目が画像中の矩形を指定 2 人目が画像中のランダムな箇所を選んだ場合と人手で選んだ場合とで、臨床 上の概念が現れている画像の枚数を比較 Refine-by-example : 1 人目がある臨床上の概念を表す典型的な 10 枚を選択 2 人目が一人目の選んだ画像をの検索結果を元にツールを用いて再検索 3 人目・4 人目が目的の臨床上の概念が検索結果に含まれている枚数を評価 Refine-by-concept : Refine-by-example の方法に同様 Tool Evaluation Study (1/2) 29

Slide 30

Slide 30 text

すべての機能において、有効にした場合には優位に評価結果が良くなった Refine-by-concept においては、線形識別器により学習した Embedding 空間の方 向ベクトルが人の直感と合うかどうか追加で確認した 1 人目 : 画像を検索 2 人目 : Refine-by-concept を使って検索結果を調整 3 人目 : どのような臨床上の概念に基づく調整を行ったか質問 (自由回答) 病理医はどのような臨床上の概念に基づいて調整を行ったかを正確に答えた Tool Evaluation Study (1/2) 30

Slide 31

Slide 31 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study <- 7. User Study Results <- 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 31

Slide 32

Slide 32 text

既存の画像検索システムと今回作成した SMILE とのどちらのほうがユーザーにと って良かったのかアンケート調査 1. Diagnostic utility: 診断を下すために見つけた画像が役立っただった度合い 2. Mental support for decision-making: 診断や考えをまとめるのに役立った度合い 3. Workload: 使いこなすのに必要だった労力や、使うときに感じた苛立ち度合い 4. Trust: システムの能力と、その振る舞いについての信頼度合い 5. Future use: 業務でこの先使いたいと思う度合い 6. Overall preference between the two interfaces: 総合評価 User Study 32

Slide 33

Slide 33 text

すべての項目で既存の画像検索シ ステムよりも良い結果となった (7 点満点) SMILE では既存の画像検索システ ムよりも操作が複雑になっている ので、この結果は自明でないこと に注意 診断結果を優位には向上させなか ったが、同様の結果をより楽に、 システムに信頼を置きながら得ら れるようになった User Study & Results 33

Slide 34

Slide 34 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns <- 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 34

Slide 35

Slide 35 text

それぞれの病理医が個々の機能をどのように利用していたかまとめた Tool Use and Navigation Patterns 35

Slide 36

Slide 36 text

典型的な利用方法ではまず、画像中の範囲を荒く選択し、Refine-by-Example で調 整し、 Refine-by-Concept で微調整する、というパターンが多かった Refine-by-Region 36

Slide 37

Slide 37 text

病理医は直感的に検索結果から画像を選び出していた そうだな…「これとこれ、それからこれ」と直感で 画像を追加したあとの方が、検索結果が良くなっているのか確信できずに困惑する 場面もあった 交絡する特徴が画像中に含まれている場合に多く観察された そのようなケースではユーザーが画像を多く選択できなかった (平均 2 枚) 病理医は Refine-by-Example に多くの時間を割いた 全体 : 139 sec (中央値) Refine-by-Example: 86 sec (中央値) Refine-by-Example 37

Slide 38

Slide 38 text

Refine-by-Concept は病理医に画像ではなく文字で考えることを強制する 診断結果を左右する要素のスペクトルの中を探索できる ステージ 3 とステージ 4 のガンを分ける重要な要素がリンパ腺の癒着だったと きに、その度合を強めてみたり弱めてみたりして結果を確認することで、さま ざまな可能性を検討できる 検索結果がこれ以上良くならないときに、強制的に検索結果を向上できる ある病理学的な特徴の度合いを強めたことで、視覚的に似ている別の特徴を含む検 索結果を混入させてしまうことがあった (両方ともに小さな点が現れるケース) 人手によるラベル付が必要だが、総じてよく働いた Refine-by-Concept 38

Slide 39

Slide 39 text

それぞれの病理医は SMILE の利 用中にしばしば行ったり来たりし ていた (右図) 検索結果を改善している最中で、 元画像中の別の箇所が気になった 場合、最初からやり直すケースが あった 検索中に「なんか違うな…」と思 ったケースでも最初からやり直し たケースがあった Interleaving, Resets, and Backtracks 39

Slide 40

Slide 40 text

別のシステムではユーザーは検索結果の次のページへと進んでいくのに対して、 SMILE ではユーザーは最初のページにとどまり続ける傾向があった 本をめくるみたいに、次へ次へと。ときには数百もの画像を見て、時間がすご くかかる。 ユーザーは検索の方向性をよりコントロールしたいと望んだ もう refine-by-example できないだなんて… Navigation in the Conventional Interface 40

Slide 41

Slide 41 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML <- 10. Discussion 11. Conclusion TOC 41

Slide 42

Slide 42 text

病理医が仮説を立案し、比較し、確からしさを判断するプロセスについて考える まず、意思決定のために仮説をより良いものにしていく戦略について述べる 次に、機械学習モデルをうまく取り扱いながら仮説をより良いものにする戦略につ いて述べる Decision Making and Coping With Black-box ML 42

Slide 43

Slide 43 text

仮説の確からしさについて調べる : 似た画像が多く見つかるようなら仮説の正しい 可能性は高まり、見つからなければ間違っている可能性が高まる 新しいアイデアを作り出す : ツールが思考過程を見える形で残し新しいアイデアへ と導く、特に、Refine-by-Concept は新たな方向性への気づきを与える 問題の複雑さを下げる : 医療画像の一部を矩形選択することで、一度にひとつの事 柄に集中する Refinement Practices for Decision-making 43

Slide 44

Slide 44 text

「意味」のギャップを埋める ユーザーのメンタルモデルが SMILY の振る舞いと一致しない場合にユーザーは SMILY のツールを用いて「意味」のギャップを埋めようとする 一方、典型的なツールではユーザーはより多くの画像を見ることしかできない (典型的なツールで画像検索しているときに) next ボタンを押す、でも結 果はどんどん悪くなる 機械学習モデルのメンタルモデルを作る ユーザーは機械学習モデルがどう「考えて」いるのかを想像する (特に、機械 学習モデルが意図しない間違え方をしたときに) こいつは人間の脳の動きを真似ようとしてると思うんだよね Refinement Strategies for Coping with ML (1/2) 44

Slide 45

Slide 45 text

自分の誤りなのか機械学習モデルの誤りなのかはっきりさせようとする 検索結果が期待と一致しなかったときに、ユーザーは意思決定のために、自分 のミスかアルゴリズムのミスかはっきりさせようとする 「あれ、俺が間違えてるのか?」という気持ちにこいつはさせる どちらなのかテストするために、病理医はアルゴリズムがエラーを起こしたと 思われる変数を外して検索をもう一度行ったりした ユーザーがテストできるようにすることで、アルゴリズムの明示的な説明がな くとも、SMILY は暗黙的にユーザーにアルゴリズムの振る舞いを示した アルゴリズムに過剰に影響を与えているのではないかと恐れる 総じて、ユーザーは画像の見た目が変わったとしても、診断カテゴリはあまり 変わってほしくないようだった Refinement Strategies for Coping with ML (1/2) 45

Slide 46

Slide 46 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 46

Slide 47

Slide 47 text

SMILY のツールはユーザーが機械学習モデルのエラーをテストするのに役立つ 一方、確証バイアスを高める潜在的なリスクもある もしユーザーが自分の仮説と整合性のある画像のみを選び続けたら、誤った仮 説の確からしさを高めてしまう このような事例は観察されなかったが、確証バイアスに対しての取り組みは Future work 例えば、ユーザーが選ばなかった画像による結果をあえて画面上に表示する、とい うことが考えられる Discussion (一部) 47

Slide 48

Slide 48 text

1. Introduction 2. Related Works 3. User Needs 4. User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 48

Slide 49

Slide 49 text

SMILY のツールは信頼性と有用性を向上させるだけでなく、医療現場での意思決定 プロセスに貢献できることがわかった この研究により、機械学習の課題でも好機でもある次の内容に道筋を示した ブラックボックスである機械学習モデルは理解しにくいにもかかわらず、深層 学習モデルからの Embedding を用いると、新しく軽量な方法で、改善と探索 を行うための双方向的な手段を確立できる この研究により、医療診断における意思決定において、機械学習ベースのシステム が専門家を置き換えるのではなく、支援することが可能だと実証できた この領域は将来に渡って重要性が増し続けるだろう Conclusion 49

Slide 50

Slide 50 text

おまけ: 後日談

Slide 51

Slide 51 text

A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy Emma Beede, Elizabeth Baylor, Fred Hersch, Anna Iurchenko, Lauren Wilcox, Paisan Ruamviboonsuk, Laura M. Vardoulaki

Slide 52

Slide 52 text

この研究ではタイの病院との提携 を行い、実際の医療現場で機械学 習を用いたシステムが役に立つか 観察研究を行った 有効に活用された場合、診断にか かる時間を大幅に短縮できる可能 性が示された 光量の環境差異や、回線の細さ、 現場の手順が病院ごとに違うとい った理由で、役に立たなかったケ ースもあった あまり正確でない要約 52

Slide 53

Slide 53 text

研究室ではうま くいくものも、 現実だとうまく いかないんだ よ、という論調 いい結果も残し ている (念の為) Techcrunch に煽られる https://jp.techcrunch.com/2020/05/04/2020- 04-27-google-medical-researchers-humbled- when-ai-screening-tool-falls-short-in-real- life-testing/ 53

Slide 54

Slide 54 text

from How Google does Machine Learning (coursera) 1. 業務が未定義 2. 業務が定義され、手順書を作る <- 医療現場はここだった 3. 手順が明確になり、システム化を行う 4. 情報を可視化し、意思決定を行う 5. 意思決定の自動化 or 補助 <- 機械学習はここ 逆説的にこれが正しいと示す結果かもしれない 機械学習までのステップ by Google 54

Slide 55

Slide 55 text

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making | Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems Google AI Blog: Building SMILY, a Human-Centric, Similar-Image Search Tool for Pathology A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy | Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems Healthcare AI systems that put people at the center Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ How Google does Machine Learning 日本語版 | Coursera Reference 55