Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making

NN 論文を肴に酒を飲む会 #11 オンライン！ Human-Centered Tools for Coping with Imperfect
Algorithms During Medical Decision-Making.

杉山阿聖 Software Engineer @ Repro AI Labs 機械学習, 統計,
R&D, 開発 TensorFlow Docs 翻訳 & レビュー翻訳:Performance with tf.function レビュー: Tutorials などなど機械学習図鑑共著

1. イメージが伝わるようにする Web エンジニアが雰囲気をわかる厳密さよりもわかりやすさ 2. 数式を用いた詳細な記述は行わない日本語と図で頑張る機械学習図鑑 3

https://japan.googleblog.com/2019/12/books-for-students.html 4

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making.
Carrie J. Cai and Emily Reif and Narayan Hegde and Jason Hipp and Been Kim and Daniel Smilkov and Martin Wattenberg and Fernanda Viegas and Greg S. Corrado and Martin C. Stumpe and Michael Terry

深層学習は画像検索においても利用が拡大している類似する画像を検索する際に、単純に最近傍の画像を取得するだけでは専門家の考える「類似性」を捉えられるとは限らないこの研究では医療画像検索 (類似画像検索) における専門家の考えるニーズを特定し、システム SMILY
を作成した SMILY を実際に使った結果を評価したところ、発見した画像が診断に役立つ度合いや、アルゴリズムの信頼度が向上した Abstract 6

1. Introduction <- 2. Related Works 3. User Needs 4.
User Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 7

患者を撮影した画像と、よく似た診断済みの画像を探すということを医者は行っている入力 : 未診断の患者の画像出力 : 過去に診断済みの画像検索結果の質が低いと医者の体験
を損ねるが、完全なアルゴリズムは存在しない Introduction 8

1. アルゴリズム的に類似すると判断される画像と、医者の目から見て関連性のある画像は異なるが、医者の目から見て関連性のある検索結果を返さないと、システムは信頼されない 2. 機械学習アルゴリズムが役立つ結果を返したとしても、それがブラックボックスのままでは人間が使いこなせない Problems 9

SMILY (Similar Medical Images Like Yours) 10

1. Introduction 2. Related Works <- 3. User Needs 4.

1. Interactive Machine Learning 2. Deep Neural Nets (DNN) and
Embeddings Related Works https://projector.tensorflow.org/ 12

1. Introduction 2. Related Works 3. User Needs <- 4.

3 人の病理医と数カ月に渡ってイテレーティブな開発を行った隔週で長時間の打ち合わせを実施ペーパープロトタイピングやインタビュー、病理医のニーズの理解、様々なデザインの試行錯誤といった複合的な手法で開発を行った User Needs 14

病理学的診断において、さまざまな仮説をエビデンスの元で比較して、もっとも確からしい診断を下す診断は次のように行われる i. 仮説と、対立仮説を立てる ii. 生検の結果や過去の診断と照らし合わせ、どちらが妥当か判断する iii. はっきりしないときは、類似の画像を探したり、セカンドオピニオンを求めたり、再検査を要求する
画像を探すときには、異なるカテゴリの診断を横断して、もっとも類似するように見える画像を探し、見落としがないようにする仮説はある、でも常にセーフティーネットを求めている…他にも似ているものがあったりしないだろうか？ Needs During Clinical Decision-Making 15

プロトタイプを病理医が触ったときに、病理医が類似性のタイプを調整しようとしたがっていたことに気がついた関係のない特徴を弱めて、病理的に関連する特徴を強調しようとした確認をしたいんだ、この甲状腺で現れているのは…それだと。『こいつだ！』と言いたいんだ。画像の局所的な位置に現れる特徴も、画像の全体に渡って出現する特徴もあった特徴の関連度合いも、病理医が現在集中している事項によって変わった病理医はシステムが場面ごとで異なる特徴に着目するよう、操作したいと要求したこの箇所に出現した炎症に着目しているかもしれないけれど、そうじゃない。「この炎症を見て欲しいんじゃない、それの周辺のすべてに着目してほし
い」と伝えたいんだ。 Needs Arising from Machine Learning 16

1. Introduction 2. Related Works 3. User Needs 4. User
Interface and System Design <- 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 17

SMILY では入力画像に対して、学習済みの深層学習モデルを用いて高次元の Embedding を計算するデータベースの中から、Embedding space での近傍画像を出力するユーザーのフィードバックの結果、1 ページにおおよそ 15
枚の画像を出力するように調整した User Interface and System Design 18

Refine-by-region Tool, Refine-by-example Tool, Refine-by-concept Tool の 3 種類 Refinement
Tools 20

関連度の高い特徴が局所的に現れる場合がある (例: 生検中の特定のリンパ腺) 画像中の特定の箇所を矩形選択して、検索できるようにした UI 上ではユーザーが自由に矩形を設定できる一方、機械学習モデルは一定の縦横比にしか対応できない傾向にあるので、ユーザーが選択した矩形に近い領域を検索の入力として用いるようにした上記について、病理医から「実際にシステムが見ている領域を表示してほしい」という要望があり、実際に入力した領域は赤いラインで囲み、ユーザーがわかるよう
にした Refine-by-region Tool 21

Demo Movie 22

矩形選択だけでは着目したいものをうまく分離できない場合があった検索結果には着目したいものがうまく現れている場合があり、これを利用できるようにしたユーザーが検索結果を選択すると、選択した画像についても Embedding を計算し、すべての画像の埋め込みの平均値の近傍を改めて検索するようにした Refine-by-example Tool 23

Demo Movie (Capture) 24

いくつかのシナリオでは臨床上重要な概念が検索結果に現れない場合があったそのようなケースでは明示的に重要な概念を検索結果に含めることができるようにしたもしこの画像にもっと多くの癒着したリンパ腺があったら、それは診断にどう影響するだろう？ Embedding space のなかで、そのような概念 (e.g. 癒着の個数)
を示すような方向を見つけるために、シンプルな線形識別機を用いたどのような概念が必要になるかは病理医にヒアリングして洗い出したどの画像にそのような概念が現れているかは病理医がラベル付けした Refine-by-concept Tool (1/3) 25

Refine-by-concept Tool (2/3) 26

それぞれの概念について、概ね 20 枚程度で方向を学習できることがわかった横軸 : 線形識別器の学習に使った画像の数縦軸 :
全部の画像を使った場合の決定境界の法線ベクトルと、n 枚の画像を用いたときに得られた決定境界の法線ベクトルのコサイン類似度 Refine-by-concept Tool (3/3) 27

Interface and System Design 5. Tool Evaluation Study <- 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 28

それぞれの機能を有効にした場合と、無効にした場合とで比較した Refine-by-region : 1 人目が画像中の矩形を指定 2 人目が画像中のランダムな箇所を選んだ場合と人手で選んだ場合とで、臨床上の概念が現れている画像の枚数を比較 Refine-by-example :
1 人目がある臨床上の概念を表す典型的な 10 枚を選択 2 人目が一人目の選んだ画像をの検索結果を元にツールを用いて再検索 3 人目・4 人目が目的の臨床上の概念が検索結果に含まれている枚数を評価 Refine-by-concept : Refine-by-example の方法に同様 Tool Evaluation Study (1/2) 29

すべての機能において、有効にした場合には優位に評価結果が良くなった Refine-by-concept においては、線形識別器により学習した Embedding 空間の方向ベクトルが人の直感と合うかどうか追加で確認した 1 人目 : 画像を検索
2 人目 : Refine-by-concept を使って検索結果を調整 3 人目 : どのような臨床上の概念に基づく調整を行ったか質問 (自由回答) 病理医はどのような臨床上の概念に基づいて調整を行ったかを正確に答えた Tool Evaluation Study (1/2) 30

Interface and System Design 5. Tool Evaluation Study 6. User Study <- 7. User Study Results <- 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 31

既存の画像検索システムと今回作成した SMILE とのどちらのほうがユーザーにとって良かったのかアンケート調査 1. Diagnostic utility: 診断を下すために見つけた画像が役立っただった度合い 2. Mental
support for decision-making: 診断や考えをまとめるのに役立った度合い 3. Workload: 使いこなすのに必要だった労力や、使うときに感じた苛立ち度合い 4. Trust: システムの能力と、その振る舞いについての信頼度合い 5. Future use: 業務でこの先使いたいと思う度合い 6. Overall preference between the two interfaces: 総合評価 User Study 32

すべての項目で既存の画像検索システムよりも良い結果となった (7 点満点) SMILE では既存の画像検索システムよりも操作が複雑になっているので、この結果は自明でないことに注意診断結果を優位には向上させなか
ったが、同様の結果をより楽に、システムに信頼を置きながら得られるようになった User Study & Results 33

Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns <- 9. Decision Making and Coping With Black-box ML 10. Discussion 11. Conclusion TOC 34

それぞれの病理医が個々の機能をどのように利用していたかまとめた Tool Use and Navigation Patterns 35

典型的な利用方法ではまず、画像中の範囲を荒く選択し、Refine-by-Example で調整し、 Refine-by-Concept で微調整する、というパターンが多かった Refine-by-Region 36

病理医は直感的に検索結果から画像を選び出していたそうだな…「これとこれ、それからこれ」と直感で画像を追加したあとの方が、検索結果が良くなっているのか確信できずに困惑する場面もあった交絡する特徴が画像中に含まれている場合に多く観察されたそのようなケースではユーザーが画像を多く選択できなかった (平均 2 枚) 病理医は
Refine-by-Example に多くの時間を割いた全体 : 139 sec (中央値) Refine-by-Example: 86 sec (中央値) Refine-by-Example 37

Refine-by-Concept は病理医に画像ではなく文字で考えることを強制する診断結果を左右する要素のスペクトルの中を探索できるステージ 3 とステージ 4 のガンを分ける重要な要素がリンパ腺の癒着だったときに、その度合を強めてみたり弱めてみたりして結果を確認することで、さまざまな可能性を検討できる
検索結果がこれ以上良くならないときに、強制的に検索結果を向上できるある病理学的な特徴の度合いを強めたことで、視覚的に似ている別の特徴を含む検索結果を混入させてしまうことがあった (両方ともに小さな点が現れるケース) 人手によるラベル付が必要だが、総じてよく働いた Refine-by-Concept 38

それぞれの病理医は SMILE の利用中にしばしば行ったり来たりしていた (右図) 検索結果を改善している最中で、元画像中の別の箇所が気になった場合、最初からやり直すケースがあった
検索中に「なんか違うな…」と思ったケースでも最初からやり直したケースがあった Interleaving, Resets, and Backtracks 39

別のシステムではユーザーは検索結果の次のページへと進んでいくのに対して、 SMILE ではユーザーは最初のページにとどまり続ける傾向があった本をめくるみたいに、次へ次へと。ときには数百もの画像を見て、時間がすごくかかる。ユーザーは検索の方向性をよりコントロールしたいと望んだもう refine-by-example できないだなんて… Navigation
in the Conventional Interface 40

Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML <- 10. Discussion 11. Conclusion TOC 41

病理医が仮説を立案し、比較し、確からしさを判断するプロセスについて考えるまず、意思決定のために仮説をより良いものにしていく戦略について述べる次に、機械学習モデルをうまく取り扱いながら仮説をより良いものにする戦略について述べる Decision Making and Coping With Black-box
ML 42

仮説の確からしさについて調べる : 似た画像が多く見つかるようなら仮説の正しい可能性は高まり、見つからなければ間違っている可能性が高まる新しいアイデアを作り出す : ツールが思考過程を見える形で残し新しいアイデアへと導く、特に、Refine-by-Concept は新たな方向性への気づきを与える問題の複雑さを下げる
: 医療画像の一部を矩形選択することで、一度にひとつの事柄に集中する Refinement Practices for Decision-making 43

「意味」のギャップを埋めるユーザーのメンタルモデルが SMILY の振る舞いと一致しない場合にユーザーは SMILY のツールを用いて「意味」のギャップを埋めようとする一方、典型的なツールではユーザーはより多くの画像を見ることしかできない (典型的なツールで画像検索しているときに) next ボタンを押す、でも結
果はどんどん悪くなる機械学習モデルのメンタルモデルを作るユーザーは機械学習モデルがどう「考えて」いるのかを想像する (特に、機械学習モデルが意図しない間違え方をしたときに) こいつは人間の脳の動きを真似ようとしてると思うんだよね Refinement Strategies for Coping with ML (1/2) 44

自分の誤りなのか機械学習モデルの誤りなのかはっきりさせようとする検索結果が期待と一致しなかったときに、ユーザーは意思決定のために、自分のミスかアルゴリズムのミスかはっきりさせようとする「あれ、俺が間違えてるのか？」という気持ちにこいつはさせるどちらなのかテストするために、病理医はアルゴリズムがエラーを起こしたと思われる変数を外して検索をもう一度行ったりしたユーザーがテストできるようにすることで、アルゴリズムの明示的な説明がなくとも、SMILY は暗黙的にユーザーにアルゴリズムの振る舞いを示したアルゴリズムに過剰に影響を与えているのではないかと恐れる
総じて、ユーザーは画像の見た目が変わったとしても、診断カテゴリはあまり変わってほしくないようだった Refinement Strategies for Coping with ML (1/2) 45

Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 46

SMILY のツールはユーザーが機械学習モデルのエラーをテストするのに役立つ一方、確証バイアスを高める潜在的なリスクもあるもしユーザーが自分の仮説と整合性のある画像のみを選び続けたら、誤った仮説の確からしさを高めてしまうこのような事例は観察されなかったが、確証バイアスに対しての取り組みは Future work 例えば、ユーザーが選ばなかった画像による結果をあえて画面上に表示する、ということが考えられる
Discussion (一部) 47

Interface and System Design 5. Tool Evaluation Study 6. User Study 7. User Study Results 8. Tool Use and Navigation Patterns 9. Decision Making and Coping With Black-box ML 10. Discussion <- 11. Conclusion TOC 48

SMILY のツールは信頼性と有用性を向上させるだけでなく、医療現場での意思決定プロセスに貢献できることがわかったこの研究により、機械学習の課題でも好機でもある次の内容に道筋を示したブラックボックスである機械学習モデルは理解しにくいにもかかわらず、深層学習モデルからの Embedding を用いると、新しく軽量な方法で、改善と探索を行うための双方向的な手段を確立できるこの研究により、医療診断における意思決定において、機械学習ベースのシステム
が専門家を置き換えるのではなく、支援することが可能だと実証できたこの領域は将来に渡って重要性が増し続けるだろう Conclusion 49

おまけ: 後日談

A Human-Centered Evaluation of a Deep Learning System Deployed in
Clinics for the Detection of Diabetic Retinopathy Emma Beede, Elizabeth Baylor, Fred Hersch, Anna Iurchenko, Lauren Wilcox, Paisan Ruamviboonsuk, Laura M. Vardoulaki

この研究ではタイの病院との提携を行い、実際の医療現場で機械学習を用いたシステムが役に立つか観察研究を行った有効に活用された場合、診断にかかる時間を大幅に短縮できる可能性が示された光量の環境差異や、回線の細さ、現場の手順が病院ごとに違うといった理由で、役に立たなかったケ
ースもあったあまり正確でない要約 52

研究室ではうまくいくものも、現実だとうまくいかないんだよ、という論調いい結果も残している (念の為) Techcrunch に煽られる
https://jp.techcrunch.com/2020/05/04/2020- 04-27-google-medical-researchers-humbled- when-ai-screening-tool-falls-short-in-real- life-testing/ 53

from How Google does Machine Learning (coursera) 1. 業務が未定義 2.
業務が定義され、手順書を作る <- 医療現場はここだった 3. 手順が明確になり、システム化を行う 4. 情報を可視化し、意思決定を行う 5. 意思決定の自動化 or 補助 <- 機械学習はここ逆説的にこれが正しいと示す結果かもしれない機械学習までのステップ by Google 54

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making
| Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems Google AI Blog: Building SMILY, a Human-Centric, Similar-Image Search Tool for Pathology A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy | Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems Healthcare AI systems that put people at the center Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ How Google does Machine Learning 日本語版 | Coursera Reference 55

Human-Centered Tools for Coping with Imperfect ...

Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript