Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Automatic Diagnosis Coding of Radiology Reports: A Comparison of Deep Learning and Conventional Classification Methods

T.Tada
April 25, 2018

文献紹介:Automatic Diagnosis Coding of Radiology Reports: A Comparison of Deep Learning and Conventional Classification Methods

T.Tada

April 25, 2018
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. 文献紹介 Automatic Diagnosis Coding of Radiology Reports: A Comparison of

    Deep Learning and Conventional Cla ssification Methods Sarvnaz Karimi, Xiang Dai, Hamed Hassanzadeh, and Anthony Nguyen Data61, CSIRO, Sydney, Australia School of Information Technologies, University of Sydney, Sydney, Australia The Australian e-Health Research Centre, CSIRO, Brisbane, Australia Proceedings of the BioNLP 2017 workshop, pages 328–332, Vancouver, Canada, August 4, 2017. c 2017 Association for Computational Linguistics 長岡技術科学大学 自然言語処理研究室 多田太郎 1
  2. ICD? (文献外) ICD (International Classification of Diseases/国際疾病分類) 正式名称:疾病及び関連保健問題の国際統計分類 (International Statistical

    Classification of Diseases and Related Health Problems) WHO(世界保険機関)が作成する疾患の分類 • 傷害及び死因の統計を国際比較が目的(死因分類,疾病分類) • ICD-10:1990年に改訂された第10回改訂 (10年毎に改訂されており、ICD-9は第9回の改訂) 厚生労働省大臣官房統計情報部:ICDのABC(平成26年度版)より 3
  3. ICD ? (文献外) ICD (International Classification of Diseases/国際疾病分類)           Fig.1 :

    ICDの例 厚生労働省大臣官房統計情報部:ICDのABC(平成26年度版)より 4
  4. Introduction • 病院や診療所は、ICDコードの基準に従って、患者の医療記録から関連情報を抽出し、どの 診断および手順がコーディング基準を満たしているかを選択     例:足の複数の骨折はICD-10コード 'S92.7’ • 臨床コーディングは、医学用語、病気のプロセス、およびコーディング規則の詳細な知識、詳 細への注意、分析技術を必要とする特殊なスキルです。人的ミスは過度に過小評価され、誤 解を招く統計につながる。

    • ディープ・ラーニングを使用したテキスト分類は、ドメインまたはアプリケーション固有のフィー チャ・エンジニアリングの負荷を軽減するという事が比較的最近のものです。よく設計された 特徴を有するSVMのような従来の分類器は、長い間、異なる領域において高い性能を示して きました。深層学習により臨床テキストの分類をさらに改善できるかどうかを調査。 • 畳み込みニューラルネットワーク(CNN)などの最も一般的なニューラルアーキテクチャのど のような設定が、どのようにして放射線診断レポートのオートコーディングに適用できるかを 調査。 6
  5. Related Work • 2007年にPestianら(2007)は、ICD9コードで自動コード化される放射線診断レポートのデータセットを導入した 共有されるタスクを編成した。このマルチラベル分類タスクは、ルールベース、意思決定木、エントロピー、SVM 分類子などの方法で問題に取り組んだ、Farkas and Szarvas(2008; Suominen et

    al。、2008)のような長年にわ たる大規模な研究を引きつけました。 • SVMを使用するテキスト分類は、state-of-the-artであることが長い間知られています。近年、ニューラルネット ワークに基づく学習方法が、一般的なNLPおよびドメイン特有のアプリケーションにおいて研究されている。 • テキスト分類のために、2つの主要な方法がある: • (1)フィードフォワードニューラルネットワークのカテゴリからのCNN • (2)RNNアーキテクチャを備えたLSTM • また、テキスト中の単語の意味表現を獲得するための単語埋め込み(Le and Mikolov、2014)の使用は、テキス トの従来の方法であるワンホット(ベクトル空間)モデルを置き換える様々なアプリケーションで調査されている 表現。 • 近年、CNNを用いたテキスト分類がますます研究されている(Kalchbrenner et al。、2014; Kim、2014; Rios and Ka vuluru、2015)。例えば、RiosとKavuluru(2015)は、索引付けのために生物医学用品を分類するためにCNNを適 用し、Kavuluru et al。 (2016)自殺ウォッチフォーラム。 7
  6. Datasets テキスト分類のため、以下データセットの共通特性およびドメイン特有の特性を 見つけるため、ドメイン内外の2つの異なるデータセットについて実験 • 放射線診断レポートのデータセットICD9 2007年にComputational Medicine Centerによって公開された公開チャレンジ データセット(Pestian et

    al:2007) 978個の匿名化された放射線医学レポートとそれに対応するICD-9-CMコードのセットである 臨床フリーテキストで構成 • 感情分析データセットIMDB IMDBムービーレビューデータセットは、Maasらによって提供された感情分析データセット(20 11年)。IMDBから100,000のムービーレビューを含んでいます。 10
  7. Experimental Setup このタスクは、マルチラベルの分類問題として扱われる。 実装 : Tensorflow および Scikit-learn ワードembedding : Word2Vec(Mikolov et al:2013)  SVMおよび他の従来手法 : Wang and Manning(2012)と同様の正規化tf-idf

    評価 • ICD9およびrICD9についての評価のために、層別10倍交差検定を使用。 • マクロ平均化によって分類精度、精度、リコール、およびF-スコアを測定。 • 階層化されたクロスバリデーションは、各トレーニングおよび検証の折り目にラベルの分布を 可能な限り一致させるために使用。 • IMDBデータセットは、その提供者によってトレーニングデータとテストデータに分けられてい る。すべてのデータセットについて、実験を50回ずつ実行し、報告された結果を繰り返し実験 し平均化する。 11
  8. Experiments and Results Pre-trained Word Vectors の効果 • 事前に訓練された単語ベクトルは、データセット内の単語の意味に関する事前知識と考える ことができる。すなわち、ランダムな値の代わりに、埋め込み層を単語埋め込みから得られた

    値に初期化することができる。単語埋め込みを使用することで、コーディングタスクの分類精 度が向上するかどうかを調査。 • 様々なベクトルサイズのWikipediaとMedlineの両方を使用して、異なる単語ベクトルを作成。 これらの事前に訓練された埋め込みとランダム埋め込みの精度を比較。 15
  9. Experiments and Results Pre-trained Word Vectors の効果 Table3に示す結果 • 事前に訓練された単語ベクトルは分類精度を向上させる:3つのデータセットすべてで達成さ

    れる最良の精度は、 Pre-trained Word Vectorsが実験モデルの有効性を改善したことを示す (t検定、p値<0.05)。 • ほぼすべての動的単語ベクトルで、対応する静的単語ベクトルよりも優れた精度を達成。 16
  10. Experiments and Results Pre-trained Word Vectors の効果 Table3に示す結果の続き • ICD9とその変異型データセットでは、医療記事の集まりであるMedlineを使用して訓練された 単語ベクトルは、Wikipediaを使用して訓練された単語ベクトルよりも優れていました。ドメイ

    ン内の単語ベクトルが医学用語の意味をよりよく把握できることを示しています。一方、IMDB のデータセットでは、Wikipediaを使用して訓練された単語ベクトルは、Medlineを使用して訓 練された単語ベクトルよりも効果的でしたが、単語ベクトルが静的である場合のみでした。ダ イナミックワードベクタは、どのソースがビルドされているかにかかわらず、最終的にはより正 確な分類につながる。 • 埋め込みサイズを大きくしても必ずしも精度が向上するとは限りません。3つのデータセットす べてについて、ベクトルサイズを100に設定すると、ベクトルサイズが高くなるほど精度は高く なります。これは、より大きなベクトルに関連する計算負荷が必要でないことを意味する。 17
  11. Experiments and Results エラー分析 • ICD9データセットのすべての文書が正確に1つのラベルを有するわけではない。    978件の文書のうち212件(22%)は2つのターゲットラベルを持ち、14件は3つのラベルを 持つ。これらのマルチラベルの注釈は、人間の専門家でさえこれらのコーディングタスクのい くつかについて完全な合意を得ることができない。 •

    人間の専門家は、患者報告書上に存在する異なる症状に焦点を当て、異なる結 論に達することがある。    たとえば、両側性水腎腎症(591)と599.0(尿路感染症、部位指定なし)としてラベル  第2の専門家がそれを「591」(Hydronephrosis)  第3の専門家「591」、「599.0」、「780.6」(発熱やその他の温度調節の生理学的障害)    この場合、591が多数決であるが、2人の専門家がそれに同意しているので、「599.0」も妥 当な目標となる可能性がある。実験に基づき、ICD9の全体的な精度を約4%向上。 18
  12. Conclusion • 従来の分類方法との比較としてニューラルネットワークを用いた機械学習方法の 可能性を探った。 • 放射線学レポートのICD-9コーディングを使用した。 実験は、深さなどのCNNハイ パーパラメータのいくつかはデータセットまたはタスクに固有であり、チューニング されるべきであるが、結果を犠牲にすることなくパラメータ(例えば、学習レートま たはベクトルサイズ)のいくつかを予め設定できることを示した。

    • 結果により、動的単語埋め込みを使用することの価値を示した。 • 今回の最良の分類結果は、放射線レポートの自動コード化のSVMおよびロジス ティック回帰分類器と同等またはそれ以上の結果を達成した。 研究は、主に以下の2つの方向で継続 • 線形回帰分析を用いたハイパーパラメータ間の関係の定量化。 • 病院環境における患者遭遇のICD-10自動コード化のためのCNNおよびLSTMモデ ルの適用。 19