文献紹介：Automatic Diagnosis Coding of Radiology Reports: A Comparison of Deep Learning and Conventional Classification Methods

文献紹介 Automatic Diagnosis Coding of Radiology Reports: A Comparison of
Deep Learning and Conventional Cla ssification Methods Sarvnaz Karimi, Xiang Dai, Hamed Hassanzadeh, and Anthony Nguyen Data61, CSIRO, Sydney, Australia School of Information Technologies, University of Sydney, Sydney, Australia The Australian e-Health Research Centre, CSIRO, Brisbane, Australia Proceedings of the BioNLP 2017 workshop, pages 328–332, Vancouver, Canada, August 4, 2017. c 2017 Association for Computational Linguistics 長岡技術科学大学　自然言語処理研究室多田太郎 1

Abstruct • 国際疾病分類（ICD）を用いた放射線レポートの自動コード化における深層学習の適用性を調査。 • 訓練データがわずかで歪んで比較的小さく、その有効性が従来の方法とどのように比較される場合に、深層学習が使用できるか • 従来の方法に匹敵する結果を有する自動コード化のための畳み込みニューラルネットワークを設定するための最適なパラメータを特定
2

ICD? （文献外） ICD (International Classification of Diseases／国際疾病分類) 正式名称：疾病及び関連保健問題の国際統計分類（International Statistical
Classification of Diseases and Related Health Problems） WHO（世界保険機関）が作成する疾患の分類 • 傷害及び死因の統計を国際比較が目的（死因分類，疾病分類） • ICD-10：1990年に改訂された第10回改訂 (10年毎に改訂されており、ICD-9は第9回の改訂) 厚生労働省大臣官房統計情報部：ICDのABC（平成26年度版）より 3

ICD ? （文献外） ICD (International Classification of Diseases／国際疾病分類) 　　　　　　　　　　Fig.1 :
ICDの例厚生労働省大臣官房統計情報部：ICDのABC（平成26年度版）より 4

ICD ? （文献外） ICD (International Classification of Diseases／国際疾病分類) 　部位や疾患、合併症（伴う症状）　によってICDコードが異なる
厚生労働省大臣官房統計情報部：ICDのABC（平成26年度版）より 5

Introduction • 病院や診療所は、ICDコードの基準に従って、患者の医療記録から関連情報を抽出し、どの診断および手順がコーディング基準を満たしているかを選択　　　　例：足の複数の骨折はICD-10コード 'S92.7’ • 臨床コーディングは、医学用語、病気のプロセス、およびコーディング規則の詳細な知識、詳細への注意、分析技術を必要とする特殊なスキルです。人的ミスは過度に過小評価され、誤解を招く統計につながる。
• ディープ・ラーニングを使用したテキスト分類は、ドメインまたはアプリケーション固有のフィーチャ・エンジニアリングの負荷を軽減するという事が比較的最近のものです。よく設計された特徴を有するSVMのような従来の分類器は、長い間、異なる領域において高い性能を示してきました。深層学習により臨床テキストの分類をさらに改善できるかどうかを調査。 • 畳み込みニューラルネットワーク（CNN）などの最も一般的なニューラルアーキテクチャのどのような設定が、どのようにして放射線診断レポートのオートコーディングに適用できるかを調査。 6

Related Work • 2007年にPestianら（2007）は、ICD9コードで自動コード化される放射線診断レポートのデータセットを導入した共有されるタスクを編成した。このマルチラベル分類タスクは、ルールベース、意思決定木、エントロピー、SVM 分類子などの方法で問題に取り組んだ、Farkas and Szarvas（2008; Suominen et
al。、2008）のような長年にわたる大規模な研究を引きつけました。 • SVMを使用するテキスト分類は、state-of-the-artであることが長い間知られています。近年、ニューラルネットワークに基づく学習方法が、一般的なNLPおよびドメイン特有のアプリケーションにおいて研究されている。 • テキスト分類のために、2つの主要な方法がある： • （1）フィードフォワードニューラルネットワークのカテゴリからのCNN • （2）RNNアーキテクチャを備えたLSTM • また、テキスト中の単語の意味表現を獲得するための単語埋め込み（Le and Mikolov、2014）の使用は、テキストの従来の方法であるワンホット（ベクトル空間）モデルを置き換える様々なアプリケーションで調査されている表現。 • 近年、CNNを用いたテキスト分類がますます研究されている（Kalchbrenner et al。、2014; Kim、2014; Rios and Ka vuluru、2015）。例えば、RiosとKavuluru（2015）は、索引付けのために生物医学用品を分類するためにCNNを適用し、Kavuluru et al。（2016）自殺ウォッチフォーラム。 7

Method Kim（2014）が提案したアーキテクチャでCNNを構築 • 複数のフィルタとフィルタサイズを使用する1つの畳み込みレイヤー、それに続くラベルを割り当てる最大プールと完全接続レイヤーで構成される。 • このモデルは、非常に深いネットワークやより複雑なアーキテクチャを使用せずに、このアルゴリズムのセットを使用して達成可能なものの基礎を設定する。 YoonKim：ConvolutionalNeuralNetworksforSentenceClassification（2014）より •
ネットワークへの入力テキストは、2つの異なる設定を使用して表される。 • （1）文書内のすべての単語を表すランダムベクトルの行列。 • （2）単語埋め込み。 8

Method 静的埋め込みと動的埋め込みでの実験を行った。 • 静的設定では、埋め込みベクタ値は作成されたコレクションに基づいて事前に固定、動的埋め込みはトレーニング中に値を変更。 • CNNハイパーパラメータの影響の定量化が1つの目標。ハイパーパラメータのチューニングは、従来の機械学習タスクのフィーチャ・エンジニアリングと同等と見なすことができる。Table 1 （最初の2つの列）のCNNに設定される主要なハイパーパラメータのいくつかを挙げ、これら
のチューニングに焦点を当て、異なるデータセットの違いを調査。 9

Datasets テキスト分類のため、以下データセットの共通特性およびドメイン特有の特性を見つけるため、ドメイン内外の2つの異なるデータセットについて実験 • 放射線診断レポートのデータセットICD9 2007年にComputational Medicine Centerによって公開された公開チャレンジデータセット（Pestian et
al：2007） 978個の匿名化された放射線医学レポートとそれに対応するICD-9-CMコードのセットである臨床フリーテキストで構成 • 感情分析データセットIMDB IMDBムービーレビューデータセットは、Maasらによって提供された感情分析データセット（20 11年）。IMDBから100,000のムービーレビューを含んでいます。 10

Experimental Setup このタスクは、マルチラベルの分類問題として扱われる。実装　：　Tensorflow　および　Scikit-learn ワードembedding　：　Word2Vec（Mikolov et al：2013）　 SVMおよび他の従来手法　：　Wang and Manning（2012）と同様の正規化tf-idf
評価 • ICD9およびrICD9についての評価のために、層別10倍交差検定を使用。 • マクロ平均化によって分類精度、精度、リコール、およびF-スコアを測定。 • 階層化されたクロスバリデーションは、各トレーニングおよび検証の折り目にラベルの分布を可能な限り一致させるために使用。 • IMDBデータセットは、その提供者によってトレーニングデータとテストデータに分けられている。すべてのデータセットについて、実験を50回ずつ実行し、報告された結果を繰り返し実験し平均化する。 11

Experimental Setup ハイパーパラメータ • 調整ハイパーパラメータの値を徐々に変化させるグリッド探索法により、異なる高次パラメータを分類精度に与える効果を調べる。 • Table 1に示すデフォルト設定をベースラインする。また、第3欄に記載されている広い範囲に従って、一度に1つのパラメータを変更し、結果を分析し最適な超過パラメータ値を求める。
最適なパラメータ値に基づいて、すべての実験を反復して影響を測定する。 12

Experiments and Results CNN対従来のクラシファイア • 分類精度は、異なるハイパーパラメータの値を変化させて計算した。最良の結果に基づいて、第5～7列に記載されているように、各ハイパーパラメータの最適値を選択した。 13

Experiments and Results 14 CNN対従来のクラシファイア • 3つの従来の分類器の比較するデフォルト値、ICD9データセット上の正確に最適化された値を有するCNNの結果を示す。2組のアルゴリズムは、最小のフィーチャエンジニアリングまたはパラメータ調整で同様のベースラインを達成できる。

Experiments and Results Pre-trained Word Vectors の効果 • 事前に訓練された単語ベクトルは、データセット内の単語の意味に関する事前知識と考えることができる。すなわち、ランダムな値の代わりに、埋め込み層を単語埋め込みから得られた
値に初期化することができる。単語埋め込みを使用することで、コーディングタスクの分類精度が向上するかどうかを調査。 • 様々なベクトルサイズのWikipediaとMedlineの両方を使用して、異なる単語ベクトルを作成。これらの事前に訓練された埋め込みとランダム埋め込みの精度を比較。 15

Experiments and Results Pre-trained Word Vectors の効果 Table3に示す結果 • 事前に訓練された単語ベクトルは分類精度を向上させる：3つのデータセットすべてで達成さ
れる最良の精度は、 Pre-trained Word Vectorsが実験モデルの有効性を改善したことを示す（t検定、p値<0.05）。 • ほぼすべての動的単語ベクトルで、対応する静的単語ベクトルよりも優れた精度を達成。 16

Experiments and Results Pre-trained Word Vectors の効果　Table3に示す結果の続き • ICD9とその変異型データセットでは、医療記事の集まりであるMedlineを使用して訓練された単語ベクトルは、Wikipediaを使用して訓練された単語ベクトルよりも優れていました。ドメイ
ン内の単語ベクトルが医学用語の意味をよりよく把握できることを示しています。一方、IMDB のデータセットでは、Wikipediaを使用して訓練された単語ベクトルは、Medlineを使用して訓練された単語ベクトルよりも効果的でしたが、単語ベクトルが静的である場合のみでした。ダイナミックワードベクタは、どのソースがビルドされているかにかかわらず、最終的にはより正確な分類につながる。 • 埋め込みサイズを大きくしても必ずしも精度が向上するとは限りません。3つのデータセットすべてについて、ベクトルサイズを100に設定すると、ベクトルサイズが高くなるほど精度は高くなります。これは、より大きなベクトルに関連する計算負荷が必要でないことを意味する。 17

Experiments and Results エラー分析 • ICD9データセットのすべての文書が正確に1つのラベルを有するわけではない。　　　978件の文書のうち212件（22％）は2つのターゲットラベルを持ち、14件は3つのラベルを持つ。これらのマルチラベルの注釈は、人間の専門家でさえこれらのコーディングタスクのいくつかについて完全な合意を得ることができない。 •
人間の専門家は、患者報告書上に存在する異なる症状に焦点を当て、異なる結論に達することがある。　　　たとえば、両側性水腎腎症（591）と599.0（尿路感染症、部位指定なし）としてラベル　第2の専門家がそれを「591」（Hydronephrosis）　第3の専門家「591」、「599.0」、「780.6」（発熱やその他の温度調節の生理学的障害）　　　この場合、591が多数決であるが、2人の専門家がそれに同意しているので、「599.0」も妥当な目標となる可能性がある。実験に基づき、ICD9の全体的な精度を約4％向上。 18

Conclusion • 従来の分類方法との比較としてニューラルネットワークを用いた機械学習方法の可能性を探った。 • 放射線学レポートのICD-9コーディングを使用した。実験は、深さなどのCNNハイパーパラメータのいくつかはデータセットまたはタスクに固有であり、チューニングされるべきであるが、結果を犠牲にすることなくパラメータ（例えば、学習レートまたはベクトルサイズ）のいくつかを予め設定できることを示した。
• 結果により、動的単語埋め込みを使用することの価値を示した。 • 今回の最良の分類結果は、放射線レポートの自動コード化のSVMおよびロジスティック回帰分類器と同等またはそれ以上の結果を達成した。研究は、主に以下の2つの方向で継続 • 線形回帰分析を用いたハイパーパラメータ間の関係の定量化。 • 病院環境における患者遭遇のICD-10自動コード化のためのCNNおよびLSTMモデルの適用。 19

文献紹介：Automatic Diagnosis Coding of Radiology Re...

文献紹介：Automatic Diagnosis Coding of Radiology Reports: A Comparison of Deep Learning and Conventional Classification Methods

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

文献紹介 Automatic Diagnosis Coding of Radiology Reports: A Comparison of

ICD? （文献外） ICD (International Classification of Diseases／国際疾病分類) 正式名称：疾病及び関連保健問題の国際統計分類（International Statistical

ICD ? （文献外） ICD (International Classification of Diseases／国際疾病分類) 　　　　　　　　　　Fig.1 :

ICD ? （文献外） ICD (International Classification of Diseases／国際疾病分類) 　部位や疾患、合併症（伴う症状）　によってICDコードが異なる

Experiments and Results Pre-trained Word Vectors の効果 Table3に示す結果 • 事前に訓練された単語ベクトルは分類精度を向上させる：3つのデータセットすべてで達成さ