Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介 _2018_05_22_ A Machine Learning Approach to Clinical Terms Normalization

T.Tada
May 22, 2018
59

文献紹介 _2018_05_22_ A Machine Learning Approach to Clinical Terms Normalization

T.Tada

May 22, 2018
Tweet

More Decks by T.Tada

Transcript

  1. 文献紹介 : 2018 / 05 / 22 A Machine Learning

    Approach to Clinical Terms Normalization José Castaño, Hernán Berinsky, Hee Park, David Pérez, Pilar Ávila, Laura Gambarte, Sonia Benı́tez, Daniel Luna, Fernando Campos and Sofı́a Zanetti Proceedings of the 15th Workshop on Biomedical Natural Language Processing, pages 1–11, 2016 Association for Computational Linguistics 長岡技術科学大学 自然言語処理研究室 多田 太郎
  2. Introduction • MaxEnt と XGBoost 分類器を使用した機械学習アプローチにおいて、従来の soft string matching法と n-gram

    の文字と単語の特徴を調査。 • 分類性能を向上させるための、同義語、略語、タイプミスを検出することによって新機能を生成する教師 なし学習アプローチ • モデルは、文字 n グラムと TF-IDF 重み付け方式に基づくベクトル空間モデル構成によって得られたベー スラインと比較、Apache Lucene で実装 4
  3. Description Terms Data-set • 同義語カバレッジを含む Italiano de Buenos Aires病院(HIBA)のインタフェース用語( Lopez

    Osornio et al。、2007; Gambarte et al。、2007)の問題リストに基づいてデータセットを構築 • 特定のコンセプトのために 10項以上100以下の臨床概念を選択。 • 151,513項と5,222個の概念で構成し、 記述セット(D)をトレーニングセット( T)70%と評価テストセット( E) 30% 5
  4. Description Terms Data-set Tの記述は、(d 1、d 2、value)の形式の記述サンプルの対からなる新しいデータセット T 1を構築するために使 用された。 陽性および陰性試料は以下の方法で構築

    d iとd jが同じ概念に関連付けられるような記述対  d i、d j∈T について、サンプル( d i、d j、1)を作成。 同じ概念(d、d i、1)を記述するサンプルとして既に格納されている記述。 訓練データセット(T 1)は、777,585の負のサンプルおよび 396,032の正のサンプル、合計 1,173,617のインスタ ンス。 6
  5. Information retrieval and TF-IDF Soft-TFIDF アプローチ(Cohen et al. : 2003)を使用

    病院のシソーラスデータベースに既に存在する用語に新しい記述を一致させる。 シソーラス内の既知の用語の集合を Lucene で索引付け。 用語の集合は、文字 n-gramsに基づく TF-IDF 重みを使用してベクトル空間モデル (VSM)で表す。 新しい記述がクエリとして使用され、対応するスコアを有するランク付けされた記述項のセットが検索される。ラ ンク付けされた記述であり、クエリを関連付ける候補用語である。 コサイン類似度測度を用いて類似性スコアを 得る。 8
  6. String similarity metrics Damerau-Levenshtein 比、最長共通サブシーケン ス、Sorensen-Dice、Jaro-Winkler および Jaccard 係 数メトリック間のペアワイズ相関を示します。

    Jaccard と Sorensen-Dice の相関性が高いため、 Damerau-Levenshtein と Longest Common Subsequence を使用して、機械学習アプローチを使 用した分類モデルに適合するように選択する。 このアプローチの限界は、 false positive と false negativeの両方の場合に存在。 9
  7. Features 特徴セット S1 は、記述項の対の間の文字列特性の相違を得るための文字列メトリック。 S2、S3、S4、S5の特徴は、TF-IDF、バイナリオカレンスおよびターム頻度ウェイト を用いた Uni-gram word および Bi-gram

    word 表現に基づく d 1 および d 2 のベ クトル空間モデルにおける表現。 S 6 と S 7 では、記述の相違(d12 と d 21)を考慮し、S 9、S 10 は文脈(c)も考慮。 11
  8. Unsupervised Learning of Synonyms, Abbreviations and Typos 意味的に等価な文字列の集合を生成する 意味的に等価な対は、記述の対の間の単語の相違を用いて推論するこ とができる。

    ベクトル空間モデルで用語の代わりに概念クラスラベルをフィーチャとし て使用することで、同義語の問題に対処できる。 意味的に等価な対は、より大きな集合(意味的等価クラス)に拡張するこ とができ、無向グラフを構築し、項を頂点として、等価な対をエッジとして 考慮する。グラフ内の接続された構成要素を検出することができ、場合に よっては用語をクラスター化することができる。 12
  9. Conclusions 生物医学用語正規化へのハイブリッド Soft-TFIDF および機械学習アプローチを提示。 F1 スコアが良好であ り、ランクも平均結果を示している。 記述とその文脈の相違に基づく新しい特徴の作成は、機械学習モデルが構文的類似性が低い意味的に同等 の記述の対の検出を改善し、学習によって高い構文的類似性を有する非意味的に等価なものを破棄すること が可能。

    結果として、false negative および false positive が減少した。 説明の自動コーディングや一般的な参照解決など、さまざまな問題で使用でき、略語 /略語、エイリアスと同義 語リスト、スペルチェッカーのような追加のリソースを必要とせず。多言語でも利が可能。 このアプローチでは、検索エンジンによって検索されなかった結果は考慮されない。 14