文献紹介 _2018_05_22_ A Machine Learning Approach to Clinical Terms Normalization

文献紹介 : 2018 / 05 / 22 A Machine Learning
Approach to Clinical Terms Normalization José Castaño, Hernán Berinsky, Hee Park, David Pérez, Pilar Ávila, Laura Gambarte, Sonia Benı́tez, Daniel Luna, Fernando Campos and Sofı́a Zanetti Proceedings of the 15th Workshop on Biomedical Natural Language Processing, pages 1–11, 2016 Association for Computational Linguistics 長岡技術科学大学自然言語処理研究室多田　太郎

Abstract • 臨床用語解説の意味認識と正規化のための機械学習手法を提案説明は短いテキストであり、同義語、頭字語、略語などを含む • 記述用語を正規化された記述にマッピングすることは専門知識が必要ルールベース手法を開発することは困難 • 訓練データセット構築のため、専門用語辞典によって病院のシソーラスデータベースに照合した説明を使用
個体・共同特性を含む記述のペアに基づき、特徴ベクトルを生成 • 同義語、略語、頭字語、ミスタイプを含む用語等価クラスを発見するための教師なし学習アプローチを提案 2

Introduction • 電子健康記録(EHR)の実装では、表現力と柔軟性を可能にする臨床情報のためにフリーテキストでの説明を導入している。専門家によって書かれた自由記述のテキストは、タイプミスを含んでいる • 概念への文字列のマッピングは BioNLP の長年にわたる問題文字列類似性技術と機械学習アプローチが適用されている
• 臨床情報を抽出するために、重要な概念を臨床ノート内のテキストから参照用語に自動的にマッピングすることは重要な課題生物医学でのデータ統合の問題の 1つは表記ゆれ 3

Introduction • MaxEnt と XGBoost 分類器を使用した機械学習アプローチにおいて、従来の soft string matching法と n-gram
の文字と単語の特徴を調査。 • 分類性能を向上させるための、同義語、略語、タイプミスを検出することによって新機能を生成する教師なし学習アプローチ • モデルは、文字 n グラムと TF-IDF 重み付け方式に基づくベクトル空間モデル構成によって得られたベースラインと比較、Apache Lucene で実装 4

Description Terms Data-set • 同義語カバレッジを含む Italiano de Buenos Aires病院（HIBA）のインタフェース用語（ Lopez
Osornio et al。、2007; Gambarte et al。、2007）の問題リストに基づいてデータセットを構築 • 特定のコンセプトのために 10項以上100以下の臨床概念を選択。 • 151,513項と5,222個の概念で構成し、記述セット（D）をトレーニングセット（ T）70％と評価テストセット（ E） 30％ 5

Description Terms Data-set Tの記述は、（d 1、d 2、value）の形式の記述サンプルの対からなる新しいデータセット T 1を構築するために使用された。陽性および陰性試料は以下の方法で構築
d iとd jが同じ概念に関連付けられるような記述対　 d i、d j∈T　について、サンプル（ d i、d j、1）を作成。同じ概念（d、d i、1）を記述するサンプルとして既に格納されている記述。訓練データセット（T 1）は、777,585の負のサンプルおよび 396,032の正のサンプル、合計 1,173,617のインスタンス。 6

Methods for Computing Term Normalization n-gram文字ベクトル空間モデルに加えて、他の文字ベースおよびトークンベースの類似性メトリックに基づく hybrid soft-TFIDF手法を検討。意味情報を捕捉することを可能にする、教師付き機械学習手法を提案する。 •
Information retrieval and TF-IDF • String similarity metrics • A machine learning approach to string matching • Features • Unsupervised Learning of Synonyms, Abbreviations and Typos 7

Information retrieval and TF-IDF Soft-TFIDF アプローチ(Cohen et al. : 2003)を使用
病院のシソーラスデータベースに既に存在する用語に新しい記述を一致させる。シソーラス内の既知の用語の集合を Lucene で索引付け。用語の集合は、文字 n-gramsに基づく TF-IDF 重みを使用してベクトル空間モデル (VSM)で表す。新しい記述がクエリとして使用され、対応するスコアを有するランク付けされた記述項のセットが検索される。ランク付けされた記述であり、クエリを関連付ける候補用語である。コサイン類似度測度を用いて類似性スコアを得る。 8

String similarity metrics Damerau-Levenshtein 比、最長共通サブシーケンス、Sorensen-Dice、Jaro-Winkler および Jaccard 係数メトリック間のペアワイズ相関を示します。
Jaccard と Sorensen-Dice の相関性が高いため、 Damerau-Levenshtein と Longest Common Subsequence を使用して、機械学習アプローチを使用した分類モデルに適合するように選択する。このアプローチの限界は、 false positive と false negativeの両方の場合に存在。 9

A machine learning approach to string matching 略語、略語、類義語、およびタイプミスは、同義語を生成するバリエーションの原因以下の対の記述項は非常に似ているが、異なる意味を持つ非同義語の対。
分類アルゴリズムの学習のための特徴的なデータセットを作成。ハイパーパラメータは、5 倍交差検定を使用して調整した。 10

Features 特徴セット S1 は、記述項の対の間の文字列特性の相違を得るための文字列メトリック。 S2、S3、S4、S5の特徴は、TF-IDF、バイナリオカレンスおよびターム頻度ウェイトを用いた Uni-gram word および Bi-gram
word 表現に基づく d 1 および d 2 のベクトル空間モデルにおける表現。 S 6 と S 7 では、記述の相違(d12 と d 21)を考慮し、S 9、S 10 は文脈(c)も考慮。 11

Unsupervised Learning of Synonyms, Abbreviations and Typos 意味的に等価な文字列の集合を生成する意味的に等価な対は、記述の対の間の単語の相違を用いて推論することができる。
ベクトル空間モデルで用語の代わりに概念クラスラベルをフィーチャとして使用することで、同義語の問題に対処できる。意味的に等価な対は、より大きな集合（意味的等価クラス）に拡張することができ、無向グラフを構築し、項を頂点として、等価な対をエッジとして考慮する。グラフ内の接続された構成要素を検出することができ、場合によっては用語をクラスター化することができる。 12

Experiments and Results ハイパーパラメータCは、F1測定値を考慮して5倍交差検定により決定。（S1、S9、S10）を組み合わせることにより、高い F1スコアを達成 13

Conclusions 生物医学用語正規化へのハイブリッド Soft-TFIDF および機械学習アプローチを提示。 F1 スコアが良好であり、ランクも平均結果を示している。記述とその文脈の相違に基づく新しい特徴の作成は、機械学習モデルが構文的類似性が低い意味的に同等の記述の対の検出を改善し、学習によって高い構文的類似性を有する非意味的に等価なものを破棄することが可能。
結果として、false negative および false positive が減少した。説明の自動コーディングや一般的な参照解決など、さまざまな問題で使用でき、略語 /略語、エイリアスと同義語リスト、スペルチェッカーのような追加のリソースを必要とせず。多言語でも利が可能。このアプローチでは、検索エンジンによって検索されなかった結果は考慮されない。 14

文献紹介 _2018_05_22_ A Machine Learning Approach t...

文献紹介 _2018_05_22_ A Machine Learning Approach to Clinical Terms Normalization

T.Tada

More Decks by T.Tada

Featured

Transcript

文献紹介 : 2018 / 05 / 22 A Machine Learning

Introduction • MaxEnt と XGBoost 分類器を使用した機械学習アプローチにおいて、従来の soft string matching法と n-gram

Description Terms Data-set • 同義語カバレッジを含む Italiano de Buenos Aires病院（HIBA）のインタフェース用語（ Lopez

Description Terms Data-set Tの記述は、（d 1、d 2、value）の形式の記述サンプルの対からなる新しいデータセット T 1を構築するために使用された。陽性および陰性試料は以下の方法で構築

Information retrieval and TF-IDF Soft-TFIDF アプローチ(Cohen et al. : 2003)を使用

String similarity metrics Damerau-Levenshtein 比、最長共通サブシーケンス、Sorensen-Dice、Jaro-Winkler および Jaccard 係数メトリック間のペアワイズ相関を示します。

A machine learning approach to string matching 略語、略語、類義語、およびタイプミスは、同義語を生成するバリエーションの原因以下の対の記述項は非常に似ているが、異なる意味を持つ非同義語の対。

Features 特徴セット S1 は、記述項の対の間の文字列特性の相違を得るための文字列メトリック。 S2、S3、S4、S5の特徴は、TF-IDF、バイナリオカレンスおよびターム頻度ウェイトを用いた Uni-gram word および Bi-gram

Unsupervised Learning of Synonyms, Abbreviations and Typos 意味的に等価な文字列の集合を生成する意味的に等価な対は、記述の対の間の単語の相違を用いて推論することができる。

Experiments and Results ハイパーパラメータCは、F1測定値を考慮して5倍交差検定により決定。（S1、S9、S10）を組み合わせることにより、高い F1スコアを達成 13