Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings

Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and
Character N-Gram Embeddings Pieter Fivez, Simon Suster and Walter Daelemans Proceedings of the BioNLP 2017 workshop, pages 143–148. 文献紹介（2017/08/22）自然言語処理研究室小川耀一朗 0

概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1
/ 9

目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l
10~15%がスペルミス[Patrick et al., 2010] →単純なスペル訂正よりも複雑 2 / 9

目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l
⽂脈情報を無視するとパフォーマンスに悪影響 [Flor, 2012] 分散表現を使って⽂脈の⼿がかりを訂正に利⽤ 3 / 9

候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出 [goint] → going(1), point(1), joint(1), groin(2) 編集距離：置換、挿⼊、削除、転置の操作を⾏う回数発⾳情報：⼦⾳だけで発⾳を近似(goint→KNT) 4 / 9

候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトルとのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin
2つのコサイン類似度を計算最も類似度の⾼い置換候補で訂正スペルミスの⽂脈単語(9 window size) の合成ベクトルを作成 “new central line lower extremity bypass with sob now [goint] to be intubated” / 9

実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習
l fastText(Word2Vecの拡張)のskipgramモデルを使⽤ l MIMIC-lllコーパスから425M語を学習 Ø テストデータ l MIMIC-lllからスペルミス873事例を抽出・アノテート 6 / 9

実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et
al.: 従来⼿法 Context: 提案⼿法 Noisy Channel: 従来⼿法を再実装 off-the-shelf: 従来の単語辞書を⽤いて実験 with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加 / 9

実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度数字:コサイン類似度 "new
central line lower extremity bypass with sob now [goint] to be intubated" / 9

まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となった l 既存のツールやNoisy Channel Modelよりも⾼い正解率
を⽰した 9 / 9

Unsupervised Context-Sensitive Spelling Correct...

Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings

youichiro

More Decks by youichiro

Other Decks in Technology

Featured

Transcript

Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and

概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1

目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l

目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l

候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語

候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトルとのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin

実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習

実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et

実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度数字:コサイン類似度 "new

まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となった l 既存のツールやNoisy Channel Modelよりも⾼い正解率