Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings

youichiro
August 22, 2017

Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings

文献紹介(2017年8月22日)
長岡技術科学大学
自然言語処理研究室

youichiro

August 22, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. Unsupervised Context-Sensitive Spelling
    Correction of Clinical Free-Text with
    Word and Character N-Gram Embeddings
    Pieter Fivez, Simon Suster and Walter Daelemans
    Proceedings of the BioNLP 2017 workshop, pages 143–148.
    文献紹介(2017/08/22)
    自然言語処理研究室 小川 耀一朗
    0

    View Slide

  2. 概要
    l 臨床テキストのスペル訂正
    l 分散表現(neural embeddings)を⽤いることで⽂脈を考
    慮した訂正モデルを提案
    l 既存のスペル訂正ツールよりも⼤幅に優れている
    1 / 9

    View Slide

  3. 目的
    Ø 臨床テキスト
    l 医療現場における診察や治療に関する⽂章
    l 専⾨⽤語が多い
    l 様々な略語、新しい名称が使われている
    l 10~15%がスペルミス[Patrick et al., 2010]
    →単純なスペル訂正よりも複雑
    2 / 9

    View Slide

  4. 目的
    Ø noisy channel model
    l 頻度情報(⾔語モデル)を⽤いて置換候補を選択
    l ⽂脈情報を活⽤せず
    l ⽂脈情報を無視するとパフォーマンスに悪影響
    [Flor, 2012]
    分散表現を使って⽂脈の⼿がかりを訂正に利⽤
    3 / 9

    View Slide

  5. 候補生成
    l スペルミスを正しい単語に置換するための候補を⽣成
    • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語
    • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
    を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出
    [goint] → going(1), point(1), joint(1), groin(2)
    編集距離:置換、挿⼊、削除、転置の操作を⾏う回数
    発⾳情報:⼦⾳だけで発⾳を近似(goint→KNT)
    4 / 9

    View Slide

  6. 候補のランク付け
    l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトル
    とのコサイン類似度を計算しランク付け
    5
    各置換候補のベクトルを作成
    going
    point
    joint
    groin
    2つのコサイン類似度を計算
    最も類似度の⾼い置換候補で訂正
    スペルミスの⽂脈単語(9 window size)
    の合成ベクトルを作成
    “new central line lower extremity bypass with sob now [goint] to be intubated”
    / 9

    View Slide

  7. 実験設定
    Ø MIMIC-lll[Johnson et al., 2016]
    l 医療⽂章のデータベース
    Ø 分散表現の学習
    l fastText(Word2Vecの拡張)のskipgramモデルを使⽤
    l MIMIC-lllコーパスから425M語を学習
    Ø テストデータ
    l MIMIC-lllからスペルミス873事例を抽出・アノテート
    6 / 9

    View Slide

  8. 実験結果
    7
    Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す
    HunSpell: 公開されているスペルチェッカー
    Lai et al.: 従来⼿法
    Context: 提案⼿法
    Noisy Channel: 従来⼿法を再実装
    off-the-shelf: 従来の単語辞書を⽤いて実験
    with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加
    / 9

    View Slide

  9. 実験結果
    l Noisy channelでは⾼頻度の”point”を選択してしまう
    l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する
    8
    点の⼤きさ:コーパス中の頻度
    数字:コサイン類似度
    "new central line lower extremity
    bypass with sob now [goint]
    to be intubated"
    / 9

    View Slide

  10. まとめ
    l 臨床テキストのスペル訂正⼿法を提案
    l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となっ

    l 既存のツールやNoisy Channel Modelよりも⾼い正解率
    を⽰した
    9 / 9

    View Slide