Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings
Search
youichiro
August 22, 2017
Technology
0
160
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings
文献紹介(2017年8月22日)
長岡技術科学大学
自然言語処理研究室
youichiro
August 22, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.3k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
61
Multi-Agent Dual Learning
youichiro
1
120
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
91
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
110
勉強勉強会
youichiro
0
63
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
150
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
110
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
150
Other Decks in Technology
See All in Technology
疲弊しない!AWSセキュリティ統制の考え方 #devio_osakaday1
masahirokawahara
6
5.9k
マルチアカウント環境への発見的統制の導入
ch1aki
1
1.3k
GraphQL 成熟度モデルの紹介と、プロダクトに当てはめた事例 / GraphQL maturity model
mh4gf
4
120
Terraformあれやこれ/terraform-this-and-that
emiki
6
490
Aurora MySQL v3(MySQL8.0互換)の オンラインDDLの罠挙動を全バージョンで検証した
yutakikai
1
150
Janus
bkuhlmann
1
490
SREとその組織類型
tatsuo48
8
1.5k
〜小さく始めて大きく育てる〜データ分析基盤の開発から活用まで
kniino
0
2k
自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation
biwashi
9
2.1k
Discord とビルダー&チャットボットの使い方 / How to use Discord and Builder & Chatbots
ks91
PRO
0
130
強みを伸ばすキャリアデザイン
yug1224
0
200
小さな開発会社がWebサービスを作る理由
polidog
PRO
1
160
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
455
32k
Typedesign – Prime Four
hannesfritz
36
2.1k
Build The Right Thing And Hit Your Dates
maggiecrowley
23
2k
Why You Should Never Use an ORM
jnunemaker
PRO
50
8.6k
WebSockets: Embracing the real-time Web
robhawkes
59
7k
Web development in the modern age
philhawksworth
202
10k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
6
990
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
220
21k
The Cult of Friendly URLs
andyhume
74
5.7k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
Designing for Performance
lara
601
67k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
6.9k
Transcript
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and
Character N-Gram Embeddings Pieter Fivez, Simon Suster and Walter Daelemans Proceedings of the BioNLP 2017 workshop, pages 143–148. 文献紹介(2017/08/22) 自然言語処理研究室 小川 耀一朗 0
概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考 慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1
/ 9
目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l
10~15%がスペルミス[Patrick et al., 2010] →単純なスペル訂正よりも複雑 2 / 9
目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l
⽂脈情報を無視するとパフォーマンスに悪影響 [Flor, 2012] 分散表現を使って⽂脈の⼿がかりを訂正に利⽤ 3 / 9
候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出 [goint] → going(1), point(1), joint(1), groin(2) 編集距離:置換、挿⼊、削除、転置の操作を⾏う回数 発⾳情報:⼦⾳だけで発⾳を近似(goint→KNT) 4 / 9
候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトル とのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin
2つのコサイン類似度を計算 最も類似度の⾼い置換候補で訂正 スペルミスの⽂脈単語(9 window size) の合成ベクトルを作成 “new central line lower extremity bypass with sob now [goint] to be intubated” / 9
実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習
l fastText(Word2Vecの拡張)のskipgramモデルを使⽤ l MIMIC-lllコーパスから425M語を学習 Ø テストデータ l MIMIC-lllからスペルミス873事例を抽出・アノテート 6 / 9
実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et
al.: 従来⼿法 Context: 提案⼿法 Noisy Channel: 従来⼿法を再実装 off-the-shelf: 従来の単語辞書を⽤いて実験 with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加 / 9
実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度 数字:コサイン類似度 "new
central line lower extremity bypass with sob now [goint] to be intubated" / 9
まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となっ た l 既存のツールやNoisy Channel Modelよりも⾼い正解率
を⽰した 9 / 9