Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Context-Sensitive Spelling Correct...
Search
youichiro
August 22, 2017
Technology
0
190
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings
文献紹介(2017年8月22日)
長岡技術科学大学
自然言語処理研究室
youichiro
August 22, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
120
Multi-Agent Dual Learning
youichiro
1
190
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
140
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
160
勉強勉強会
youichiro
0
97
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
210
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
190
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
220
Other Decks in Technology
See All in Technology
AIが実装する時代、人間は仕様と検証を設計する
gotalab555
1
560
GitHub Copilot CLI を使いやすくしよう
tsubakimoto_s
0
110
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
770
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
610
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
1.3k
22nd ACRi Webinar - 1Finity Tamura-san's slide
nao_sumikawa
0
110
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
250
プロポーザルに込める段取り八分
shoheimitani
1
670
SchooでVue.js/Nuxtを技術選定している理由
yamanoku
3
210
会社紹介資料 / Sansan Company Profile
sansan33
PRO
15
400k
Featured
See All Featured
Practical Orchestrator
shlominoach
191
11k
How Software Deployment tools have changed in the past 20 years
geshan
0
32k
What does AI have to do with Human Rights?
axbom
PRO
0
2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Docker and Python
trallard
47
3.7k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Designing for Timeless Needs
cassininazir
0
130
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
760
The Mindset for Success: Future Career Progression
greggifford
PRO
0
240
Transcript
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and
Character N-Gram Embeddings Pieter Fivez, Simon Suster and Walter Daelemans Proceedings of the BioNLP 2017 workshop, pages 143–148. 文献紹介(2017/08/22) 自然言語処理研究室 小川 耀一朗 0
概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考 慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1
/ 9
目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l
10~15%がスペルミス[Patrick et al., 2010] →単純なスペル訂正よりも複雑 2 / 9
目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l
⽂脈情報を無視するとパフォーマンスに悪影響 [Flor, 2012] 分散表現を使って⽂脈の⼿がかりを訂正に利⽤ 3 / 9
候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出 [goint] → going(1), point(1), joint(1), groin(2) 編集距離:置換、挿⼊、削除、転置の操作を⾏う回数 発⾳情報:⼦⾳だけで発⾳を近似(goint→KNT) 4 / 9
候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトル とのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin
2つのコサイン類似度を計算 最も類似度の⾼い置換候補で訂正 スペルミスの⽂脈単語(9 window size) の合成ベクトルを作成 “new central line lower extremity bypass with sob now [goint] to be intubated” / 9
実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習
l fastText(Word2Vecの拡張)のskipgramモデルを使⽤ l MIMIC-lllコーパスから425M語を学習 Ø テストデータ l MIMIC-lllからスペルミス873事例を抽出・アノテート 6 / 9
実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et
al.: 従来⼿法 Context: 提案⼿法 Noisy Channel: 従来⼿法を再実装 off-the-shelf: 従来の単語辞書を⽤いて実験 with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加 / 9
実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度 数字:コサイン類似度 "new
central line lower extremity bypass with sob now [goint] to be intubated" / 9
まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となっ た l 既存のツールやNoisy Channel Modelよりも⾼い正解率
を⽰した 9 / 9