Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Context-Sensitive Spelling Correct...
Search
youichiro
August 22, 2017
Technology
0
180
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings
文献紹介(2017年8月22日)
長岡技術科学大学
自然言語処理研究室
youichiro
August 22, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.5k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
84
Multi-Agent Dual Learning
youichiro
1
160
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
110
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
120
勉強勉強会
youichiro
0
82
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
180
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
150
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
190
Other Decks in Technology
See All in Technology
2025-04-14 Data & Analytics 井戸端会議 Multi tenant log platform with Iceberg
kamijin_fanta
0
100
Mastraに入門してみた ~AWS CDKを添えて~
tsukuboshi
0
340
10ヶ月かけてstyled-components v4からv5にアップデートした話
uhyo
5
340
Aspire をカスタマイズしよう & Aspire 9.2
nenonaninu
0
190
生成AIのユースケースをとにかく集めてまるっと学ぶ!/ all about generative ai usecases
gakumura
2
280
エンジニアリングで組織のアウトカムを最速で最大化する!
ham0215
1
220
更新系と状態
uhyo
8
1.9k
PagerDuty×ポストモーテムで築く障害対応文化/Building a culture of incident response with PagerDuty and postmortems
aeonpeople
3
450
品質文化を支える小さいクロスファンクショナルなチーム / Cross-functional teams fostering quality culture
toma_sm
0
150
ここはMCPの夜明けまえ
nwiizo
32
12k
Cursor AgentによるパーソナルAIアシスタント育成入門―業務のプロンプト化・MCPの活用
os1ma
15
5.9k
ブラウザのレガシー・独自機能を愛でる-Firefoxの脆弱性4選- / Browser Crash Club #1
masatokinugawa
1
530
Featured
See All Featured
Side Projects
sachag
453
42k
Code Review Best Practice
trishagee
67
18k
Done Done
chrislema
184
16k
How to train your dragon (web standard)
notwaldorf
90
6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
41
2.3k
Building a Modern Day E-commerce SEO Strategy
aleyda
40
7.2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2k
Build The Right Thing And Hit Your Dates
maggiecrowley
35
2.7k
Facilitating Awesome Meetings
lara
54
6.3k
Designing for Performance
lara
608
69k
BBQ
matthewcrist
88
9.6k
Documentation Writing (for coders)
carmenintech
69
4.7k
Transcript
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and
Character N-Gram Embeddings Pieter Fivez, Simon Suster and Walter Daelemans Proceedings of the BioNLP 2017 workshop, pages 143–148. 文献紹介(2017/08/22) 自然言語処理研究室 小川 耀一朗 0
概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考 慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1
/ 9
目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l
10~15%がスペルミス[Patrick et al., 2010] →単純なスペル訂正よりも複雑 2 / 9
目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l
⽂脈情報を無視するとパフォーマンスに悪影響 [Flor, 2012] 分散表現を使って⽂脈の⼿がかりを訂正に利⽤ 3 / 9
候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出 [goint] → going(1), point(1), joint(1), groin(2) 編集距離:置換、挿⼊、削除、転置の操作を⾏う回数 発⾳情報:⼦⾳だけで発⾳を近似(goint→KNT) 4 / 9
候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトル とのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin
2つのコサイン類似度を計算 最も類似度の⾼い置換候補で訂正 スペルミスの⽂脈単語(9 window size) の合成ベクトルを作成 “new central line lower extremity bypass with sob now [goint] to be intubated” / 9
実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習
l fastText(Word2Vecの拡張)のskipgramモデルを使⽤ l MIMIC-lllコーパスから425M語を学習 Ø テストデータ l MIMIC-lllからスペルミス873事例を抽出・アノテート 6 / 9
実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et
al.: 従来⼿法 Context: 提案⼿法 Noisy Channel: 従来⼿法を再実装 off-the-shelf: 従来の単語辞書を⽤いて実験 with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加 / 9
実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度 数字:コサイン類似度 "new
central line lower extremity bypass with sob now [goint] to be intubated" / 9
まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となっ た l 既存のツールやNoisy Channel Modelよりも⾼い正解率
を⽰した 9 / 9