Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Unsupervised Context-Sensitive Spelling Correct...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
youichiro
August 22, 2017
Technology
0
190
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and Character N-Gram Embeddings
文献紹介(2017年8月22日)
長岡技術科学大学
自然言語処理研究室
youichiro
August 22, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
120
Multi-Agent Dual Learning
youichiro
1
190
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
140
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
160
勉強勉強会
youichiro
0
100
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
210
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
190
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
220
Other Decks in Technology
See All in Technology
Yahoo!ショッピングのレコメンデーション・システムにおけるML実践の一例
lycorptech_jp
PRO
1
200
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
8
7.2k
非情報系研究者へ送る Transformer入門
rishiyama
11
7.3k
AI時代のSaaSとETL
shoe116
1
130
実践 Datadog MCP Server
nulabinc
PRO
1
130
AIエージェント時代に備える AWS Organizations とアカウント設計
kossykinto
3
860
OCI Security サービス 概要
oracle4engineer
PRO
2
13k
わたしがセキュアにAWSを使えるわけないじゃん、ムリムリ!(※ムリじゃなかった!?)
cmusudakeisuke
1
680
8万デプロイ
iwamot
PRO
2
230
猫でもわかるKiro CLI(AI 駆動開発への道編)
kentapapa
0
160
20260311 技術SWG活動報告(デジタルアイデンティティ人材育成推進WG Ph2 活動報告会)
oidfj
0
310
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
4
1.2k
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Building the Perfect Custom Keyboard
takai
2
710
エンジニアに許された特別な時間の終わり
watany
106
240k
It's Worth the Effort
3n
188
29k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
140
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8k
Exploring anti-patterns in Rails
aemeredith
2
290
Six Lessons from altMBA
skipperchong
29
4.2k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
140
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
150
Transcript
Unsupervised Context-Sensitive Spelling Correction of Clinical Free-Text with Word and
Character N-Gram Embeddings Pieter Fivez, Simon Suster and Walter Daelemans Proceedings of the BioNLP 2017 workshop, pages 143–148. 文献紹介(2017/08/22) 自然言語処理研究室 小川 耀一朗 0
概要 l 臨床テキストのスペル訂正 l 分散表現(neural embeddings)を⽤いることで⽂脈を考 慮した訂正モデルを提案 l 既存のスペル訂正ツールよりも⼤幅に優れている 1
/ 9
目的 Ø 臨床テキスト l 医療現場における診察や治療に関する⽂章 l 専⾨⽤語が多い l 様々な略語、新しい名称が使われている l
10~15%がスペルミス[Patrick et al., 2010] →単純なスペル訂正よりも複雑 2 / 9
目的 Ø noisy channel model l 頻度情報(⾔語モデル)を⽤いて置換候補を選択 l ⽂脈情報を活⽤せず l
⽂脈情報を無視するとパフォーマンスに悪影響 [Flor, 2012] 分散表現を使って⽂脈の⼿がかりを訂正に利⽤ 3 / 9
候補生成 l スペルミスを正しい単語に置換するための候補を⽣成 • 編集距離(Damerau-Levenshtein edit distance)が2以下の単語 • 発⾳情報(Double Metaphone)の編集距離が1以下の単語
を単語辞書(UMLS®SPECIALIST lexicon and Jazzy)から抽出 [goint] → going(1), point(1), joint(1), groin(2) 編集距離:置換、挿⼊、削除、転置の操作を⾏う回数 発⾳情報:⼦⾳だけで発⾳を近似(goint→KNT) 4 / 9
候補のランク付け l スペルミスの⽂脈の合成ベクトルと各置換候補のベクトル とのコサイン類似度を計算しランク付け 5 各置換候補のベクトルを作成 going point joint groin
2つのコサイン類似度を計算 最も類似度の⾼い置換候補で訂正 スペルミスの⽂脈単語(9 window size) の合成ベクトルを作成 “new central line lower extremity bypass with sob now [goint] to be intubated” / 9
実験設定 Ø MIMIC-lll[Johnson et al., 2016] l 医療⽂章のデータベース Ø 分散表現の学習
l fastText(Word2Vecの拡張)のskipgramモデルを使⽤ l MIMIC-lllコーパスから425M語を学習 Ø テストデータ l MIMIC-lllからスペルミス873事例を抽出・アノテート 6 / 9
実験結果 7 Ø 既存の2つのツール、Noisy Channel Modelよりも⾼い正解率を⽰す HunSpell: 公開されているスペルチェッカー Lai et
al.: 従来⼿法 Context: 提案⼿法 Noisy Channel: 従来⼿法を再実装 off-the-shelf: 従来の単語辞書を⽤いて実験 with completed lexicon: ⾼度な医療の専⾨⽤語を単語辞書に追加 / 9
実験結果 l Noisy channelでは⾼頻度の”point”を選択してしまう l 本⼿法では⽂脈情報を活⽤することで正解の”going”を選択する 8 点の⼤きさ:コーパス中の頻度 数字:コサイン類似度 "new
central line lower extremity bypass with sob now [goint] to be intubated" / 9
まとめ l 臨床テキストのスペル訂正⼿法を提案 l 分散表現を⽤いて⽂脈情報を活⽤した訂正が可能となっ た l 既存のツールやNoisy Channel Modelよりも⾼い正解率
を⽰した 9 / 9