Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_1_日本語形態素解析における未知語処理の一手法
Search
MIKAMI-YUKI
April 15, 2015
Education
0
410
文献紹介_1_日本語形態素解析における未知語処理の一手法
MIKAMI-YUKI
April 15, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
2025年度春学期 統計学 第15回 分布についての仮説を検証する ー 仮説検定(2) (2025. 7. 17)
akiraasano
PRO
0
120
仏教の源流からの奈良県中南和_奈良まほろば館‗飛鳥・藤原DAO/asuka-fujiwara_Saraswati
tkimura12
0
140
DIP_1_Introduction
hachama
0
210
Web Architectures - Lecture 2 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
AI for Learning
fonylew
0
190
万博非公式マップとFOSS4G
barsaka2
0
1.3k
自分だけの、誰も想像できないキャリアの育て方 〜偶然から始めるキャリアプラン〜 / Career planning starting by luckly v2
vtryo
1
220
American Airlines® USA Contact Numbers: The Ultimate 2025 Guide
lievliev
0
260
~キャラ付け考えていますか?~ AI時代だからこそ技術者に求められるセルフブランディングのすゝめ
masakiokuda
7
500
Padlet opetuksessa
matleenalaakso
4
14k
今の私を形作る4つの要素と偶然の出会い(セレンディピティ)
mamohacy
2
110
尊敬語「くださる」と謙譲語「いただく」の使い分け
hysmrk
0
100
Featured
See All Featured
Visualization
eitanlees
148
16k
Producing Creativity
orderedlist
PRO
347
40k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
2.7k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
RailsConf 2023
tenderlove
30
1.2k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
114
20k
How to Ace a Technical Interview
jacobian
280
24k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.5k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年4月15日 日本語形態素解析における 未知語処理の一手法 自然言語処理研究室 1
出典 日本語形態素解析における未知語処理の一手法 ー既知語から派生した表記と未知オノマトペの処理ー 笹野 遼平, 黒橋 禎夫, 奥村 学 自然言語処理
Vol.21 No.6 p.1183-1205 (2014) 2
概要 日本語形態素解析における効率的な 未知語処理手法の提案 既知語から派生ルールと未知オノマトペ 認識のためのパターンを利用 Webから収集した10万文を対象に実験 をおこなった 3
形態素解析の誤り要因 辞書に含まれていない語・表記の存在 (未知語の存在) 未知語を大きく2つに分けてみると ・既知語から派生した未知語 ・既知語と関係を持たない未知語 となる 4
未知語の分類 5
従来の形態素解析 従来の未知語処理の研究は ・事前に未知語をコーパスから自動取得 ・未知語を形態素解析時に自動認識 が有名 これらは全体を網羅する未知語処理が 目的 6
本論文の提案 未知語はタイプにより適切な処理方法が 必要と考える 既知語から派生したタイプなら、既知語 と関連付けて解析を行なう 純粋な未知語タイプなら、コーパス中の 複数の用例を考慮し判断 7
提案手法 既存の形態素解析システムを改良 派生語に相当する形態素ノード生成の ルールの導入 未知オノマトペに相当する形態素ノード 生成のルール導入 8
提案システムの概要 9
派生語の自動認識 派生した語で対象とする未知語は ・濁音化した語 ・長音記号による置換を含む語 ・小書き文字による置換を含む語 ・長音記号の挿入を含む語 ・小書き文字の挿入を含む語 10
濁音化した語 濁音化した表記の多くは辞書に無い 例:「こたつ」と「ごたつ」 初頭が清音である名詞は一定の制約の もと、初頭が濁音化したものを形態素ラ ティスに追加する 11
長音記号・小書き文字の置換 例:「おはよう」→「おはよー」 「ー」,「~」の直前の文字が以下の場合、 長音記号を置換し、形態素ラティスに 追加する 12
長音記号・小書き文字の置換 例:「おはよう」→「ぉはよぅ」 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、 「あ」「い」「う」「え」「お」「か」「わ」に置換 し、形態素ラティスに追加する 2つを組み合わせると、 「ぉはよー」という文字は「おはよう」に できる。 13
長音記号・小書き文字の挿入 例:「冷たい」→「冷たーーーい」 →「冷たぁぁぁい」 「ー」,「~」が出現した場合はそれらを 削除して形態素ラティスに追加する 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその 直前の文の母音が同じ場合はそれらを 削除して形態素ラティスに追加する 14
未知オノマトペの自動認識 例:「わくわく」などの擬音語・擬声語 オノマトペは大きく分けて ・同じ音が2度反復される反復型 ・反復を含まない非反復型 になる 15
反復型オノマトペ 例:「ぐじょぐじょ」 2~4文字までの平仮名またはカタカナ が反復されている場合、形態素ラティス に追加する 16
非反復型オノマトペ 例:「ぐっちょり」 パターンを導入し、パターンに従う文字列 の場合のみ形態素ラティスに追加する 17
非反復型オノマトペ 以下のパターンにおいて ・H:平仮名 ・K:カタカナ 18
実験結果 未知語タイプ(各100個)ごとの再現率と UniDicによるカバー率 19
実験結果 未知語解析の精度・解析速度の測定 Webから収集した10万文を使用した 20
21
まとめ 効率的な未知語処理手法を提案した 10万文を対象にテストした結果、既存の ものに提案手法を導入したところ、新たに 約4500個の未知語が認識できた 悪化した箇所は約80個であり、ほとんど 悪影響を与えていないことが確認できた 22
ご視聴ありがとうございました 23