Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_1_日本語形態素解析における未知語処理の一手法
Search
MIKAMI-YUKI
April 15, 2015
Education
0
400
文献紹介_1_日本語形態素解析における未知語処理の一手法
MIKAMI-YUKI
April 15, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
120
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
290
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
110
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
83
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
90
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
99
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
390
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
410
Other Decks in Education
See All in Education
JAWS-UGを通じてアウトプット活動を楽しんでみませんか? #jawsug_tochigi
masakiokuda
0
260
地図を活用した関西シビックテック事例紹介
barsaka2
0
180
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
小学校プログラミング教育、次の5年に向けて 〜つくること・学ぶことの歓びへ〜 /NextGenerationOfProgrammingEducation
kiriem
2
390
Introduction - Lecture 1 - Advanced Topics in Big Data (4023256FNR)
signer
PRO
1
1.7k
Monaca Education 活用事例セミナー:「年間通してMonaca Educationを活用する授業実践のご報告」
asial_edu
0
160
中野区ミライ★ライター倶楽部presents『MINT』
nakamuramikumirai
0
780
The Task is not the End: The Role of Task Repetition and Sequencing In Language Teaching
uranoken
0
310
Initiatives on Bridging the Gender Gap in the Technology Sector
codeforeveryone
0
130
家族をスクラムチームに! アジャイルで取り組む家事と育児 | Install Scrum to Family
coosuke
PRO
1
130
Prógram La Liberazione
olafurtr90
0
170
Web からのデータ収集と探究事例の紹介 / no94_jsai_seminar
upura
0
140
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
How STYLIGHT went responsive
nonsquared
99
5.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
A better future with KSS
kneath
238
17k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7.1k
Designing for Performance
lara
605
68k
GraphQLとの向き合い方2022年版
quramy
44
14k
The Language of Interfaces
destraynor
156
24k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年4月15日 日本語形態素解析における 未知語処理の一手法 自然言語処理研究室 1
出典 日本語形態素解析における未知語処理の一手法 ー既知語から派生した表記と未知オノマトペの処理ー 笹野 遼平, 黒橋 禎夫, 奥村 学 自然言語処理
Vol.21 No.6 p.1183-1205 (2014) 2
概要 日本語形態素解析における効率的な 未知語処理手法の提案 既知語から派生ルールと未知オノマトペ 認識のためのパターンを利用 Webから収集した10万文を対象に実験 をおこなった 3
形態素解析の誤り要因 辞書に含まれていない語・表記の存在 (未知語の存在) 未知語を大きく2つに分けてみると ・既知語から派生した未知語 ・既知語と関係を持たない未知語 となる 4
未知語の分類 5
従来の形態素解析 従来の未知語処理の研究は ・事前に未知語をコーパスから自動取得 ・未知語を形態素解析時に自動認識 が有名 これらは全体を網羅する未知語処理が 目的 6
本論文の提案 未知語はタイプにより適切な処理方法が 必要と考える 既知語から派生したタイプなら、既知語 と関連付けて解析を行なう 純粋な未知語タイプなら、コーパス中の 複数の用例を考慮し判断 7
提案手法 既存の形態素解析システムを改良 派生語に相当する形態素ノード生成の ルールの導入 未知オノマトペに相当する形態素ノード 生成のルール導入 8
提案システムの概要 9
派生語の自動認識 派生した語で対象とする未知語は ・濁音化した語 ・長音記号による置換を含む語 ・小書き文字による置換を含む語 ・長音記号の挿入を含む語 ・小書き文字の挿入を含む語 10
濁音化した語 濁音化した表記の多くは辞書に無い 例:「こたつ」と「ごたつ」 初頭が清音である名詞は一定の制約の もと、初頭が濁音化したものを形態素ラ ティスに追加する 11
長音記号・小書き文字の置換 例:「おはよう」→「おはよー」 「ー」,「~」の直前の文字が以下の場合、 長音記号を置換し、形態素ラティスに 追加する 12
長音記号・小書き文字の置換 例:「おはよう」→「ぉはよぅ」 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、 「あ」「い」「う」「え」「お」「か」「わ」に置換 し、形態素ラティスに追加する 2つを組み合わせると、 「ぉはよー」という文字は「おはよう」に できる。 13
長音記号・小書き文字の挿入 例:「冷たい」→「冷たーーーい」 →「冷たぁぁぁい」 「ー」,「~」が出現した場合はそれらを 削除して形態素ラティスに追加する 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその 直前の文の母音が同じ場合はそれらを 削除して形態素ラティスに追加する 14
未知オノマトペの自動認識 例:「わくわく」などの擬音語・擬声語 オノマトペは大きく分けて ・同じ音が2度反復される反復型 ・反復を含まない非反復型 になる 15
反復型オノマトペ 例:「ぐじょぐじょ」 2~4文字までの平仮名またはカタカナ が反復されている場合、形態素ラティス に追加する 16
非反復型オノマトペ 例:「ぐっちょり」 パターンを導入し、パターンに従う文字列 の場合のみ形態素ラティスに追加する 17
非反復型オノマトペ 以下のパターンにおいて ・H:平仮名 ・K:カタカナ 18
実験結果 未知語タイプ(各100個)ごとの再現率と UniDicによるカバー率 19
実験結果 未知語解析の精度・解析速度の測定 Webから収集した10万文を使用した 20
21
まとめ 効率的な未知語処理手法を提案した 10万文を対象にテストした結果、既存の ものに提案手法を導入したところ、新たに 約4500個の未知語が認識できた 悪化した箇所は約80個であり、ほとんど 悪影響を与えていないことが確認できた 22
ご視聴ありがとうございました 23