Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_1_日本語形態素解析における未知語処理の一手法
Search
MIKAMI-YUKI
April 15, 2015
Education
430
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
文献紹介_1_日本語形態素解析における未知語処理の一手法
MIKAMI-YUKI
April 15, 2015
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
140
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
100
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
120
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
160
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
Other Decks in Education
See All in Education
Data Physicalisation - Lecture 9 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
1.1k
Laura Wilson - The Quarterly PR Pivot
laurawilsonbseo1
1
360
プログラミング言語において文字列を複数行にわたって だらだらと記載するアレ
sapi_kawahara
0
170
【セーフィー】テクニカルライティング&コミュニケーション実践講座(26新卒エンジニア向け研修資料)
ymzaki_m4
0
230
AWS Certified Generative AI Developer - Professional Beta 不合格体験記
amarelo_n24
1
390
生成AIを授業の相棒にするデータサイエンス入門(「デジタル✕探究」イノベーターズフォーラム テクニカルセッション講演資料)
datascientistsociety
PRO
0
310
Examen de Selectividad. Geografía junio 2026 (Convocatoria Ordinaria). UCLM
juanmartin2026
0
470
LinkedIn
matleenalaakso
0
4.4k
Science Tokyo国際卓越研究大学計画_202604
sciencetokyo
PRO
0
4.7k
We部コミュニティスライド2026-04-24
junhat6
0
190
Data Management and Analytics Specialisation
signer
PRO
0
1.8k
[2026前期火5] 論理学(京都大学文学部 前期 第10回)「論理学の哲学——意味とは何か(Tonkと推論主義)」
yatabe
0
140
Featured
See All Featured
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
170
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
360
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.3k
Into the Great Unknown - MozCon
thekraken
41
2.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.8k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Agile that works and the tools we love
rasmusluckow
331
22k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
55k
Producing Creativity
orderedlist
PRO
348
40k
Docker and Python
trallard
47
3.9k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年4月15日 日本語形態素解析における 未知語処理の一手法 自然言語処理研究室 1
出典 日本語形態素解析における未知語処理の一手法 ー既知語から派生した表記と未知オノマトペの処理ー 笹野 遼平, 黒橋 禎夫, 奥村 学 自然言語処理
Vol.21 No.6 p.1183-1205 (2014) 2
概要 日本語形態素解析における効率的な 未知語処理手法の提案 既知語から派生ルールと未知オノマトペ 認識のためのパターンを利用 Webから収集した10万文を対象に実験 をおこなった 3
形態素解析の誤り要因 辞書に含まれていない語・表記の存在 (未知語の存在) 未知語を大きく2つに分けてみると ・既知語から派生した未知語 ・既知語と関係を持たない未知語 となる 4
未知語の分類 5
従来の形態素解析 従来の未知語処理の研究は ・事前に未知語をコーパスから自動取得 ・未知語を形態素解析時に自動認識 が有名 これらは全体を網羅する未知語処理が 目的 6
本論文の提案 未知語はタイプにより適切な処理方法が 必要と考える 既知語から派生したタイプなら、既知語 と関連付けて解析を行なう 純粋な未知語タイプなら、コーパス中の 複数の用例を考慮し判断 7
提案手法 既存の形態素解析システムを改良 派生語に相当する形態素ノード生成の ルールの導入 未知オノマトペに相当する形態素ノード 生成のルール導入 8
提案システムの概要 9
派生語の自動認識 派生した語で対象とする未知語は ・濁音化した語 ・長音記号による置換を含む語 ・小書き文字による置換を含む語 ・長音記号の挿入を含む語 ・小書き文字の挿入を含む語 10
濁音化した語 濁音化した表記の多くは辞書に無い 例:「こたつ」と「ごたつ」 初頭が清音である名詞は一定の制約の もと、初頭が濁音化したものを形態素ラ ティスに追加する 11
長音記号・小書き文字の置換 例:「おはよう」→「おはよー」 「ー」,「~」の直前の文字が以下の場合、 長音記号を置換し、形態素ラティスに 追加する 12
長音記号・小書き文字の置換 例:「おはよう」→「ぉはよぅ」 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、 「あ」「い」「う」「え」「お」「か」「わ」に置換 し、形態素ラティスに追加する 2つを組み合わせると、 「ぉはよー」という文字は「おはよう」に できる。 13
長音記号・小書き文字の挿入 例:「冷たい」→「冷たーーーい」 →「冷たぁぁぁい」 「ー」,「~」が出現した場合はそれらを 削除して形態素ラティスに追加する 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその 直前の文の母音が同じ場合はそれらを 削除して形態素ラティスに追加する 14
未知オノマトペの自動認識 例:「わくわく」などの擬音語・擬声語 オノマトペは大きく分けて ・同じ音が2度反復される反復型 ・反復を含まない非反復型 になる 15
反復型オノマトペ 例:「ぐじょぐじょ」 2~4文字までの平仮名またはカタカナ が反復されている場合、形態素ラティス に追加する 16
非反復型オノマトペ 例:「ぐっちょり」 パターンを導入し、パターンに従う文字列 の場合のみ形態素ラティスに追加する 17
非反復型オノマトペ 以下のパターンにおいて ・H:平仮名 ・K:カタカナ 18
実験結果 未知語タイプ(各100個)ごとの再現率と UniDicによるカバー率 19
実験結果 未知語解析の精度・解析速度の測定 Webから収集した10万文を使用した 20
21
まとめ 効率的な未知語処理手法を提案した 10万文を対象にテストした結果、既存の ものに提案手法を導入したところ、新たに 約4500個の未知語が認識できた 悪化した箇所は約80個であり、ほとんど 悪影響を与えていないことが確認できた 22
ご視聴ありがとうございました 23