Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_1_日本語形態素解析における未知語処理の一手法
Search
MIKAMI-YUKI
April 15, 2015
Education
0
410
文献紹介_1_日本語形態素解析における未知語処理の一手法
MIKAMI-YUKI
April 15, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
330
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
99
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
130
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
【品女100周年企画】Pitch Deck
shinagawajoshigakuin_100th
0
6k
2025年度春学期 統計学 第10回 分布の推測とは ー 標本調査,度数分布と確率分布 (2025. 6. 12)
akiraasano
PRO
0
220
探査機自作ゼミ2025スライド
sksat
3
780
みんなのコード 2024年度活動報告書/ 2025年度活動計画書
codeforeveryone
0
290
(2025) L'origami, mieux que la règle et le compas
mansuy
0
130
JPCERTから始まる草の根活動~セキュリティ文化醸成のためのアクション~
masakiokuda
0
220
Linuxのよく使うコマンドを解説
mickey_kubo
1
270
Pydantic(AI)とJSONの詳細解説
mickey_kubo
0
190
AI for Learning
fonylew
0
180
GitHubとAzureを使って開発者になろう
ymd65536
1
160
『会社を知ってもらう』から『安心して活躍してもらう』までの プロセスとフロー
sasakendayo
0
260
新卒研修に仕掛ける 学びのサイクル / Implementing Learning Cycles in New Graduate Training
takashi_toyosaki
1
230
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
jQuery: Nuts, Bolts and Bling
dougneiner
64
7.9k
What's in a price? How to price your products and services
michaelherold
246
12k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
Gamification - CAS2011
davidbonilla
81
5.4k
Thoughts on Productivity
jonyablonski
70
4.8k
Writing Fast Ruby
sferik
628
62k
Become a Pro
speakerdeck
PRO
29
5.5k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
530
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年4月15日 日本語形態素解析における 未知語処理の一手法 自然言語処理研究室 1
出典 日本語形態素解析における未知語処理の一手法 ー既知語から派生した表記と未知オノマトペの処理ー 笹野 遼平, 黒橋 禎夫, 奥村 学 自然言語処理
Vol.21 No.6 p.1183-1205 (2014) 2
概要 日本語形態素解析における効率的な 未知語処理手法の提案 既知語から派生ルールと未知オノマトペ 認識のためのパターンを利用 Webから収集した10万文を対象に実験 をおこなった 3
形態素解析の誤り要因 辞書に含まれていない語・表記の存在 (未知語の存在) 未知語を大きく2つに分けてみると ・既知語から派生した未知語 ・既知語と関係を持たない未知語 となる 4
未知語の分類 5
従来の形態素解析 従来の未知語処理の研究は ・事前に未知語をコーパスから自動取得 ・未知語を形態素解析時に自動認識 が有名 これらは全体を網羅する未知語処理が 目的 6
本論文の提案 未知語はタイプにより適切な処理方法が 必要と考える 既知語から派生したタイプなら、既知語 と関連付けて解析を行なう 純粋な未知語タイプなら、コーパス中の 複数の用例を考慮し判断 7
提案手法 既存の形態素解析システムを改良 派生語に相当する形態素ノード生成の ルールの導入 未知オノマトペに相当する形態素ノード 生成のルール導入 8
提案システムの概要 9
派生語の自動認識 派生した語で対象とする未知語は ・濁音化した語 ・長音記号による置換を含む語 ・小書き文字による置換を含む語 ・長音記号の挿入を含む語 ・小書き文字の挿入を含む語 10
濁音化した語 濁音化した表記の多くは辞書に無い 例:「こたつ」と「ごたつ」 初頭が清音である名詞は一定の制約の もと、初頭が濁音化したものを形態素ラ ティスに追加する 11
長音記号・小書き文字の置換 例:「おはよう」→「おはよー」 「ー」,「~」の直前の文字が以下の場合、 長音記号を置換し、形態素ラティスに 追加する 12
長音記号・小書き文字の置換 例:「おはよう」→「ぉはよぅ」 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、 「あ」「い」「う」「え」「お」「か」「わ」に置換 し、形態素ラティスに追加する 2つを組み合わせると、 「ぉはよー」という文字は「おはよう」に できる。 13
長音記号・小書き文字の挿入 例:「冷たい」→「冷たーーーい」 →「冷たぁぁぁい」 「ー」,「~」が出現した場合はそれらを 削除して形態素ラティスに追加する 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその 直前の文の母音が同じ場合はそれらを 削除して形態素ラティスに追加する 14
未知オノマトペの自動認識 例:「わくわく」などの擬音語・擬声語 オノマトペは大きく分けて ・同じ音が2度反復される反復型 ・反復を含まない非反復型 になる 15
反復型オノマトペ 例:「ぐじょぐじょ」 2~4文字までの平仮名またはカタカナ が反復されている場合、形態素ラティス に追加する 16
非反復型オノマトペ 例:「ぐっちょり」 パターンを導入し、パターンに従う文字列 の場合のみ形態素ラティスに追加する 17
非反復型オノマトペ 以下のパターンにおいて ・H:平仮名 ・K:カタカナ 18
実験結果 未知語タイプ(各100個)ごとの再現率と UniDicによるカバー率 19
実験結果 未知語解析の精度・解析速度の測定 Webから収集した10万文を使用した 20
21
まとめ 効率的な未知語処理手法を提案した 10万文を対象にテストした結果、既存の ものに提案手法を導入したところ、新たに 約4500個の未知語が認識できた 悪化した箇所は約80個であり、ほとんど 悪影響を与えていないことが確認できた 22
ご視聴ありがとうございました 23