Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_1_日本語形態素解析における未知語処理の一手法
Search
MIKAMI-YUKI
April 15, 2015
Education
0
420
文献紹介_1_日本語形態素解析における未知語処理の一手法
MIKAMI-YUKI
April 15, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
130
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
340
文献紹介_9_コーパスに基づく動詞の多義解消
mikamiy
0
120
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
92
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
100
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
140
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
410
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
420
Other Decks in Education
See All in Education
Linguaxes de programación
irocho
0
510
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
IHLヘルスケアリーダーシップ研究会17期説明資料
ihlhealthcareleadership
0
330
JavaScript - Lecture 6 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
中央教育審議会 教育課程企画特別部会 情報・技術ワーキンググループに向けた提言 ー次期学習指導要領での情報活用能力の抜本的向上に向けてー
codeforeveryone
0
490
2025年の本当に大事なAI動向まとめ
frievea
0
140
QR-koodit opetuksessa
matleenalaakso
0
1.8k
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.3k
1125
cbtlibrary
0
150
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
250
Cifrado asimétrico
irocho
0
360
【ZEPホスト用メタバース校舎操作ガイド】
ainischool
0
150
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
85
9.3k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
400
Code Review Best Practice
trishagee
74
19k
Rails Girls Zürich Keynote
gr2m
95
14k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
95k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
46k
Building AI with AI
inesmontani
PRO
1
590
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年4月15日 日本語形態素解析における 未知語処理の一手法 自然言語処理研究室 1
出典 日本語形態素解析における未知語処理の一手法 ー既知語から派生した表記と未知オノマトペの処理ー 笹野 遼平, 黒橋 禎夫, 奥村 学 自然言語処理
Vol.21 No.6 p.1183-1205 (2014) 2
概要 日本語形態素解析における効率的な 未知語処理手法の提案 既知語から派生ルールと未知オノマトペ 認識のためのパターンを利用 Webから収集した10万文を対象に実験 をおこなった 3
形態素解析の誤り要因 辞書に含まれていない語・表記の存在 (未知語の存在) 未知語を大きく2つに分けてみると ・既知語から派生した未知語 ・既知語と関係を持たない未知語 となる 4
未知語の分類 5
従来の形態素解析 従来の未知語処理の研究は ・事前に未知語をコーパスから自動取得 ・未知語を形態素解析時に自動認識 が有名 これらは全体を網羅する未知語処理が 目的 6
本論文の提案 未知語はタイプにより適切な処理方法が 必要と考える 既知語から派生したタイプなら、既知語 と関連付けて解析を行なう 純粋な未知語タイプなら、コーパス中の 複数の用例を考慮し判断 7
提案手法 既存の形態素解析システムを改良 派生語に相当する形態素ノード生成の ルールの導入 未知オノマトペに相当する形態素ノード 生成のルール導入 8
提案システムの概要 9
派生語の自動認識 派生した語で対象とする未知語は ・濁音化した語 ・長音記号による置換を含む語 ・小書き文字による置換を含む語 ・長音記号の挿入を含む語 ・小書き文字の挿入を含む語 10
濁音化した語 濁音化した表記の多くは辞書に無い 例:「こたつ」と「ごたつ」 初頭が清音である名詞は一定の制約の もと、初頭が濁音化したものを形態素ラ ティスに追加する 11
長音記号・小書き文字の置換 例:「おはよう」→「おはよー」 「ー」,「~」の直前の文字が以下の場合、 長音記号を置換し、形態素ラティスに 追加する 12
長音記号・小書き文字の置換 例:「おはよう」→「ぉはよぅ」 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」「ヵ」「ゎ」があった時、 「あ」「い」「う」「え」「お」「か」「わ」に置換 し、形態素ラティスに追加する 2つを組み合わせると、 「ぉはよー」という文字は「おはよう」に できる。 13
長音記号・小書き文字の挿入 例:「冷たい」→「冷たーーーい」 →「冷たぁぁぁい」 「ー」,「~」が出現した場合はそれらを 削除して形態素ラティスに追加する 「ぁ」「ぃ」「ぅ」「ぇ」「ぉ」 が出現し、かつその 直前の文の母音が同じ場合はそれらを 削除して形態素ラティスに追加する 14
未知オノマトペの自動認識 例:「わくわく」などの擬音語・擬声語 オノマトペは大きく分けて ・同じ音が2度反復される反復型 ・反復を含まない非反復型 になる 15
反復型オノマトペ 例:「ぐじょぐじょ」 2~4文字までの平仮名またはカタカナ が反復されている場合、形態素ラティス に追加する 16
非反復型オノマトペ 例:「ぐっちょり」 パターンを導入し、パターンに従う文字列 の場合のみ形態素ラティスに追加する 17
非反復型オノマトペ 以下のパターンにおいて ・H:平仮名 ・K:カタカナ 18
実験結果 未知語タイプ(各100個)ごとの再現率と UniDicによるカバー率 19
実験結果 未知語解析の精度・解析速度の測定 Webから収集した10万文を使用した 20
21
まとめ 効率的な未知語処理手法を提案した 10万文を対象にテストした結果、既存の ものに提案手法を導入したところ、新たに 約4500個の未知語が認識できた 悪化した箇所は約80個であり、ほとんど 悪影響を与えていないことが確認できた 22
ご視聴ありがとうございました 23