Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150109 発表資料
Search
Yuta
January 09, 2015
Education
0
150
20150109 発表資料
Yuta
January 09, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
2025.05.10 技術書とVoicyとわたし #RPALT
kaitou
1
230
Pydantic(AI)とJSONの詳細解説
mickey_kubo
0
120
技術文章を書くための執筆技術と実践法(パラグラフライティング)
hisashiishihara
18
6.5k
Webリテラシー基礎
takenawa
0
6.6k
(キラキラ)人事教育担当のつらみ~教育担当として知っておくポイント~
masakiokuda
0
110
マネジメント「される側」 こそ覚悟を決めろ
nao_randd
10
5.4k
データ分析
takenawa
0
6.6k
ThingLink
matleenalaakso
28
4.1k
2025年度春学期 統計学 第4回 データを「分布」で見る (2025. 5. 1)
akiraasano
PRO
0
110
2025年度春学期 統計学 第1回 イントロダクション (2025. 4. 10)
akiraasano
PRO
0
180
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
4
1k
実務プログラム
takenawa
0
6.6k
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
95
14k
Statistics for Hackers
jakevdp
799
220k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
Navigating Team Friction
lara
187
15k
What's in a price? How to price your products and services
michaelherold
246
12k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Become a Pro
speakerdeck
PRO
29
5.4k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Adopting Sorbet at Scale
ufuk
77
9.5k
The Pragmatic Product Professional
lauravandoore
35
6.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Transcript
形態素解析について 自然言語処理研究室 B3 須戸悠太 1
形態素解析とは • 意味を持つ最小の言語単位(形態素)を対象と した解析プロセス。 • 単語分割・品詞付与・原型の復元の大きく三つ の処理に分けられる。 • 日本語の形態素解析では単語分割が主要な処理 となる。
2
日本語の形態素解析 • 単語辞書と連接可能性行列の二つが知識として 用いられる。 • 次の二つのステップを繰り返すことで単語を ノードとしその間をリンクでつないだグラフ (ラティス)が得られる。 1.各文字の位置から始まる単語を取り出す 2.相前後する2単語で連接可能なものをつなぐ
3
身近な応用例 • 仮名漢字変換 例:ていあんしたいけん 1.ていあん/し/たい/けん→提案したい件 2.ていあん/した/いけん →提案した意見 3.ていあん/し/たいけん →提案し体験 4
選好の紹介 • 最長一致法 できるだけ長い単語で構成される解析結果を優先 して選択する。 • 形態素数(文節数)最小法 入力文字列を構成する形態素数が少ない解析結果 を優先して選択する。 5
プログラムでは • コスト最小法 ノードとリンクにそれぞれ単語コスト、連接コス トを与え、コスト最小のパスを最適解として選択 する。 • ビタビアルゴリズム ラティス中の各ノードにおいて、部分コストの最 小値及びそのリンクを記憶する。
6
形態素解析の欠点 • 単語辞書に登録されていない未知後を含む場合、 解析性能を劣化させる可能性がある。 • コスト最小法では、コストを人手で与える必要 がある。 7
解析ツール • JUMAN 辞書や品詞体系、連接規則などを外部化し、カス タマイズを可能にした。 • 茶筌 コスト推定を統計的な手法によって行う。 • MeCab
辞書や定義ファイルを入れ替えることで日本語形 態素解析以外にも応用可能。 8