Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理の基礎 3章
Search
Yuta
December 19, 2014
Education
0
350
自然言語処理の基礎 3章
Yuta
December 19, 2014
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
2025年度春学期 統計学 第4回 データを「分布」で見る (2025. 5. 1)
akiraasano
PRO
0
110
2025年度春学期 統計学 第5回 分布をまとめるー記述統計量(平均・分散など) (2025. 5. 8)
akiraasano
PRO
0
120
自己紹介 / who-am-i
yasulab
PRO
3
5.2k
SARA Annual Report 2024-25
sara2023
1
180
演習問題
takenawa
0
6.7k
2025年度春学期 統計学 第1回 イントロダクション (2025. 4. 10)
akiraasano
PRO
0
180
Course Review - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
計算情報学研究室 (数理情報学第7研究室)紹介スライド (2025)
tomonatu8
0
540
データ分析
takenawa
0
6.7k
『会社を知ってもらう』から『安心して活躍してもらう』までの プロセスとフロー
sasakendayo
0
240
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
2k
OpenSourceSummitJapanを運営してみた話
kujiraitakahiro
0
720
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
The Invisible Side of Design
smashingmag
301
51k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Statistics for Hackers
jakevdp
799
220k
The Cult of Friendly URLs
andyhume
79
6.5k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Transcript
自然言語処理の基礎 3章 形態素解析 B3 須戸悠太
形態素解析とは ・形態素:意味を持つ最小の言語単位 形態素<単語<分<テキスト ・この形態素を対象とした解析プロセス →形態素解析
形態素解析とは ・形態素解析の処理は大きく3つ 1.単語分割 2.単語への品詞付与 3.単語の原形の復元
日本語の形態素解析 ・用いられる知識 1.単語辞書 2.連接可能性行列 連接可能性行列とは、どのような種類の 2単語が文中に出現しうるかを示す
日本語の形態素解析 ・二つの知識が与えられると、これらを参照 しながら次の2ステップを繰り返す 1.単語辞書を参照し、各文字から 始まる単語を取り出しノードとする 2.連接可能性行列を参照し、 連接可能な2単語をリンクでつなぐ
日本語の形態素解析 ・これにより、単語をノードとし、その間を リンクでつないだグラフ(ラティス)が 得られ、これが形態素解析の結果となる ・制約(知識)だけを用いると、複数の 解析結果が出力され、後の処理に問題 →選好を導入
日本語の形態素解析 ・最長一致法 できるだけ長い単語で構成される 解析結果を優先して選択 ・形態素数(文節数)最小法 入力文字列を構成する形態素数が 少ない解析結果を優先して選択
日本語の形態素解析 ・プログラムでは → コスト最小法 ラティス中のノードとリンクにコストを与え、 コスト最小のパスを最適解として選択する ・コスト最小の解 → ビダビアルゴリズム 各ノードにおいて、そのノードまでの
部分コストの最小値、及びその最小値を 与えるリンクを記憶
日本語の形態素解析 ・単語辞書を引くことで単語分割を行う →登録されていない未知語が含まれる場合、 解析機能を劣化させてしまう可能性あり ・品詞付与、原形の復元については 単語分割のプロセスで同時に実現できている
英語の形態素解析 ・品詞付与が重要 単語列に対し最も適切な品詞列を出力 →統計的言語モデルを用いる
英語の形態素解析 ・品詞付与の問題を以下のように定式化 「単語列 = 1 ⋯ が入力されたとき、 品詞列 = 1
⋯ を出力。このとき、 与えられた単語列に対する品詞列の 条件付確率 を最大とするを求める」
英語の形態素解析 ・ は個々の単語-品詞の条件付確率 ≈ =1 となる。 は 「各単語について、複数の品詞の中で、 どの品詞が出来やすく、 どの品詞はほとんど出てこないか」
を表す確率となる
英語の形態素解析 ・品詞タグ付コーパスがあれば コーパスから以下のように計算可能 = , ・ベイズの定理を用いると = × のように変形できる
英語の形態素解析 ・ある品詞が出現する確率は、直前の一つの 品詞の出現にだけ依存すると近似すると ≈ −1 × =1 となる ・ −1
, はそれぞれ遷移確率、 単語出力確率と呼ばれる
英語の形態素解析 ・このモデルはコスト最小法と対応している ・遷移確率と単語出力確率で品詞付与の 問題を定式化 →雑音のある通信路モデル