Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理の基礎 3章
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
December 19, 2014
Education
370
0
Share
自然言語処理の基礎 3章
Yuta
December 19, 2014
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
Other Decks in Education
See All in Education
Managing Complexity: India’s Semiconductor Ambitions & New Industrial Policy
vyadav
0
150
Integrating prosody into reading comprehension: A high school classroom practice
otamayuzak
0
120
What workforce agencies must have in place to compete for and deliver on RESTART grants
territorium
PRO
0
150
Info Session MSc Computer Science & MSc Applied Informatics
signer
PRO
0
260
View Manipulation and Reduction - Lecture 9 - Information Visualisation (4019538FNR)
signer
PRO
1
2.6k
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
990
0513
cbtlibrary
0
140
共感から、つくる: 変わり続ける自分と、誰かのための創造
micknerd
1
340
Curso de Consagração ao Sagrado Coração de Jesus - O Sagrado Coração na História (Aula 01)
cm_manaus
0
150
The Art & Science of Elearning
tmiket
1
190
[2026前期火5] 論理学(京都大学文学部 前期 第5回)「 ならばの問題演習・proof net・かつの規則」
yatabe
0
150
[2026前期火5] 論理学(京都大学文学部 前期 第2回)「論理的な正しさはどこにあるのか」
yatabe
0
850
Featured
See All Featured
ラッコキーワード サービス紹介資料
rakko
1
3.3M
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3k
From π to Pie charts
rasagy
0
180
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
190
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
2
1.5k
Skip the Path - Find Your Career Trail
mkilby
1
120
30 Presentation Tips
portentint
PRO
1
290
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
690
Amusing Abliteration
ianozsvald
1
170
Transcript
自然言語処理の基礎 3章 形態素解析 B3 須戸悠太
形態素解析とは ・形態素:意味を持つ最小の言語単位 形態素<単語<分<テキスト ・この形態素を対象とした解析プロセス →形態素解析
形態素解析とは ・形態素解析の処理は大きく3つ 1.単語分割 2.単語への品詞付与 3.単語の原形の復元
日本語の形態素解析 ・用いられる知識 1.単語辞書 2.連接可能性行列 連接可能性行列とは、どのような種類の 2単語が文中に出現しうるかを示す
日本語の形態素解析 ・二つの知識が与えられると、これらを参照 しながら次の2ステップを繰り返す 1.単語辞書を参照し、各文字から 始まる単語を取り出しノードとする 2.連接可能性行列を参照し、 連接可能な2単語をリンクでつなぐ
日本語の形態素解析 ・これにより、単語をノードとし、その間を リンクでつないだグラフ(ラティス)が 得られ、これが形態素解析の結果となる ・制約(知識)だけを用いると、複数の 解析結果が出力され、後の処理に問題 →選好を導入
日本語の形態素解析 ・最長一致法 できるだけ長い単語で構成される 解析結果を優先して選択 ・形態素数(文節数)最小法 入力文字列を構成する形態素数が 少ない解析結果を優先して選択
日本語の形態素解析 ・プログラムでは → コスト最小法 ラティス中のノードとリンクにコストを与え、 コスト最小のパスを最適解として選択する ・コスト最小の解 → ビダビアルゴリズム 各ノードにおいて、そのノードまでの
部分コストの最小値、及びその最小値を 与えるリンクを記憶
日本語の形態素解析 ・単語辞書を引くことで単語分割を行う →登録されていない未知語が含まれる場合、 解析機能を劣化させてしまう可能性あり ・品詞付与、原形の復元については 単語分割のプロセスで同時に実現できている
英語の形態素解析 ・品詞付与が重要 単語列に対し最も適切な品詞列を出力 →統計的言語モデルを用いる
英語の形態素解析 ・品詞付与の問題を以下のように定式化 「単語列 = 1 ⋯ が入力されたとき、 品詞列 = 1
⋯ を出力。このとき、 与えられた単語列に対する品詞列の 条件付確率 を最大とするを求める」
英語の形態素解析 ・ は個々の単語-品詞の条件付確率 ≈ =1 となる。 は 「各単語について、複数の品詞の中で、 どの品詞が出来やすく、 どの品詞はほとんど出てこないか」
を表す確率となる
英語の形態素解析 ・品詞タグ付コーパスがあれば コーパスから以下のように計算可能 = , ・ベイズの定理を用いると = × のように変形できる
英語の形態素解析 ・ある品詞が出現する確率は、直前の一つの 品詞の出現にだけ依存すると近似すると ≈ −1 × =1 となる ・ −1
, はそれぞれ遷移確率、 単語出力確率と呼ばれる
英語の形態素解析 ・このモデルはコスト最小法と対応している ・遷移確率と単語出力確率で品詞付与の 問題を定式化 →雑音のある通信路モデル