Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理の基礎 3章
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
December 19, 2014
Education
380
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
自然言語処理の基礎 3章
Yuta
December 19, 2014
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
200
20150708 文献紹介
sudo
0
170
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
Other Decks in Education
See All in Education
Public Space Is Not For Sale
drikkes
0
120
Curso de Consagração ao Sagrado Coração de Jesus - O Sagrado Coração na História (Aula 01)
cm_manaus
0
230
Case Studies and Future Research - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
180
SARA Annual Report 2025-26
sara2023
1
380
Lectura 2 (PIT : Python Basico)
robintux
0
360
0506
cbtlibrary
0
200
✅ レポート採点基準 / How Your Reports Are Assessed
yasslab
PRO
0
370
2026年度春学期 統計学 第6回 データの関係を知る(1)ー 相関関係 (2026. 5. 14)
akiraasano
PRO
0
130
アラムコSTEAMチャレンジ 実践報告書
codeforeveryone
0
160
AI-Based Speaking Assessment of a Short-Term Study Abroad Program
uranoken
0
340
Examen de Selectividad. Geografía junio 2026 (Convocatoria Ordinaria). UCLM
juanmartin2026
0
480
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
2.7k
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
950
Side Projects
sachag
455
43k
For a Future-Friendly Web
brad_frost
183
10k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Skip the Path - Find Your Career Trail
mkilby
1
150
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
250
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
450
The Cost Of JavaScript in 2023
addyosmani
55
10k
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
870
Transcript
自然言語処理の基礎 3章 形態素解析 B3 須戸悠太
形態素解析とは ・形態素:意味を持つ最小の言語単位 形態素<単語<分<テキスト ・この形態素を対象とした解析プロセス →形態素解析
形態素解析とは ・形態素解析の処理は大きく3つ 1.単語分割 2.単語への品詞付与 3.単語の原形の復元
日本語の形態素解析 ・用いられる知識 1.単語辞書 2.連接可能性行列 連接可能性行列とは、どのような種類の 2単語が文中に出現しうるかを示す
日本語の形態素解析 ・二つの知識が与えられると、これらを参照 しながら次の2ステップを繰り返す 1.単語辞書を参照し、各文字から 始まる単語を取り出しノードとする 2.連接可能性行列を参照し、 連接可能な2単語をリンクでつなぐ
日本語の形態素解析 ・これにより、単語をノードとし、その間を リンクでつないだグラフ(ラティス)が 得られ、これが形態素解析の結果となる ・制約(知識)だけを用いると、複数の 解析結果が出力され、後の処理に問題 →選好を導入
日本語の形態素解析 ・最長一致法 できるだけ長い単語で構成される 解析結果を優先して選択 ・形態素数(文節数)最小法 入力文字列を構成する形態素数が 少ない解析結果を優先して選択
日本語の形態素解析 ・プログラムでは → コスト最小法 ラティス中のノードとリンクにコストを与え、 コスト最小のパスを最適解として選択する ・コスト最小の解 → ビダビアルゴリズム 各ノードにおいて、そのノードまでの
部分コストの最小値、及びその最小値を 与えるリンクを記憶
日本語の形態素解析 ・単語辞書を引くことで単語分割を行う →登録されていない未知語が含まれる場合、 解析機能を劣化させてしまう可能性あり ・品詞付与、原形の復元については 単語分割のプロセスで同時に実現できている
英語の形態素解析 ・品詞付与が重要 単語列に対し最も適切な品詞列を出力 →統計的言語モデルを用いる
英語の形態素解析 ・品詞付与の問題を以下のように定式化 「単語列 = 1 ⋯ が入力されたとき、 品詞列 = 1
⋯ を出力。このとき、 与えられた単語列に対する品詞列の 条件付確率 を最大とするを求める」
英語の形態素解析 ・ は個々の単語-品詞の条件付確率 ≈ =1 となる。 は 「各単語について、複数の品詞の中で、 どの品詞が出来やすく、 どの品詞はほとんど出てこないか」
を表す確率となる
英語の形態素解析 ・品詞タグ付コーパスがあれば コーパスから以下のように計算可能 = , ・ベイズの定理を用いると = × のように変形できる
英語の形態素解析 ・ある品詞が出現する確率は、直前の一つの 品詞の出現にだけ依存すると近似すると ≈ −1 × =1 となる ・ −1
, はそれぞれ遷移確率、 単語出力確率と呼ばれる
英語の形態素解析 ・このモデルはコスト最小法と対応している ・遷移確率と単語出力確率で品詞付与の 問題を定式化 →雑音のある通信路モデル