$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
自然言語処理の基礎 3章
Search
Yuta
December 19, 2014
Education
0
350
自然言語処理の基礎 3章
Yuta
December 19, 2014
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
今の私を形作る4つの要素と偶然の出会い(セレンディピティ)
mamohacy
2
130
20250910_エンジニアの成長は自覚するところから_サポーターズ勉強会
ippei0923
0
350
Web Application Frameworks - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
沖ハック~のみぞうさんとハッキングチャレンジ☆~
nomizone
1
530
焦りと不安を、技術力に変える方法 - 新卒iOSエンジニアの失敗談と成長のフレームワーク
hypebeans
1
600
令和エンジニアの学習法 〜 生成AIを使って挫折を回避する 〜
moriga_yuduru
0
170
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
バケットポリシーの記述を誤りマネコンからS3バケットを操作できなくなりそうになった話
amarelo_n24
1
140
俺と地方勉強会 - KomeKaigi・地方勉強会への期待 -
pharaohkj
1
1.5k
Node-REDで広がるプログラミング教育の可能性
ueponx
1
210
NUTMEG紹介スライド
mugiiicha
0
370
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.3k
4 Signs Your Business is Dying
shpigford
186
22k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Designing Experiences People Love
moore
143
24k
BBQ
matthewcrist
89
9.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Scaling GitHub
holman
464
140k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
What's in a price? How to price your products and services
michaelherold
246
13k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Transcript
自然言語処理の基礎 3章 形態素解析 B3 須戸悠太
形態素解析とは ・形態素:意味を持つ最小の言語単位 形態素<単語<分<テキスト ・この形態素を対象とした解析プロセス →形態素解析
形態素解析とは ・形態素解析の処理は大きく3つ 1.単語分割 2.単語への品詞付与 3.単語の原形の復元
日本語の形態素解析 ・用いられる知識 1.単語辞書 2.連接可能性行列 連接可能性行列とは、どのような種類の 2単語が文中に出現しうるかを示す
日本語の形態素解析 ・二つの知識が与えられると、これらを参照 しながら次の2ステップを繰り返す 1.単語辞書を参照し、各文字から 始まる単語を取り出しノードとする 2.連接可能性行列を参照し、 連接可能な2単語をリンクでつなぐ
日本語の形態素解析 ・これにより、単語をノードとし、その間を リンクでつないだグラフ(ラティス)が 得られ、これが形態素解析の結果となる ・制約(知識)だけを用いると、複数の 解析結果が出力され、後の処理に問題 →選好を導入
日本語の形態素解析 ・最長一致法 できるだけ長い単語で構成される 解析結果を優先して選択 ・形態素数(文節数)最小法 入力文字列を構成する形態素数が 少ない解析結果を優先して選択
日本語の形態素解析 ・プログラムでは → コスト最小法 ラティス中のノードとリンクにコストを与え、 コスト最小のパスを最適解として選択する ・コスト最小の解 → ビダビアルゴリズム 各ノードにおいて、そのノードまでの
部分コストの最小値、及びその最小値を 与えるリンクを記憶
日本語の形態素解析 ・単語辞書を引くことで単語分割を行う →登録されていない未知語が含まれる場合、 解析機能を劣化させてしまう可能性あり ・品詞付与、原形の復元については 単語分割のプロセスで同時に実現できている
英語の形態素解析 ・品詞付与が重要 単語列に対し最も適切な品詞列を出力 →統計的言語モデルを用いる
英語の形態素解析 ・品詞付与の問題を以下のように定式化 「単語列 = 1 ⋯ が入力されたとき、 品詞列 = 1
⋯ を出力。このとき、 与えられた単語列に対する品詞列の 条件付確率 を最大とするを求める」
英語の形態素解析 ・ は個々の単語-品詞の条件付確率 ≈ =1 となる。 は 「各単語について、複数の品詞の中で、 どの品詞が出来やすく、 どの品詞はほとんど出てこないか」
を表す確率となる
英語の形態素解析 ・品詞タグ付コーパスがあれば コーパスから以下のように計算可能 = , ・ベイズの定理を用いると = × のように変形できる
英語の形態素解析 ・ある品詞が出現する確率は、直前の一つの 品詞の出現にだけ依存すると近似すると ≈ −1 × =1 となる ・ −1
, はそれぞれ遷移確率、 単語出力確率と呼ばれる
英語の形態素解析 ・このモデルはコスト最小法と対応している ・遷移確率と単語出力確率で品詞付与の 問題を定式化 →雑音のある通信路モデル