Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3semi_1
Search
MARUYAMA
January 27, 2017
0
320
B3semi_1
MARUYAMA
January 27, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
180
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
190
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
180
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
170
20191028_literature-review.pdf
tmaru0204
0
150
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
140
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
170
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
160
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Unsuck your backbone
ammeep
671
58k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Writing Fast Ruby
sferik
629
62k
Done Done
chrislema
185
16k
Visualization
eitanlees
149
16k
Statistics for Hackers
jakevdp
799
220k
Designing for humans not robots
tammielis
254
26k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Making Projects Easy
brettharned
119
6.4k
Transcript
自然言語処理のための機械学習 第1回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 2
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 3
1. 必要な数学的知識
1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1
凸集合
1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合 任意の(#), (&) ∈ 任意の実数
∈ [0,1] (#) + (1 − )(&) ∈ 凸集合 非凸集合 6 ⊆ 2が凸集合である
1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数 任意の(#), (&) ∈ 2
任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数 任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7
1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪
凸計画問題 :目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 9
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 10 =−
2. 文書及び単語の数学的表現
2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現
2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12
2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture
passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語(dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13
2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”
bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14
2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or
nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15
2.3 単語のベクトル表現 ▪ 単語トークン(word token) :出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) :出現した単語の種類を指す用語
Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数(異なり語数):4 単語トークン数(述べ語数):6 16
2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部(文脈)により作られるベクトル Ex.) 高く
跳ぶ に は まず 屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17
2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”
+1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか 直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18