Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
B3semi_1
MARUYAMA
January 27, 2017
0
190
B3semi_1
MARUYAMA
January 27, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
69
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
52
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
62
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
61
20191028_literature-review.pdf
tmaru0204
0
63
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
46
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
61
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
56
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
48
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
343
17k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
655
120k
Git: the NoSQL Database
bkeepers
PRO
415
59k
Visualization
eitanlees
124
11k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
237
19k
Web development in the modern age
philhawksworth
197
9.3k
Designing the Hi-DPI Web
ddemaree
272
32k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
19
1.4k
Adopting Sorbet at Scale
ufuk
63
7.5k
Docker and Python
trallard
27
1.5k
Web Components: a chance to create the future
zenorocha
303
40k
Three Pipe Problems
jasonvnalue
89
8.6k
Transcript
自然言語処理のための機械学習 第1回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 2
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 3
1. 必要な数学的知識
1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1
凸集合
1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合 任意の(#), (&) ∈ 任意の実数
∈ [0,1] (#) + (1 − )(&) ∈ 凸集合 非凸集合 6 ⊆ 2が凸集合である
1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数 任意の(#), (&) ∈ 2
任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数 任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7
1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪
凸計画問題 :目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 9
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 10 =−
2. 文書及び単語の数学的表現
2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現
2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12
2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture
passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語(dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13
2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”
bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14
2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or
nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15
2.3 単語のベクトル表現 ▪ 単語トークン(word token) :出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) :出現した単語の種類を指す用語
Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数(異なり語数):4 単語トークン数(述べ語数):6 16
2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部(文脈)により作られるベクトル Ex.) 高く
跳ぶ に は まず 屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17
2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”
+1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか 直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18