Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3semi_1
Search
MARUYAMA
January 27, 2017
0
310
B3semi_1
MARUYAMA
January 27, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
170
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
180
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
170
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
160
20191028_literature-review.pdf
tmaru0204
0
150
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
130
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
160
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
150
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
150
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
54
13k
A designer walks into a library…
pauljervisheath
207
24k
Balancing Empowerment & Direction
lara
1
430
A Tale of Four Properties
chriscoyier
160
23k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Done Done
chrislema
184
16k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Docker and Python
trallard
44
3.5k
Transcript
自然言語処理のための機械学習 第1回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 2
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 3
1. 必要な数学的知識
1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1
凸集合
1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合 任意の(#), (&) ∈ 任意の実数
∈ [0,1] (#) + (1 − )(&) ∈ 凸集合 非凸集合 6 ⊆ 2が凸集合である
1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数 任意の(#), (&) ∈ 2
任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数 任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7
1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪
凸計画問題 :目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 9
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 10 =−
2. 文書及び単語の数学的表現
2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現
2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12
2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture
passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語(dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13
2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”
bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14
2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or
nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15
2.3 単語のベクトル表現 ▪ 単語トークン(word token) :出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) :出現した単語の種類を指す用語
Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数(異なり語数):4 単語トークン数(述べ語数):6 16
2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部(文脈)により作られるベクトル Ex.) 高く
跳ぶ に は まず 屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17
2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”
+1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか 直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18