Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3semi_1
Search
MARUYAMA
January 27, 2017
0
280
B3semi_1
MARUYAMA
January 27, 2017
Tweet
Share
More Decks by MARUYAMA
See All by MARUYAMA
vampire.pdf
tmaru0204
0
140
Misspelling_Oblivious_Word_Embedding.pdf
tmaru0204
0
170
Simple_Unsupervised_Summarization_by_Contextual_Matching.pdf
tmaru0204
0
150
Controlling_Text_Complexity_in_Neural_Machine_Translation.pdf
tmaru0204
0
140
20191028_literature-review.pdf
tmaru0204
0
130
Hint-Based_Training_for_Non-Autoregressive_Machine_Translation.pdf
tmaru0204
0
120
Soft_Contextual_Data_Augmentation_for_Neural_Machine_Translation_.pdf
tmaru0204
0
140
An_Embarrassingly_Simple_Approach_for_Transfer_Learning_from_Pretrained_Language_Models_.pdf
tmaru0204
0
130
Addressing_Trobulesome_Words_in_Neural_Machine_Translation.pdf
tmaru0204
0
130
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
192
16k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.2k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
Designing for Performance
lara
604
68k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
570
Statistics for Hackers
jakevdp
797
220k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Docker and Python
trallard
43
3.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
350
Site-Speed That Sticks
csswizardry
2
250
Transcript
自然言語処理のための機械学習 第1回 B3 丸山 拓海 自然言語処理研究室
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 2
自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 3
1. 必要な数学的知識
1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1
凸集合
1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合 任意の(#), (&) ∈ 任意の実数
∈ [0,1] (#) + (1 − )(&) ∈ 凸集合 非凸集合 6 ⊆ 2が凸集合である
1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数 任意の(#), (&) ∈ 2
任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数 任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7
1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪
凸計画問題 :目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 9
1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 10 =−
2. 文書及び単語の数学的表現
2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現
2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12
2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture
passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語(dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13
2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”
bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14
2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or
nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15
2.3 単語のベクトル表現 ▪ 単語トークン(word token) :出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) :出現した単語の種類を指す用語
Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数(異なり語数):4 単語トークン数(述べ語数):6 16
2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部(文脈)により作られるベクトル Ex.) 高く
跳ぶ に は まず 屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17
2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”
+1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか 直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18