B3semi_1

自然言語処理のための機械学習第1回 B3 丸山拓海自然言語処理研究室

自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 2

自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.
必要な数学的知識 3

1. 必要な数学的知識

1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1
凸集合

1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合任意の(#), (&) ∈ 任意の実数
∈ [0,1] (#) + (1 − )(&) ∈ 凸集合非凸集合 6 ⊆ 2が凸集合である

1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数任意の(#), (&) ∈ 2
任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7

1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪
凸計画問題：目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8

1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大小大小 9

1.1 最適化問題 () () () () A A B B
, = + : ラグランジュ関数 + = 0 , = 0 大小大小 10 =−

2. 文書及び単語の数学的表現

2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現
2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12

2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture
passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語（dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13

2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”
bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14

2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or
nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15

2.3 単語のベクトル表現 ▪ 単語トークン(word token) ：出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) ：出現した単語の種類を指す用語
Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数（異なり語数):4 単語トークン数（述べ語数):6 16

2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部（文脈）により作られるベクトル Ex.) 高く
跳ぶにはまず屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17

2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”
+1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18

B3semi_1

B3semi_1

MARUYAMA

More Decks by MARUYAMA

Featured

Transcript

自然言語処理のための機械学習第1回 B3 丸山拓海自然言語処理研究室

自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.

自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.

1. 必要な数学的知識

1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1

1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合任意の(#), (&) ∈ 任意の実数

1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数任意の(#), (&) ∈ 2

1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪

1.1 最適化問題 () () () () A A B B

1.1 最適化問題 () () () () A A B B

2. 文書及び単語の数学的表現

2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現

2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture

2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”

2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or

2.3 単語のベクトル表現 ▪ 単語トークン(word token) ：出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) ：出現した単語の種類を指す用語

2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部（文脈）により作られるベクトル Ex.) 高く

2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”