B3semi_1

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
January 27, 2017
150

 B3semi_1

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

January 27, 2017
Tweet

Transcript

  1. 自然言語処理のための機械学習 第1回 B3 丸山 拓海 自然言語処理研究室

  2. 自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.

    必要な数学的知識 2
  3. 自然言語処理のための機械学習 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング 1.

    必要な数学的知識 3
  4. 1. 必要な数学的知識

  5. 1. 必要な数学的知識 1.1 最適化問題 1.1.2 凸関数と凹関数 1.1.3 等式制約付凸計画問題 5 1.1.1

    凸集合
  6. 1.1 最適化問題 1.1.1 凸集合 ▪ 凸集合 任意の(#), (&) ∈ 任意の実数

    ∈ [0,1] (#) + (1 − )(&) ∈ 凸集合 非凸集合 6 ⊆ 2が凸集合である
  7. 1.1 最適化問題 1.1.2 凸関数と凹関数 ▪ 凸関数 任意の(#), (&) ∈ 2

    任意の実数 ∈ [0,1] (#) + (1 − )(&) ≤ # + 1 − & (#) (&) () ▪ 凹関数 任意の(#), (&) ∈ 2 任意の実数 ∈ [0,1] (#) + (1 − )(&) ≥ # + 1 − & (#) (&) () 7
  8. 1.1 最適化問題 1.1.3 等式制約付凸計画問題 . . . = 0 ▪

    凸計画問題 :目的関数が凸関数で、実行可能領域が凸集合である最適化問題 ▪ ラグランジュの未定乗数法 , = + : ラグランジュ関数 + = 0 , = 0 8
  9. 1.1 最適化問題 () () () () A A B B

    , = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 9
  10. 1.1 最適化問題 () () () () A A B B

    , = + : ラグランジュ関数 + = 0 , = 0 大 小 大 小 10 =−
  11. 2. 文書及び単語の数学的表現

  12. 2. 文書及び単語の数学的表現 2.1 nグラム (n–gram) 2.2 文書, 文のベクトル表現 2.3 単語のベクトル表現

    2.3.1 単語トークンの文脈ベクトル表現 2.3.2 単語タイプの文脈ベクトル表現 12
  13. 2.1 nグラム (n–gram) ▪ 単語nグラム(word n–gram) : 隣り合って出現したn単語 Ex.) “nurture

    passes nature” unigram : {nature, nurture, passes} bigram : {nature-passes, passes- nature} trigram : {nurture-passes-nature} ▪ ダミーの単語(dummy word) Ex.) “B nurture passes nature E” bigram : {B-nurture, nature-E, nature-passes, passes- nature} 13
  14. 2.1 nグラム (n–gram) ▪ 文字nグラム(character n–gram) : 隣り合って出現したn文字 Ex.) “nature”

    bigram : {na, at, tu, ur, re} trigram : {nat, atu, tur, ure} 14
  15. 2.2 文書, 文のベクトル表現 ▪ bag-of-words 文書d内の単語ωの頻度n(ω, d) Ex.) “nature or

    nurture? nurture passes nature.” (2) = (n(“nature”, d), n(“nurture”, d), n(“or”, d), n(“pass”, d)) = (2,2,1,1) 15
  16. 2.3 単語のベクトル表現 ▪ 単語トークン(word token) :出現した一つ一つの単語を指す用語 ▪ 単語タイプ(word type) :出現した単語の種類を指す用語

    Ex.) “nature or nurture? nurture passes nature.” 単語タイプ数(異なり語数):4 単語トークン数(述べ語数):6 16
  17. 2.3 単語のベクトル表現 ▪ 文脈ベクトル (context vector) : 単語の外部(文脈)により作られるベクトル Ex.) 高く

    跳ぶ に は まず 屈め x跳ぶ = (n(“高く”), n(“に”), n(“は”), n(“まず”), n(“屈め”)) 前後の1単語トークンを用いた「跳ぶ」の文脈ベクトルは, = (1,1,0,0,0) ▪ 文脈窓 (context window) : 文章中の考慮している箇所 2.3.1 単語トークンの文脈ベクトル表現 17
  18. 2.3 単語のベクトル表現 Ex.) “nothing ventured, nothing grained.” xnothing = (n(“ventured”

    +1), n (“ventured” -1), n(“grained” +1), n (“grained” -1), n(“,” +1), n (“,” -1) = (1,0,1,0,0,1) 複数の文脈窓内でどんな単語が何回出現したか 直前直後の1単語トークンを文脈とし, 位置により区別すると, “nothing”の文脈ベクトルは 2.3.2 単語タイプの文脈ベクトル表現 18