ゼロつく2_輪読.pdf

ゼロつく2 輪読第２章４節〜千葉大学工学部情報工学コース3年 @pirotyyy 輪読くらぶ

概要前回の復習（自己）相互情報量の導入 SVDによる次元削減まとめ

前回の復習

前回の復習自然言語処理について、代表的な２つの手法について学んだ例）シソーラスの手法・カウントベースの手法シソーラスの手法ある単語の類語辞典を作成し、それを元に単語の関連付けを行う課題点①：時代によって単語が増えるので、それに対応していく必要がある課題点②：シンプルに単語の量が多くて大変カウントベースの手法ある単語の周囲にある単語の出現回数を数え、それを元に関連付けを行うコサイン類似度を用いて、数え上げによって得られた共起行列の各要素間の類似度を求め、単語間
の関連づけを行った課題点：関連付けにコサイン類似度を用いると、「冠詞＋名詞」の組み合わせに弱い

（自己）相互情報量の導入

（自己）相互情報量の導入自己相互情報量（PMI）：2つの値x, yの依存度を表す指標相互情報量（MI）：2つの確率変数X, Yの依存度を表す指標（PMIの平均） PMIの定義（式） PMIが正のとき P(x, y) >
P(x)P(y) xとyが一緒に出現しやすい（共起しやすい） PMIが負のとき P(x, y) < P(x)P(y) xとyが一緒に出現しにくい（共起しにくい） PMIが0のとき P(x, y) = P(x)P(y) xとyは独立である（依存関係なし）

（自己）相互情報量の導入 PMIの値を用いて、単語の関連付けを行う例）単語数がN個であるコーパスを考える。コーパス中のある単語「the」「car」「drive」について以下の様であったとする。 N = 10000 「the」出現回数 = 1000
「car」出現回数 = 20 「drive」出現回数 = 10 「the」と「car」の共起回数 = 10 「car」と「drive」の共起回数 = 5

（自己）相互情報量の導入 PMI(“the”, “car”) ≒ 2.32 PMI(“car”, “drive”) ≒ 7.97 以下のように計算できる。
結果より、人間の感覚に近いことがわかる。したがって、単語の関連付けを行う方法についてはこれでいいかもしれないしかし、コーパス中の単語の種類が増えていくにつれて、共起行列であったり、PMIの行列の次元数はとんでもない数になる。どうにかして、扱う行列の次元を減らしたい！！

SVDによる次元削減

SVDによる次元削減次元削減：次元を削減すること散らばりの度合いを2次元から1次元で表すことができる

SVDによる次元削減カウントベースの手法における次元削減のモチベーション扱う行列データの次元が小さくすることで計算量が減る 1. ほとんどの要素が0であるベクトルを減らすことができる 2. ベクトルの全ての要素が意味のある値を持つ a. 0ばかりで、無駄な値が多い

SVDによる次元削減特異値分解：次元削減を行う1つの方法単語 ID 次元

SVDによる次元削減 Pythonで実装した例疎なベクトル密なベクトル

SVDによる次元削減 Pythonで実装した例 2次元目まで使用してグラフにプロットしてみる。「hello」「goodbye」が近い場所「i」「you」が近い場所

まとめ SVDによって、正確にコーパス中の単語の関連付けを行うことができた

ゼロつく2_輪読.pdf

ゼロつく2_輪読.pdf

Pirotyyy

More Decks by Pirotyyy

Featured

Transcript

ゼロつく2 輪読第２章４節〜千葉大学工学部情報工学コース3年 @pirotyyy 輪読くらぶ

概要前回の復習（自己）相互情報量の導入 SVDによる次元削減まとめ

前回の復習

（自己）相互情報量の導入

（自己）相互情報量の導入自己相互情報量（PMI）：2つの値x, yの依存度を表す指標相互情報量（MI）：2つの確率変数X, Yの依存度を表す指標（PMIの平均） PMIの定義（式） PMIが正のとき P(x, y) >

（自己）相互情報量の導入 PMIの値を用いて、単語の関連付けを行う例）単語数がN個であるコーパスを考える。コーパス中のある単語「the」「car」「drive」について以下の様であったとする。 N = 10000 「the」出現回数 = 1000

（自己）相互情報量の導入 PMI(“the”, “car”) ≒ 2.32 PMI(“car”, “drive”) ≒ 7.97 以下のように計算できる。

SVDによる次元削減

SVDによる次元削減次元削減：次元を削減すること散らばりの度合いを2次元から1次元で表すことができる

SVDによる次元削減特異値分解：次元削減を行う1つの方法単語 ID 次元

SVDによる次元削減 Pythonで実装した例疎なベクトル密なベクトル

SVDによる次元削減 Pythonで実装した例 2次元目まで使用してグラフにプロットしてみる。「hello」「goodbye」が近い場所「i」「you」が近い場所

まとめ SVDによって、正確にコーパス中の単語の関連付けを行うことができた