Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゼロつく2_輪読.pdf

Avatar for Pirotyyy Pirotyyy
February 21, 2024
68

 ゼロつく2_輪読.pdf

Avatar for Pirotyyy

Pirotyyy

February 21, 2024
Tweet

Transcript

  1. (自己)相互情報量の導入 自己相互情報量(PMI):2つの値x, yの依存度を表す指標 相互情報量(MI):2つの確率変数X, Yの依存度を表す指標(PMIの平均) PMIの定義(式) PMIが正のとき P(x, y) >

    P(x)P(y) xとyが一緒に出現しやすい(共起しやすい) PMIが負のとき P(x, y) < P(x)P(y) xとyが一緒に出現しにくい(共起しにくい) PMIが0のとき P(x, y) = P(x)P(y) xとyは独立である(依存関係なし)
  2. (自己)相互情報量の導入 PMI(“the”, “car”) ≒ 2.32 PMI(“car”, “drive”) ≒ 7.97 以下のように計算できる。

    結果より、人間の感覚に近いことがわかる。 したがって、単語の関連付けを行う方法についてはこれでいいかもしれない しかし、コーパス中の単語の種類が増えていくにつれて、共起行列であったり、PMIの行列の次 元数はとんでもない数になる。 どうにかして、扱う行列の次元を減らしたい!!