Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理研究室_第06週.pdf

takegue
February 14, 2014

 自然言語処理研究室_第06週.pdf

Bayesian Sets

takegue

February 14, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. • Bayesian Sets Ghahramani, Z. & Heller, K. Bayesian sets.

    NIPS 2, 22–23 (2005). Google Sets 入力:複数の単語 ⇒ 出力:複数の単語と関連度の高い単語 ex) banana, apple ⇒ grape http://enspire.cocolog-nifty.com/blog/2011/07/google-sets-542.html http://googlesystem.blogspot.jp/2012/11/google-sets-still-available.html http://google.about.com/od/blogs/ss/Google-Labs-Dropouts-And-Failures_9.htm ベイズ推論を使ったモデル化 ⇒ Bayesian Sets 必要な知識(Keywords): ベイジアンネットワーク 2014/2/14 自然言語処理研究室 2013年度 B3ゼミ 第3週 1.Introduction
  2. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 基本的な方針; どうやって入力セットDc

    と同じクラスタを見つけるか? ―クラスタのヒントとなるのはDc だけ ⇒所属するクラスタを探すのは困難 ⇒要求に応じたクラスタ(clustering on demand)を探す. ≒入力セットと似たような単語を見つける ⇒ 単語に類似度の優劣がつけば良い ⇒ 入力セットの類似度ランキングを作成. 上位の単語を出力
  3. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 基本的なアルゴリズム: パラメータθのもとDのデータが生み出されていると仮定する;ベイズモデル

    与えられたサブセットDc から一番 共起しやすい単語を出力する 降順に並び替え⇒出力 パラメータθの打消し ベイズの定理
  4. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 評価関数: ⇒対数とると自己相互情報量(PMI)

    DC : 入力のサブセット, xはアイテム アイテムの尤度の影響を打ち消して,共起を計る ⇒p(・)は分布関数だが実際には1列の行列で表現
  5. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 3. Sparse Binary Data where

    • 多変数ベルヌーイモデルを仮定 • ハイパーパラメータ導入(α,β);階層ベイズ
  6. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 3. Sparse Binary Data Γ関数;

    階乗(n!)計算の一般化 xi,j の場合分けを行い,簡単化
  7. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 4.Exponential Families score関数を指数型分布での一般化 h :正規化関数,

    ν :頻度分布 事前に計算できる部分と計算できない部分に分けれる ⇒ 計算速度の高速化
  8. 2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 5. Sparse Binary Data 結果:

    Grolier Encyclopedia Data から作られたBayesian SetsとGoogle Setsの比較 素性抽出方法(2値の素性): (article, word)の組み合わせで素性抽出;ただし頻度1のデータは取り除く. α = cm, β = c(1-m) where m:平均ベクトル, c :定数(2) 応答時間:1.1秒程度 (MATLAB, Pentium4@2GHz