Slide 1

Slide 1 text

自然言語処理研究室 B3 Seminar 2013 年度 第6週 ~論文紹介「Bayesian Sets」~ 長岡技術科学大学 B3 竹野 峻輔

Slide 2

Slide 2 text

• Bayesian Sets Ghahramani, Z. & Heller, K. Bayesian sets. NIPS 2, 22–23 (2005). Google Sets 入力:複数の単語 ⇒ 出力:複数の単語と関連度の高い単語 ex) banana, apple ⇒ grape http://enspire.cocolog-nifty.com/blog/2011/07/google-sets-542.html http://googlesystem.blogspot.jp/2012/11/google-sets-still-available.html http://google.about.com/od/blogs/ss/Google-Labs-Dropouts-And-Failures_9.htm ベイズ推論を使ったモデル化 ⇒ Bayesian Sets 必要な知識(Keywords): ベイジアンネットワーク 2014/2/14 自然言語処理研究室 2013年度 B3ゼミ 第3週 1.Introduction

Slide 3

Slide 3 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 基本的な方針; どうやって入力セットDc と同じクラスタを見つけるか? ―クラスタのヒントとなるのはDc だけ ⇒所属するクラスタを探すのは困難 ⇒要求に応じたクラスタ(clustering on demand)を探す. ≒入力セットと似たような単語を見つける ⇒ 単語に類似度の優劣がつけば良い ⇒ 入力セットの類似度ランキングを作成. 上位の単語を出力

Slide 4

Slide 4 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 基本的なアルゴリズム: パラメータθのもとDのデータが生み出されていると仮定する;ベイズモデル 与えられたサブセットDc から一番 共起しやすい単語を出力する 降順に並び替え⇒出力 パラメータθの打消し ベイズの定理

Slide 5

Slide 5 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 2. Bayesian Sets 評価関数: ⇒対数とると自己相互情報量(PMI) DC : 入力のサブセット, xはアイテム アイテムの尤度の影響を打ち消して,共起を計る ⇒p(・)は分布関数だが実際には1列の行列で表現

Slide 6

Slide 6 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 3. Sparse Binary Data where • 多変数ベルヌーイモデルを仮定 • ハイパーパラメータ導入(α,β);階層ベイズ

Slide 7

Slide 7 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 3. Sparse Binary Data Γ関数; 階乗(n!)計算の一般化 xi,j の場合分けを行い,簡単化

Slide 8

Slide 8 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 4.Exponential Families ベータ分布は凄い!-

Slide 9

Slide 9 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 4.Exponential Families score関数を指数型分布での一般化 h :正規化関数, ν :頻度分布 事前に計算できる部分と計算できない部分に分けれる ⇒ 計算速度の高速化

Slide 10

Slide 10 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 4.Exponential Families

Slide 11

Slide 11 text

2014/2/14 自然言語処理研究室 2013年度 B3コアタイム 第3週 5. Sparse Binary Data 結果: Grolier Encyclopedia Data から作られたBayesian SetsとGoogle Setsの比較 素性抽出方法(2値の素性): (article, word)の組み合わせで素性抽出;ただし頻度1のデータは取り除く. α = cm, β = c(1-m) where m:平均ベクトル, c :定数(2) 応答時間:1.1秒程度 (MATLAB, Pentium4@2GHz