2 : 松尾らの手法で抽出できる語 ▪ w w 1 1 , ,w w 2 2 , ,w w 3 3 : 本手法で抽出する語 Fig.1 SmallWorldの例 クラスタ クラスタ 2 k d b c a w2 x2 x1 w1 e f h g j l w3 リンク ノード 3 4 2 1 6 6 2 4 3 1 5 6 2 3 2 4 1 3
▪ Wsumはノードから他のノードに直接繋 がっているリンクの中で最も値の大きいも のを全てのノードについて加算したもの ) ( ) ( ) ( w L w L w CB G C ′ − ′ = 6 d 'a ,b {d a ,b a ノード ,b間に直接リンクがある場合 , w または間に がある場合 Wsum それ以外の場合
g w p n p n g w freq 2 ) ) , ( ( g:入力文書中で出現頻度上位30%に含まれる語 G:頻出語gの集まり freq(w,g):語wと語gの入力文書中の文内共起頻度 nw:語wが出現する文に含まれる語数の合計 pg: 語数の合計 文書全体に含まれるの る語数の合計 が出現する文に含まれ 語g 1
( ) ( ) ( w L w L w CB G C ′ − ′ = a b c e w 4 5 1 2 1 d(a,b)とWsumはリンクの長さを表す L'G(w)は語wが存在しないと仮定したときの d'(a,b)の値 ➔ L'G(w) =18+4+5+18+18+18 = 81 L'(w)は語wが存在すると仮定したときの d'(a,b)の値 ➔ L'(w) = 3+4+5+ 3+18+18 = 51 語wの貢献度CB C (w) - CB C (w) = 81-51 = 30 d ' a , b { d a , b a , b 間に直 または間に Wsum それ以外の Wsum=18 Fig.2 SmallWorldの例 5