Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SmallWorldによる類似文書検索のための重要語選定

 SmallWorldによる類似文書検索のための重要語選定

竹元 勇太, 沢井 康孝, 山本 和英. SmallWorldによる類似文書検索のための重要語選定. 言語処理学会第14回年次大会, pp.951-954 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. SmallWorld ▪ x x 1 1 , ,x x 2

    2   : 松尾らの手法で抽出できる語 ▪ w w 1 1 , ,w w 2 2 , ,w w 3 3 : 本手法で抽出する語 Fig.1 SmallWorldの例 クラスタ クラスタ 2 k d b c a w2 x2 x1 w1 e f h g j l w3 リンク ノード 3 4 2 1 6 6 2 4 3 1 5 6 2 3 2 4 1 3
  2. SmallWorldの作成  ノードの作成  複合名詞(特定品詞が連続した語)の作成  頻度がf 0 以上の語をノードとする 

    リンクの作成  リンクの重みを計算  Jaccard係数の逆数を重みに使用  リンクの重みの上位k 0 個までノード対 にリンクを張る 5
  3. 貢献度の計算 ▪ SmallWorl構造を用いて貢献度CB C (w)の算出 ▪ L'G (w)とL'(w)をd'(a,b)の総和から算出 ▪ d(a,b)とWsum(定数)はリンクの長さを表す

    ▪ Wsumはノードから他のノードに直接繋 がっているリンクの中で最も値の大きいも のを全てのノードについて加算したもの ) ( ) ( ) ( w L w L w CB G C ′ − ′ = 6 d 'a ,b {d a ,b a ノード ,b間に直接リンクがある場合 , w または間に がある場合 Wsum それ以外の場合
  4. 比較手法 ▪本手法×IDF  CBc(w)×idf (w) ▪CB×IDF  CB(w)×idf (w) ▪TF×IDF

     tf(w)×idf(w) ▪χ2×IDF  idf(w) ) ) , ( ( 2 × − ∑ ∈ G g g w g w p n p n g w freq 8
  5. 重要語選定の評価(1/3) ▪評価データ  言語処理学会年次大会発表論文集:10文書  2004年 日本経済新聞 :30記事 ▪評価対象 

    システムが出力した5単語 ▪正解データ  評価者が検索に必要だと判断した単語 ▪評価方法  システムが出力した重要語の中に含まれてい る正解データの個数の合計を評価データ数で 平均したもの 9
  6. Fig.3 入力を論文とした場合の    単語抽出精度の評価結果 Fig.4 入力を新聞記事とした場合     の単語抽出精度の評価結果 • 新聞記事では共起情報のスパースで

    SmallWorld構造を生成するのが難しい →共起辞書を使用することによって、 共起情報の不足をカバー 10 重要語選定の評価(2/3) 3.6 3.2 3.3 2.6 0 1 2 3 4 5 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 平均正解単語数 1.6 1.7 1.5 1.4 0 1 2 3 4 5 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 平均正解単語数
  7. 類似文書検索 ▪コサイン類似度の計算方法 ∑ ∑ ∑ = = = × ×

    = T i i T i i T i i i y x y x dy dx 1 1 1 ) , ( σ x i は文書dxの複合名詞iに対する2値変数 y i は文書dyの複合名詞iに対する2値変数 7’
  8. 比較手法の説明 ▪ χ2 ∑ ∈ − G g g w

    g w p n p n g w freq 2 ) ) , ( ( g:入力文書中で出現頻度上位30%に含まれる語 G:頻出語gの集まり freq(w,g):語wと語gの入力文書中の文内共起頻度 nw:語wが出現する文に含まれる語数の合計 pg: 語数の合計 文書全体に含まれるの る語数の合計 が出現する文に含まれ 語g 1
  9. 実験結果 異なり数/ 延べ数 記事No. 7/18 記事4 10/18 9/18 7/18 6/18

    記事5 記事3 記事2 記事1  各入力記事における評価者(6人)が選択した入力記 事中の類似文書検索に必要だと考える単語(3単語) の異なり数 1
  10. クエリ作成  ~SmallWorld構造の概念~ ▪ ノードを人と考え、リ ンクが人と人の関係を 示すとする ▪ リンクの長さは親密度 を表す ▪

    w氏がいることでa氏と b氏がすぐに出会うこ とができる ▪ このようにw氏がいる 場合といない場合の差 を貢献度CB(w)と考え る が存在しない場合 w ノード a b c e d w a が存在する場合 w リンク b c e d w 1
  11. ノードの作成 ▪ 複合名詞の作成  特定品詞が連続した語を複合名詞とした ➔ 特定品詞:  名詞-一般、名詞-数、固有名詞-一般、  固有名詞-人名、固有名詞-組織、  固有名詞-地域、名詞-サ変接続、

     名詞-形容動詞語幹、名詞-接尾-一般、  名詞-接尾-助数詞、未知語  記号-アルファベット ▪ ノードとする要素  文書中の全複合名詞を対象  頻度がf0 以上の語をノードとする 1
  12. 貢献度の計算 ▪ SmallWorl構造を用いて貢献度CB C (w)の算出 ▪ 貢献度CB C (w)の計算例 )

    ( ) ( ) ( w L w L w CB G C ′ − ′ = a b c e w 4 5 1 2 1  d(a,b)とWsumはリンクの長さを表す  L'G(w)は語wが存在しないと仮定したときの d'(a,b)の値 ➔ L'G(w) =18+4+5+18+18+18 = 81  L'(w)は語wが存在すると仮定したときの d'(a,b)の値 ➔ L'(w) = 3+4+5+ 3+18+18 = 51  語wの貢献度CB C (w) - CB C (w) = 81-51 = 30 d '  a , b  { d  a , b  a , b 間に直 または間に Wsum それ以外の Wsum=18 Fig.2 SmallWorldの例 5