Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SmallWorldによる類似文書検索のための重要語選定

 SmallWorldによる類似文書検索のための重要語選定

竹元 勇太, 沢井 康孝, 山本 和英. SmallWorldによる類似文書検索のための重要語選定. 言語処理学会第14回年次大会, pp.951-954 (2008.3)

Transcript

  1. SmallWorld SmallWorld による による 類似文書検索のため 類似文書検索のため の重要語選定 の重要語選定 長岡技術科学大学 山本研究室 竹元勇太

    沢井康孝 山本和英
  2. 背景 ▪ 大量の電子化文書  -効率よく情報にアクセスする ための支援技術  -その技術の一つとして ⇒類似文書検索 ▪ Webから類似文書を検索するためには検 索用のクエリが必要 

    ⇒重要語抽出 1
  3. 既存手法 ▪SmallWorld構造に基づく キーワード抽出[松尾 01]  SmallWorld構造とは文書内の単語の文内 共起情報をグラフ化したもの  SmallWorldにおいて、情報の伝達に貢献 している単語を重要語としている

     貢献度という尺度を用いて重要度を計算  松尾らが選定できると考えている重要語 ➔ 筆者が文書中で述べたい単語 3
  4. 提案手法 ▪検索の観点から重要語に必要なもの  SmallWorld構造の中で重要となる語 ➔ 網羅性→異なるクラスタから抽出した語 ➔ 特定性→クラスタの中でリンクが      多く張られている語

    ▪提案手法  貢献度の計算方法の変更 ➔ 網羅性と特定性を考慮  リンクの重みを考慮 4
  5. SmallWorld ▪ x x 1 1 , ,x x 2

    2   : 松尾らの手法で抽出できる語 ▪ w w 1 1 , ,w w 2 2 , ,w w 3 3 : 本手法で抽出する語 Fig.1 SmallWorldの例 クラスタ クラスタ 2 k d b c a w2 x2 x1 w1 e f h g j l w3 リンク ノード 3 4 2 1 6 6 2 4 3 1 5 6 2 3 2 4 1 3
  6. SmallWorldの作成  ノードの作成  複合名詞(特定品詞が連続した語)の作成  頻度がf 0 以上の語をノードとする 

    リンクの作成  リンクの重みを計算  Jaccard係数の逆数を重みに使用  リンクの重みの上位k 0 個までノード対 にリンクを張る 5
  7. 貢献度の計算 ▪ SmallWorl構造を用いて貢献度CB C (w)の算出 ▪ L'G (w)とL'(w)をd'(a,b)の総和から算出 ▪ d(a,b)とWsum(定数)はリンクの長さを表す

    ▪ Wsumはノードから他のノードに直接繋 がっているリンクの中で最も値の大きいも のを全てのノードについて加算したもの ) ( ) ( ) ( w L w L w CB G C ′ − ′ = 6 d 'a ,b {d a ,b a ノード ,b間に直接リンクがある場合 , w または間に がある場合 Wsum それ以外の場合
  8. 類似文書検索 ▪システムが出力した重要語を含む記事  (類似文書候補)を取得  1記事中に含まれるクエリの個数が多い ものから取得  既定値以上の記事を取得した時点で検索 終了 ▪類似度計算

     コサイン類似度を用いて入力文書と類似 文書候補の類似度を計算 ▪類似度の高い順に出力  7
  9. 比較手法 ▪本手法×IDF  CBc(w)×idf (w) ▪CB×IDF  CB(w)×idf (w) ▪TF×IDF

     tf(w)×idf(w) ▪χ2×IDF  idf(w) ) ) , ( ( 2 × − ∑ ∈ G g g w g w p n p n g w freq 8
  10. 重要語選定の評価(1/3) ▪評価データ  言語処理学会年次大会発表論文集:10文書  2004年 日本経済新聞 :30記事 ▪評価対象 

    システムが出力した5単語 ▪正解データ  評価者が検索に必要だと判断した単語 ▪評価方法  システムが出力した重要語の中に含まれてい る正解データの個数の合計を評価データ数で 平均したもの 9
  11. Fig.3 入力を論文とした場合の    単語抽出精度の評価結果 Fig.4 入力を新聞記事とした場合     の単語抽出精度の評価結果 • 新聞記事では共起情報のスパースで

    SmallWorld構造を生成するのが難しい →共起辞書を使用することによって、 共起情報の不足をカバー 10 重要語選定の評価(2/3) 3.6 3.2 3.3 2.6 0 1 2 3 4 5 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 平均正解単語数 1.6 1.7 1.5 1.4 0 1 2 3 4 5 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 平均正解単語数
  12. Fig.5 共起辞書を使用した場合(本手法のみ)の単語抽出精度の評価結果 • 他のグラフ構造を使用することによって、 本手法の精度が向上した • 概念辞書など他のグラフ構造も使用し  てみることを今後の課題として検討 11 重要語選定の評価(3/3)

    1.6 1.6 1.7 1.5 0 1 2 3 4 5 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 平均正解単語数
  13. ▪評価データ  新聞記事30記事 ▪評価対象  システムが出力した類似文書候補50 記事からランダム抽出した10記事 ▪記事の評価方法  評価者が選んだ類似に必要な単語の

    含有率  4段階評価  1(Bad)~4(Good) 12 類似文書検索の評価(1/2)
  14. ▪重要語の選定精度と類似文書検索の 精度の間には相関がある  人が検索で重要であるとする単語は実 際検索において有効である Fig.6 類似文書検索の評価 13 類似文書検索の評価(2/2) 1.4

    1.4 1.5 1.4 0 1 2 3 4 本手法 ×IDF CB ×IDF TF ×IDF χ2 ×IDF 4段階評価の平均
  15. おわりに ▪共起情報からSmallWorld構造を生成  SmallWorldの特性を活かして重要語を選定 ▪松尾らの手法を改良し、類似文書検 索に有効な手法を考案することがで きた ▪長い文書に対して本手法は有効  新聞記事の様に短い文書には不向き

     入力文書だけでは不足する情報を他の グラフ構造を用いて補うことは可能 14
  16. SmallWorldの作成  Jaccard係数の計算方法 の単語を含む文の数 または 数 両方の単語を含む文の と b a

    b a b a Jaccard = ) , ( 5’
  17. 類似文書検索 ▪コサイン類似度の計算方法 ∑ ∑ ∑ = = = × ×

    = T i i T i i T i i i y x y x dy dx 1 1 1 ) , ( σ x i は文書dxの複合名詞iに対する2値変数 y i は文書dyの複合名詞iに対する2値変数 7’
  18. ▪4段階評価の基準  評価者が選んだ重要語の 含有率で評価 1) 0%~25%含まれている 2) 25%~50%含まれている 3) 50%~75%含まれている

    4) 75%以上含まれている 12’ 類似文書検索の評価(1/2)
  19. 比較手法の説明 ▪ χ2 ∑ ∈ − G g g w

    g w p n p n g w freq 2 ) ) , ( ( g:入力文書中で出現頻度上位30%に含まれる語 G:頻出語gの集まり freq(w,g):語wと語gの入力文書中の文内共起頻度 nw:語wが出現する文に含まれる語数の合計 pg: 語数の合計 文書全体に含まれるの る語数の合計 が出現する文に含まれ 語g 1
  20. 実験結果 異なり数/ 延べ数 記事No. 7/18 記事4 10/18 9/18 7/18 6/18

    記事5 記事3 記事2 記事1  各入力記事における評価者(6人)が選択した入力記 事中の類似文書検索に必要だと考える単語(3単語) の異なり数 1
  21. クエリ作成  ~SmallWorld構造の概念~ ▪ ノードを人と考え、リ ンクが人と人の関係を 示すとする ▪ リンクの長さは親密度 を表す ▪

    w氏がいることでa氏と b氏がすぐに出会うこ とができる ▪ このようにw氏がいる 場合といない場合の差 を貢献度CB(w)と考え る が存在しない場合 w ノード a b c e d w a が存在する場合 w リンク b c e d w 1
  22. ノードの作成 ▪ 複合名詞の作成  特定品詞が連続した語を複合名詞とした ➔ 特定品詞:  名詞-一般、名詞-数、固有名詞-一般、  固有名詞-人名、固有名詞-組織、  固有名詞-地域、名詞-サ変接続、

     名詞-形容動詞語幹、名詞-接尾-一般、  名詞-接尾-助数詞、未知語  記号-アルファベット ▪ ノードとする要素  文書中の全複合名詞を対象  頻度がf0 以上の語をノードとする 1
  23. 貢献度の計算 ▪ SmallWorl構造を用いて貢献度CB C (w)の算出 ▪ 貢献度CB C (w)の計算例 )

    ( ) ( ) ( w L w L w CB G C ′ − ′ = a b c e w 4 5 1 2 1  d(a,b)とWsumはリンクの長さを表す  L'G(w)は語wが存在しないと仮定したときの d'(a,b)の値 ➔ L'G(w) =18+4+5+18+18+18 = 81  L'(w)は語wが存在すると仮定したときの d'(a,b)の値 ➔ L'(w) = 3+4+5+ 3+18+18 = 51  語wの貢献度CB C (w) - CB C (w) = 81-51 = 30 d '  a , b  { d  a , b  a , b 間に直 または間に Wsum それ以外の Wsum=18 Fig.2 SmallWorldの例 5