Upgrade to Pro — share decks privately, control downloads, hide ads and more …

順位付け文書からの影響因子マイニング

 順位付け文書からの影響因子マイニング

沢井 康孝, 峠 泰成, 山本 和英. 順位付け文書からの影響因子マイニング. 情報処理学会 研究報告, NL163-23 / FI76-23 (2004.9)

自然言語処理研究室

September 30, 2004
Tweet

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 興味が現れているデータ  朝日新聞社「アクセスTOP30」  一日に現れる記事  平均130記事  ランキングに出現する記事 

    0時から24時までのアクセス数による順位付け  30位までの30記事を掲示  ランキングに出現する記事を順位付き文書  ランキング外の記事を順位外文書 このデータでマイニングを試みた
  2. 関連研究  石井ら(2004)  名詞句と単語の勢いを用いた話題抽出手法  時系列を用いた話題抽出  武田ら(2003) 

    WWWを用いた時事的な話題の分析  順位のついた情報を利用した話題の分析
  3. 単語の影響度  影響要素を単語とする  順位情報→単語が順位に及ぼす影響度  使用する単語  動詞、名詞、形容詞 

    影響度を推定するために  順位付き文書内に出現する頻度  順位付き文書に出現した時の順位
  4. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  5. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  6. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  7. 実験及び評価  出力  単語の影響度により記事にスコアを付加  スコアの値によって並び替え  評価 

    出力に含まれる実際のランキング記事数  出力の順位と実際の順位の比較
  8. 出力例(出力上位記事 9/11) 27 テロ対策、米で監視と規制強化9・11から3周年 3 ジェンキンスさん、キャンプ座間に出頭 4 妻の背に深い刺し傷、恨みによる犯行か愛知・4人殺害 15 UFJ銀を告発へ金融庁、検査忌避「悪質」と判断

    京都強盗放火で運転手逮捕強殺被害者の同僚も送検へ 京都強盗放火で運転手逮捕強殺被害者の元同僚も送検へ 京都の強殺未遂事件、手配の男を逮捕 25 次男も強い殴打の跡、広範囲に灯油愛知・4人殺害 当時未成年の男性4人を逮捕ホームレス致死で千葉県警 1 女性2人、間一髪で男性救う電車とホームのすき間転落 「中国で埋設指揮」元日本兵が証言へ毒ガス訴訟 22 3年たっても「同じ失敗の可能性」告発のFBI捜査官 13 長周期の揺れ、広範囲で観測東大地震研究所が解析 「9・11テロ」3年の前夜、平和願う遺族NYなど
  9. 順位相関  平均順位相関値  0.20  最大順位相関値  0.54 

    順位相関の分布  負の相関 1件  相関無し 11件  正の相関 18件 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 6 7 順位相関係数 頻度
  10. 単語の影響について  単語を影響因子とした  低頻度の単語  影響度が幅広い分布  高い値を持つものが存在 

    中頻度の単語  出現回数が同程度の単語において  値が大きい(影響因子となりうる):自殺 中学校  値が小さい:支店 予防  高頻度  影響を推定できないため
  11. 全体の傾向  図 0〜10 10〜20 20〜30 30〜40 40〜50 50〜60 60〜70

    70〜80 80〜90 90〜100 0 1 2 3 4 5 出力の範囲 ランキング記事出現頻度
  12. 全体の傾向  傾向  出力の上位  ランキング内に出現した記事数が多い  下位ほどランキング記事数が減少 

    順位情報を興味の強さに近づけた興味強度 は文書を興味の大小によって選択できる可能 性がある
  13. おわりに  精度は低いものの上位に偏りが現れるた め、順位情報は興味の分析を行う際のパ ラメータとして使用できる可能性がある  今後の課題  共起による順位への影響 

    影響因子の種類の増加  他のランキングにおける効果  ニュースランキング以外でも同様のことが可能か どうかの検証