順位付け文書からの影響因子マイニング

 順位付け文書からの影響因子マイニング

沢井 康孝, 峠 泰成, 山本 和英. 順位付け文書からの影響因子マイニング. 情報処理学会 研究報告, NL163-23 / FI76-23 (2004.9)

C04e17d9b3810e5c0ad22cb8a12589de?s=128

自然言語処理研究室

September 30, 2004
Tweet

Transcript

  1. 順位付け文書からの影響因子マイニング 長岡技術科学大学 電気系 沢井康孝 峠泰成 山本和英 2004.9.17

  2. 人の興味  「人の興味」という情報  ある物事に特に関心を向けている  興味とは人により様々  大勢が同じものに興味を持つ

  3. 影響要素  大勢の興味には、なにが影響しているか  対象が持っている要素による 例:文書と要素 どのような要素が興味に効いているのか  マイニング 文書

    1 要素 A、B、C 文書 3 要素 A、D 文書 2 要素 A、C、D 興味 大 興味 小
  4. 興味が現れているデータ  ランキング(順位情報)  順位を構成する要素(アクセス 数、閲覧数 等)は人の興味を 示している  使用したランキング

     ニュースランキングを使用  朝日新聞社 「アクセスTOP30」
  5. 興味が現れているデータ  朝日新聞社「アクセスTOP30」  一日に現れる記事  平均130記事  ランキングに出現する記事 

    0時から24時までのアクセス数による順位付け  30位までの30記事を掲示  ランキングに出現する記事を順位付き文書  ランキング外の記事を順位外文書 このデータでマイニングを試みた
  6. 関連研究  石井ら(2004)  名詞句と単語の勢いを用いた話題抽出手法  時系列を用いた話題抽出  武田ら(2003) 

    WWWを用いた時事的な話題の分析  順位のついた情報を利用した話題の分析
  7. 単語の影響度  影響要素を単語とする  順位情報→単語が順位に及ぼす影響度  使用する単語  動詞、名詞、形容詞 

    影響度を推定するために  順位付き文書内に出現する頻度  順位付き文書に出現した時の順位
  8. 全体の流れ 順位付き文書 順位外文書 単語の影響度のデータ 記事 単語 スコア 学習データ

  9. 全体の流れ  単語の影響度を推定  順位から興味の強さを推定  興味の強さから単語の影響度を推定  対象の文書の興味スコア 

    単語の影響度から興味に対するスコアを付加
  10. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  11. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  12. 興味が現れているデータ  ランキング(アクセス数、閲覧数、売り上げ)  選択式のアンケート(票数)  構成要素は直接的に人の興味に関係する  順位は構成要素の上下関係 このようなデータの中では上位に票数

    が集中する現象が現れる
  13. ベキ乗の法則 上位 下位 アクセス数 上位 下位 アクセス数 順位 順位 両対数

  14. 順位情報→興味の強さ  順位という興味の強さの上下関係を示した 値をべき乗の法則により興味の強さに近 似 興味の強さ=10−log順位= 1 順位

  15. 興味の強さから単語の影響度へ  興味の強さから単語が順位に及ぼす影響 を推定  単語に付加された順位情報は順位付き文書 出現頻度により複数持つ 単語wの影響度1= 単語wの持つ順位から求めた興味の強さの合計 単語wの順位付き文書内頻度

    順位付き文書内頻度0の単語については この先の処理を行わず影響度=0とした
  16. 興味の強さから単語の影響度へ  単語の影響度1  順位付き文書のみを使用して推定した値  順位無し文書への考慮が必要  順位付き文書の出現確率を使用 単語wの影響度2=

    単語wの影響度1⋅単語wの順位付き文書内頻度 単語wの全ての文書内頻度
  17. 興味の強さから単語の影響度へ  出現分布が広い単語は文書同士を比較す る値として適切ではない  単語の出現確率による補正  特に高頻度の語については0とした 影響度3を単語が順位に及ぼす影響の強さとする 単語wの影響度3=

    −単語wの影響度2⋅log 単語wの全ての文書内頻度 全ての文書数 
  18. 全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度

    興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
  19. 各文書に付加する興味スコア  文書に付加するスコア  対象の文書に含まれる異なり単語が順位に及 ぼす影響の値によって決定する。  対象は影響度が0より大きい単語 スコア1=文書に出現した異なり単語の影響度の合計

  20. 各文書に付加する興味スコア  文書に含まれる単語数の違いを考慮  平均の興味スコアに対して倍率も求め、この 倍率を興味スコアとした  この値を文書に付加し並び換えを行った 興味スコア=文書に出現した異なり単語の影響度の合計 文書の異なり単語数に対応した平均スコア

  21. 実験及び評価  入力  一日に出現する全記事(平均130記事)  7月の記事を使用(30回)  入力を一日に限定した場合、入力に含まれる 実際のランキング記事は平均で26記事

     単語の影響度を推定するための記事  4月から6月までの3ヶ月分  11916記事 (順位つき2730記事)
  22. 実験及び評価  出力  単語の影響度により記事にスコアを付加  スコアの値によって並び替え  評価 

    出力に含まれる実際のランキング記事数  出力の順位と実際の順位の比較
  23. 出力例(出力上位記事 9/11) 27 テロ対策、米で監視と規制強化9・11から3周年 3 ジェンキンスさん、キャンプ座間に出頭 4 妻の背に深い刺し傷、恨みによる犯行か愛知・4人殺害 15 UFJ銀を告発へ金融庁、検査忌避「悪質」と判断

    京都強盗放火で運転手逮捕強殺被害者の同僚も送検へ 京都強盗放火で運転手逮捕強殺被害者の元同僚も送検へ 京都の強殺未遂事件、手配の男を逮捕 25 次男も強い殴打の跡、広範囲に灯油愛知・4人殺害 当時未成年の男性4人を逮捕ホームレス致死で千葉県警 1 女性2人、間一髪で男性救う電車とホームのすき間転落 「中国で埋設指揮」元日本兵が証言へ毒ガス訴訟 22 3年たっても「同じ失敗の可能性」告発のFBI捜査官 13 長周期の揺れ、広範囲で観測東大地震研究所が解析 「9・11テロ」3年の前夜、平和願う遺族NYなど
  24. ランキング記事の出現数  出力順で30記事  平均10.6記事が実際のランキングに出現  最大で14記事が実際のランキングに出現  一日に出現する記事の半分の数を出力 

    ランキング内出現記事の約七割を含む (約65記事出力中 20記事がランキング記事)
  25. 順位相関  実際の順位と出力の順位の比較  入力はランキング内に出現した記事のみを使用  実際の順位と出力が1対1で対応  順位相関係数 

    スピアマンの順位相関係数を使用した
  26. 順位相関  平均順位相関値  0.20  最大順位相関値  0.54 

    順位相関の分布  負の相関 1件  相関無し 11件  正の相関 18件 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 6 7 順位相関係数 頻度
  27. 考察  出力について  30記事出力の精度  ランキング記事が平均で10.6記事含まれる →約3割の精度  出力の記事について内容を観察すると

     スポーツ記事  株関連 が下位に現れやすい 上位 下位 スポーツ記事 株関連
  28. 下位記事の例 高津、サヨナラで5勝目3分の2回を無失点 東京円、110円23〜26銭(午前11時現在) 近鉄、オリックス両球団、10日合併基本合意書に調印へ イチロー、5打数2安打チームは敗北 *15位 日経平均63円安、1万0908円70銭 アサヒビールがオール三菱に辛勝アメフットXリーグ 肥後かおりと、表純子が首位に並ぶ日本女子プロゴルフ パラリンピック日本選手団がアテネに到着17日開幕

    東大が今春優勝の明大を破る東京六大学野球  記事が下位に現れる要因  同種類の単語が使われている  単語一つ一つの影響度が低下する
  29. 単語の影響について  単語を影響因子とした  低頻度の単語  影響度が幅広い分布  高い値を持つものが存在 

    中頻度の単語  出現回数が同程度の単語において  値が大きい(影響因子となりうる):自殺 中学校  値が小さい:支店 予防  高頻度  影響を推定できないため
  30. 中頻度単語の例  影響が大きい単語  影響が小さい単語 暴風、興奮、演技、処罰、暴力団、教職員、生存、出勤、 教室、カッターナイフ、暴行、反省、メモ、逃走、自殺、同 級生、マンション、中学校、ジャーナリスト、最年少 財源、敵失、民兵、材料、ドレス、新幹線、常務、主戦、工 事、出資、需要、自治体、細胞、税金、債券、廃棄、指針

    、保証、貯金
  31. 全体の傾向  出力の範囲を固定した場合、その範囲に どれだけ実際のランキング記事が出現す るか  出力10件ごとに分割  10件中に出現するランキング記事の数の平均 を算出

  32. 全体の傾向  図 0〜10 10〜20 20〜30 30〜40 40〜50 50〜60 60〜70

    70〜80 80〜90 90〜100 0 1 2 3 4 5 出力の範囲 ランキング記事出現頻度
  33. 全体の傾向  傾向  出力の上位  ランキング内に出現した記事数が多い  下位ほどランキング記事数が減少 

    順位情報を興味の強さに近づけた興味強度 は文書を興味の大小によって選択できる可能 性がある
  34. ニュースランキング固有の影響  記事の発表時間に影響  発表された時間により掲示時間が異なる  リンク数の影響  各記事が同じ条件ではない ニュースランキングはアクセス数で順位付けされているため

    アクセス数の取り方 Web上に存在する といったことによる影響が考えられる
  35. おわりに  精度は低いものの上位に偏りが現れるた め、順位情報は興味の分析を行う際のパ ラメータとして使用できる可能性がある  今後の課題  共起による順位への影響 

    影響因子の種類の増加  他のランキングにおける効果  ニュースランキング以外でも同様のことが可能か どうかの検証
  36. 終わり