因子組み合わせによる順位付け文書からの興味因子判別

 因子組み合わせによる順位付け文書からの興味因子判別

沢井 康孝、峠 泰成、山本 和英. 因子組み合わせによる順位付け文書からの興味因子判別. 言語処理学会第12回年次大会, pp.951-954 (2006.3)

Transcript

  1. 1   因子組み合わせによる 順位付け文書からの 興味因子判別 沢井康孝、峠泰成、山本和英 長岡技術科学大学 2006 . 3

    . 16
  2. 2 概要 • 興味を捕らえる – 興味が現れている情報源としてランキングに注目 • ランキングとしてニュースランキングを使用 – 人の興味がアクセス数として反映

    • 何が興味に影響するか? – 文書の内容語を因子とし組み合わせを行う – ランキングの順位情報を使って処理する
  3. 3 概要 • 興味に影響する因子が分かる → 未知文書の興味判断が可能 2つの処理で実験を行う • 学習データから因子に興味スコアを付与する •

    文書に含まれる因子から文書の興味スコアを付 与する
  4. 4 システム出力 5.44( 外 ): 「大切な友達」合唱し追悼 女児殺害から1年の大久保小 5.16(6) : 9割が著作権許諾なし 音楽ダウンロード 4.04(15)

    : 通勤時間帯の丸ノ内線で人身事故、45分止まる 0.05( 外 ): キタキツネ、お母さんと一緒 知床に子育ての季節 0.02( 外 ): 米長期金利、3カ月半ぶり4%割れ 0.01( 外 ): 日経平均の午前終値、11円高の1万1288円 • システム出力 – システム出力上位 – システム出力下位 システム出力値 ( 実際のランキング ): 記事タイトル
  5. 5  評価:抽出精度 • 抽出精度 – 一度に発表されるランキングの数 (30) だけ興味ス コアの上位から記事を選択 –

    実際のランキングに出現する記事を正解とした • 平均正解記事数 14.52 記事 • 精度 48 % • 順位相関 – 実際のランキングに出現する記事のみを入力 – 興味スコアで並び替えを行い実際の順位と比較 • 平均順位相関値 0.22
  6. 6  まとめ • 順位情報を利用して、因子の組み合わせで興味 の強さを推定した。 – 精度 48% – 文書のジャンルで分割される結果を得た

    • 検討課題 – 文書に付与するスコアの検討 – 未知語に対する処理 – 興味発生のモデル
  7. 7  因子の組合わせ • 文書に含まれる内容語を因子とする • 因子は組み合わせて複合因子として扱う 原文:インド北部で厳しい冷え込みが続いている。 ↓ 因子:インド、北部、厳しい、冷え込み、続く ↓

    複合因子: { インド、北部 },{ インド 、厳しい } ... { インド、北部、厳しい、冷え込み、続く}
  8. 8  順位情報 ( 処理 1,2) • ニュースランキングはアクセス数で決定される • アクセス数に近づけたほうが興味に対して直接 的に関係している値である

    • 順位とアクセス数が Zipf's の法則に従うとして アクセス数に変換する。 • 順位が付与されていない記事 – 順位外には同一の値を付与 – Zipf's の法則で全アクセス数を推定 – 全アクセス数から順位外のアクセス数を求める
  9. 9  複合因子の興味スコア (処理3) • 2つの値を用いて付与する – 学習データ内の複合因子の出現文書数 – 学習データ内の複合因子の総アクセス数 •

    順位の上昇に強く影響している複合因子ほど高 いスコアが付与される 0.225 { 住む , 発見 } 0.225 { 泥酔 , 被告 } 0.177 { 小泉 , 連絡 , 拉致 } 0.014 { 小泉 , 基本 } 0.013 { 株式 , 終値 , 平均 } 0.013 { 市場 , 終値 , 平均 }
  10. 10  複合因子の興味スコア • 複合因子に興味スコアを付与するため、以下の 処理を行う – 1. 順位情報をアクセス数に変換する – 2.

    順位外の文書にもアクセス数を付与する – 3. 複合因子の出現文書数とアクセス数を用いて興 味スコアを計算する Ex:{ インド , 地震 , 津波 } 出現回数 19 アクセス数総和 4 . 18 スコア = 4 . 18 / 19 = 0 . 220
  11. 11  文書の興味スコア • 文書に含まれる複合因子から文書の興味の強 さをスコアとして推定する 未知文書 複合因子 リスト 複合因子に付与されている興味スコアから 文書の興味スコアを計算する

    複合因子の抽出 興味 スコア
  12. 12 { 自宅 女児 },{ 運転 , 路上 },{ 運転

    , 現場 },{ 現場 , 女児 } { 女児 , 話す },{ 女児 , 母親 },{ 自宅 , 母親 },{ 女児 , 連れ去る }... { 為替 , 外国 },{ 外国 , 為替 , 市場 } { ニューヨーク , 相場 },{ 為替 , 相場 }... タイトル:小2女児、車で連れ去られ30分後に解放  本文:21日午後3時ごろ、和歌山市内の路上で、 ... タイトル:Ny円、1ドル=108円台前半 本文:20日のニューヨーク外国為替市場の円相場は、 ... { ヤンキース , 先制 , 先発 },[ 試合 , 松井 , 本塁打 } { ヤンキース , 先制 },{ 先発 , 打つ } { ヤンキース , 先制 , 本塁打 },{ ロイヤルズ , 打席 }... タイトル:松井秀、47試合ぶり4号本塁打  本文:米大リーグ・ヤンキースの松井秀は ...
  13. 13  評価実験 • 興味スコアを付与するためのデータ – Web で公開されている朝日新聞社の記事を収集 • アクセスランキング内記事 8830

    記事 • ランキング外の記事 25587 記事 • 評価用データ – 上記と同様のものを期間を変えて収集 • 二か月分収集し、60セット作成
  14. 14  考察 • 結果の観測 – 記事のカテゴリによる分類 – 文書に含まれる複合因子全てを利用する問題 • 同じ因子が何度も出現する

    – 強い因子が多数の弱い因子で埋もれてしまう • Ex ライブドア+株価の記事は上位にならない • 未知データに対する処理 – 未知語が記事の中心の場合捕らえられない
  15. 15 考察 • 組み合わせの方法 – 複合因子の差違を明確にする。 • 興味の発生 – 「特殊だから興味がある」などの実際のランキング上

    位に入る要因別にモデルで対応する必要がある。