アクセスランキングを用いた大衆の普遍的な興味の数値化

 アクセスランキングを用いた大衆の普遍的な興味の数値化

沢井 康孝. アクセスランキングを用いた大衆の普遍的な興味の数値化. 長岡技術科学大学修士論文 (2008.3)

Transcript

  1. アクセスランキングを用いた   大衆の普遍的な興味の数値化 所属:山本研究室 学籍番号: 05534590 名前:沢井 康孝

  2. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 • 結論
  3. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 • 結論
  4. はじめに 情報の膨大化がもたらす恩恵と問題 – 利点 必要とする情報が得られやすい – 欠点 必要な情報が大量の情報に埋もれてしまう 情報を選択する技術 –

    検索、フィルタ、要約 人間が持つ興味、関心に着目 – 人間の感性情報で情報を選別       興味有り 興味有り       興味無し 興味無し
  5. 目的 目的:テキストの興味の強さを値で推定 • 応用 – 文書の提示方法の改善 – 作成した文書の評価 興味有り      興味無し 興味が反映された情報

    興味が反映された情報 未知の文書群 未知の文書群
  6. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 • 結論
  7. 一般的な興味について 一般的な興味の定義 – 対象やできごとなどに対して特別の関心を持っている状態 – 各個人によって変化する – 時間的な変化を持つものも存在 • トレンド、流行

    興味は人間が持つ主観的な情報
  8. 本研究で扱う興味 本研究で扱う興味の定義 • 大衆の興味 個人の興味の集合 不特定多数の人がいる中で興味を持つ人が多い • 個人では得られない傾向 • 興味の汎化

    • 時間的な変化を伴わない 対象自体が普遍的にもつ興味を引く強さ 時間的変化を持たない 対象:大衆の普遍的な興味
  9. 例)トレンドと普遍的興味の違い 流行分析の結果 – 全国都道府県対抗女子駅伝 本研究では – 駅伝 – 大会      大衆の興味をどれだけ引きやすいか –

    記録 単語そのものに普遍的な興味の強さを与える 第26回全国都道府県対抗女子駅伝は13日、 京都市の西京極陸上競技場発着の9区間、 42・195キロで行われ、 京都が2時間14分58秒の大会新記録で 4年連続12度目の優勝を果たした。 ...
  10. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 • 結論
  11. 興味を扱う関連研究 • 時系列解析を用いる  興味の発生状況から現在注目されている語句を 抽出または分析する – Document stream における burst

    の発見 [ 藤木 (03)] – weblog から社会の関心を探る [ 福原 (06)] • 協調フィルタリングを用いる  他者の興味から対象の興味を推定 – Grouplens:an open architecture for collaborative filtering of net news. [Resnick(94)] • 提案手法 – 語句そのものに対する興味の強さ – 大衆の興味が対象
  12. 目次 • はじめに • 興味について • 関連研究 • 提案手法 –

    提案手法について – 評価実験 – まとめ • 提案手法の拡張 • 結論
  13. 提案手法概要 入力文書 内容語の抽出 内容語の興味推定 文書の興味推定 学習データ 大衆の興味の強さ

  14. 提案手法概要 入力文書 内容語の抽出 内容語の興味推定 文書の興味推定 学習データ 大衆の興味の強さ

  15. 学習データについて 大衆の興味が反映されているデータを利用 – 大衆の興味が反映されたデータとは 多人数の行動結果を反映 – アンケート結果 – ランキング(アクセス数 ,

    ダウンロード数 , 販売数) – 検索クエリの使用回数 ニュースランキング ニュースランキングを収集 テキスト内容と順位の対として収集が可能 内容に直結した解析が可能
  16. 順位が示す情報 • ニュースランキングの順位が示す情報  アクセス数の上下関係(間接的な値)  順位をアクセス数に変換(直接的な値) 1位 2位 3位 順位上では1の差 1の差

    順位を構成している要素 順位を構成している要素(アクセス数)では?
  17. 順位とアクセス数 順位をアクセス数に変換 – ニュースランキングはアクセス数から決定 – アクセス数とランキングの関係を利用して変換 アクセス数と順位の関係 – 経験則の Zipf's

    を利用する アクセス数とその順位はべき乗の法則に従う アクセス数 =Hit 順位 = 1 順位
  18. 収集データ • 本研究で収集したデータ – 朝日新聞社の「アクセス TOP 30」 – ランキングに掲載されない記事も収集 •

    「アクセス TOP 30」掲載記事 – 順位付き文書 • 「アクセス TOP 30」非掲載記事 – 順位無し文書
  19. 提案手法概要 入力文書 内容語の抽出 内容語の興味推定 文書の興味推定 学習データ 大衆の興味の強さ

  20. 内容語を素性とした興味推定 文書の興味推定 – 文書の興味は対象文書の内容によって決定される • 内容語に着目した推定手法 • 文書に含まれる内容語に興味の強弱を値で付与 する –

    処理手順 1内容語の抽出 2内容語の興味の強弱の推定 3文書自体の興味の強弱の推定
  21. 1 内容語の抽出 • 形態素解析結果から内容語を抽出 • 出現回数ではなく出現したかどうかで扱う • 抽出した候補にフィルタリング ( ストップワード)

    談合と収賄の罪に問われている 談合 / と / 収賄 / の / 罪 / に / 問わ / れ / て / いる 談合 , 収賄 , 罪 , 問う
  22. 2 内容語の興味の強弱 • 抽出した内容語に興味の強弱を値で付与する • 興味を持たれる – 順位付き文書に出現する – 上位の順位に出現する

    • 2 つの尺度から興味の強さを推定 – 平均アクセス数 – 順位付き文書と順位無し文書における出現割合 談合 , 収賄 , 罪 , 問う [ 談合 ] の平均アクセス数 ×[ 談合 ] の出現割合 興味の強さ
  23. 3 文書の興味推定 • 値が付与された内容語について – 興味の値が大きい • 順位を上げる要素 – 興味の値が小さい

    • 順位を下げる要素 • 順位と無関係の要素 • 文書自体の興味の強弱の値 – 興味の値が大きい内容語が大量に含まれる文書は、興味を持 たれやすいとした – 文書自体の興味の強弱 • 文書に含まれた内容語が持つ興味の値の平均値
  24. 評価実験 • 対象データ – 学習データ • 朝日新聞社「アクセス TOP 30」より収集 •

    順位付き文書:8830記事 • 順位無し文書:25587記事 • 評価方法 – 興味の値が大きい文書がより多くの人に興味を持たれるか確 認を行うこと 実際のランキングを利用して 提案手法の順位と実際の順位の比較する 順位相関係数をもとにした評価
  25. 評価実験 • 評価データ – 学習データを収集した期間外の記事を収集 – 順位付き文書と順位無し文書を掲載日付で分ける • 1 日分の記事で評価を行う

    • 順位付き記事を正解とする – 掲載日付で分けた時の平均記事数 • 順位付き文書:24記事 • 順位無し文書:74.6記事 評価セットとして30セット作成 30セット評価を行い平均値を全体の評価とする
  26. 順位相関をもとにした評価 • 比較 – ランダム – IDF (文書の特徴量)  に基づいた方法 比較対象より高精度

    提案手法では 下位に 興味有り記事は 集まらない
  27. 評価値の平均値 (0.86) の例 • 上位 15 記事、「()」は実際の順位 (9) 北陸で降雪強まる見込み 低気圧が北日本に接近 警察官を連れ去った男、包囲した民家にはおらず

    (6) 「劇団青い鳥」の4人、オートバイにはねられる 東京の自宅マンション放火事件、中2少年を家裁送致 川崎の男児転落死、殺人の疑い 投げ落とされた可能性 (18) フジテレビ、ライブドアに345億円の損害賠償の催告書 皇后さまら演奏会鑑賞 紀子さまも1カ月半ぶり公の場に (26) 西澤氏代理人が喚問通知を受理 メール問題 (3) 長男の起訴で本社社長がコメント発表 (2) 総研、ホテル側に「指導料返還しない」耐震強度偽装 (21) 手配のNTTデータ元社員を逮捕 偽造カード事件 (7) 関西―早稲田実は延長15回引き分け、再試合に 東京のマンション耐震偽装 姉歯元建築士が構造計算 「GyaO」相互リンク、USEN・ライブドア提携第1弾 (20) 黄砂、チベットからも 偏西風で日本に到達か
  28. 評価値の平均値 (0.86) の例 • 下位 15 記事、「()」は実際の順位 三菱ふそう、小型トラックを再リコール 米産牛肉、輸入再開へ日本側理解 専門家会合 米議会、新たな対中制裁法案

    中小企業の経常利益と売上高 従業員規模で2極化 グアム移転「5割負担が上限」 関係5閣僚が一致 国際競争力確保へ東大、早大と提携 鉱物資源機構 (15) 安保理拡大、日本が21カ国案の提出断念 米の支持なし 米利上げ、4.75%に 04年以来15回連続 連覇狙う千葉、広島に競り勝つ〈サッカー・ナビスコ杯〉 預金の定期金利、全種別で平均年利が上昇 日経平均、午前終値は131円高 今年の最高値を更新 NY原油、2カ月ぶり高騰 終値は66ドル台 日経平均株価、終値は248円高の1万6938円 NY円、1ドル=117円89~99銭 NYダウ、終値は95ドル安の1万1154ドル
  29. 興味のある記事抽出に注目した評価 • 抽出精度 – システム上位から文書を選択 – 閾値までの記事の中に正解記事がどの程度含まれているか – 選択する記事数の閾値:10記事 •

    各方法の抽出精度 – ランダム : 0.26 – IDF に基づいた方法 : 0.28 – SVM : 0.37 – 本手法 : 0.52
  30. 考察:内容語を利用した興味推定 • 内容語に付与した値の特徴 – 低い値を持つ語 • 高頻度 • 経済の分野に関する語句が多い •

    値を付与する単位に問題 – 複合名詞の問題 • 「首相」と「官邸」の分割 – 単体では意味をなさない語句 • 「入る、発表」等の語句 • システム上位に正解の出現が偏るが精度として は50%程度であり、精度の向上が必要 – 内容語ではなく、複合名詞および語句の組み合わせによる着 目して興味推定を行う
  31. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 – 拡張方法について – 評価実験 – まとめ • 結論
  32. 拡張方法について • 内容語をもとにした実験 – 「首相」と「官邸」が別要素 – 「発表」だけでは判別要素にならない – 「プロ /

    棋士」、「プロ / ボクシング」 • 「プロ」という語句の値に引っ張られ、差が発生しない • 問題点 – 複合名詞の問題 – 内容語単体では判断が決まらない • 興味推定の素性を拡張 – 複合名詞 – 組み合わせ
  33. 複合名詞の同定手法 1/3 • 複合名詞 – 複合名詞はひとつで意味をなす – 名詞の連接では、複合名詞として誤りが含まれる • 関連研究

    – 出現頻度と連接頻度に基づく専門用語抽出 [ 中川 01] – Extracting nested collations[Katerina 94]
  34. 複合名詞の同定手法 2/3 • 名詞連接を候補に複合名詞同定処理を行う • 問題点 – 分割点の問題  音声同時記録  音声同時記録、音声

    / 同時記録、音声同時 / 記録 – 複合名詞として誤りが生成される • 同定手法 – 専門用語抽出の研究をもとに大規模コーパスを利用した同定 手法を採用
  35. 複合名詞の同定手法 3/3 • 大規模コーパスを利用した同定手法 – 入力文書から候補を抽出 • 名詞の連接( ex 推奨環境、競売入札価格)

    – 2 単語間において結合判定を行う • (推奨 環境)(競売 入札)(入札 価格) – 判定方法 1)連接して出現する文数をもとにした方法 2)連接して出現する名詞の種類数をもとにした方法
  36. 組み合わせの作成 • 語句の組み合わせ作成の手法 – 入力文書から候補を作成する – 複合名詞判定を行い、複合名詞と内容語を抽出する – 複合名詞と内容語の出現順は考えない –

    作成は文中から作成する – 出現回数によるフィルタリング 処理例 談合 , 収賄 , 罪 , 問う { 談合、収賄 } 、 { 談合、罪 } 、 { 談合、問う } { 収賄、罪 } 、 { 収賄、問う } 、 { 罪、問う }
  37. 評価実験 • 興味判別 – 内容語 – 複合名詞 – 組み合わせ •

    評価実験 – 学習データ及び評価データ • 同様 – 評価方法 • 順位相関に基づいた評価
  38. 順位相関に基づいた評価 • 単独 – 同精度 – 値を付与出来ない 記事が発生 内容語 複合名詞

    組み合わせ
  39. 複数の素性を使用した評価 • 複数の素性の使用 – 精度の向上 – 各素性が捉えた興味が必要であり、一つだけ利用することで はカバーできない。 – 大幅な精度の向上にはならなかった

    内容語 複合名詞 組合せ 評価値 抽出精度 O 0.865 0.53 O 0.842 0.51 O 0.859 0.55 O O 0.865 0.54 O O 0.866 0.57 O O O 0.867 0.57
  40. システム出力の変化について 記事数 内容語 全て 変化 上位10記事 300 160 171 +11

    上位30記事 900 374 387 +13 下位10記事 300 11 10 -1 下位30記事 900 76 75 -1 • 上位記事の精度向上 – 内容語では取得できなかった興味情報が追加 • 下位記事を興味無し記事の抽出とする – 90%を超える精度が望める
  41. データ量と評価の関係 • データ量を変化させた場合の評価値 データ量:約一万 • 現在よりも  大規模な学習データ • 学習に必要な量 大幅な精度向上は

    繋がらない 1 万件以上
  42. 学習期間と評価値 • 15000記事3セット(A,B,C) – 期間の変動に対して評価値の変動が少ない 大衆の興味を捕える ある程度(本研究では 1 万件) 以上の学習データを

    用意したとき普遍的な 大衆の興味を同程度の精度で 判断できる
  43. 考察:素性の拡張 • 素性の拡張 – 値を付けられなかった記事が発生 – 精度の大幅な低下にはならない • 複数の判別素性 –

    複数の判別素性を利用することで精度が向上 – 上位記事に影響が強く現れた • データ量及びデータの期間と評価値の関係 → データ量を極端に増やしても大幅な精度の向上は望めないが ある程度の学習データ量があれば収集した日付の違いによる 影響は小さい
  44. 考察 • 素性に付与された値が妥当か – 語句自体を評価 • 主観的な情報であり困難 – 順位相関、抽出精度による間接的な評価を行った 高いスコアを持つ例

    駐車場 : 突っ込む 男性 : 聴く 関東 : 低気圧 ダイヤ : 乱れ 殴る : 現行犯逮捕 車内 : 確認 NHK : 現場 メンバー : 人気 低いスコアを持つ例 ニューヨーク外国為替市場 : 円相場 東京株式市場 : 日経平均株価 承認 : 向ける 状況 : 厚生労働省 人 : 救済 世界 : 棒高跳び 制裁 : 再開 奪う : 優勝
  45. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 • 結論
  46. 結論 • 大衆の興味が反映されたテキストを利用して大 衆の興味を値として付与する方法を提案 – 内容語を利用した手法 • 内容語では捉えられない情報が存在 • 複合名詞と組み合わせを提案

    – 文書興味の強弱の推定 • システム出力の上位に偏るが順位まで一致は困難   興味有り文書の抽出精度では約57% • 興味無し文書の抽出   90%を超える精度が望める
  47. ありがとうございました

  48. アクセス数と順位の関係 • アクセス数と順位 – べき乗の法則に従う Hit r=10−logr= 1 r Hit(r)

    : 順位 r のアクセス数 r : 順位 h : アクセス数 logh=C 1 C 2 ×logr
  49. 素性の興味推定 • アクセス数 w 単語 のアクセス数 = ∑ Hitr⋅RankDF r

    w RankedDF w Hit(r) : 順位 r のアクセス数 RankDFr(w) :w の順位 r 文書出現数 RankedDF(w) :w の順位付き文書出現数 w 単語 の出現比率 = RankedDF w w 全ての を含む文書数
  50. IDFに基づいた推定 • 単語の興味の強さ    単語の特徴量 × 単語の順位付き確率 w 単語 の順位付き確率 =

    RankedDF w w 全ての を含む文書数 w IDF 単語 の =log すべての文書数 w 全ての を含む文書数
  51. 評価方法 • 順位相関係数を基にした評価値 – 但し d m = システム順位 -

    実際の順位 実際の順位が無い場合 d m = 0 とする 順位相関係数 =1−6⋅ ∑d i 2 n⋅n2−1
  52. 複合名詞の同定方法 2単語 AB について • 1 連接頻度に基づく方法 • 2 連接する名詞数に基づく方法

    ABの連接で出現する文数 Aと Bが共に出現する文数 Aの直後の名詞の種類数 Bの直前の名詞の種類数 AB AX AY AZ CB ZB 多いほど繋がりやすい
  53. 複合名詞同定精度 • 複合名詞が意味を持つかどうかで判断 • ランダムサンプル(100件)に対する評価 – 2形態素から構成( ex. 待ち伏せ /

    攻撃) • 0.92 – 3形態素から構成( ex. 耐震 / 強度 / 偽装) • 0.95 – 4形態素から構成( ex. 損害 / 賠償 / 請求 / 訴訟) • 0.95 • 複合名詞同定誤り – 結合の誤り • 米 / 自動車 / 最大手 / ゼネラル・モーターズ , 皇太子 / ご – 分割の誤り • 無 / 現、地域 / ごと
  54. SVM を用いた 2 値分類 • 正例 – 順位付き文書 • 負例

    – 順位無し文書 • 条件 – 素性:内容語 – 興味在り・興味無しの 2 値分類を学習
  55. 出現頻度と精度(下限)

  56. 出現頻度と精度(上限)

  57. 付与されたスコアの例 高い値を持つ語句 男性 : 聴く 関東 : 低気圧 ダイヤ :

    乱れ 殴る : 現行犯逮捕 車内 : 確認 NHK : 現場 メンバー : 人気 団体 : 中止 県警 : 車内 救急隊員 : 駆けつける 女子生徒 : 分かる 現行犯逮捕 : 調べる 揺れ : 最大 原因 : 容疑 レギュラー : 番組 通行人 : 110番通報 女子 : 盗む 男性 : 任意 駆けつける : 女性 低い値を持つ語句 ダウ工業株 : 平均 ニューヨーク外国為替市場 : 円相場 東京株式市場 : 日経平均株価 承認 : 向ける 状況 : 厚生労働省 人 : 救済 世界 : 棒高跳び 制裁 : 再開 奪う : 優勝 農業 : 求める 判断 : 輸入 粉飾 : 担当 保護 : 批判 補助金 : 決める
  58. 付与されたスコアの例 高い値を持つ語句 乱造 落葉 撲殺 偏愛 鉢巻き 作画 怠惰 怪死

    往還 討伐 低い値を持つ語句 調べ 調査 入る 予定 述べる 会社 関係 求める 発表 東京
  59. 値の妥当性 • プロ野球チーム – ジャイアンツ 0.177 – 阪神 0.136 –

    中日 0.124 – 日本ハム 0.121 – 巨人 0.105 – ソフトバンクホークス 0.050 • 固有名詞で判断の問題 – 流行の存在 – 個人差が大きい(評価サンプルの増大) 平均 0.141
  60. 付録:精度について • 抽出精度 – 正解記事:実際のランキングに掲載された記事 抽出精度 = 正解記事数 抽出記事数

  61. 不正解例(システム下位)

  62. 不正解例(システム上位)

  63. スコアの高い素性 • JR京都駅シャッターに挟まれ男性死亡 閉め た社員逮捕 – スコアの高かった素性 病院 : 確認 JR

    : 客 社員 : 現場 死亡 : 確認 寝泊まり 京都 - 府警 事務所 : 設置 業務 - 上 - 過失致死 - 容疑 搬送 - 先 : 病院
  64. 考察事項 • 認知性との繋がり

  65. 目次 – はじめに – 興味について – 関連研究 – 提案手法 –

    提案手法の拡張 – まとめ
  66. 考察  • 偏りは見れるが順位まで正解しない理由 – システムの上位に実際のランキング記事が偏って出現 – 順位まで正解、もしくは正解の順位に近いか • 低精度 •

    付与した値が大局的にはあっているが局所的な 上下関係は正確ではない • 大衆の興味で捕らえられない興味の存在 高い興味の値 高い興味の値 低い興味の値 信頼性が高 い 正確ではない 高い値