Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アクセスランキングを用いた大衆の普遍的な興味の数値化

 アクセスランキングを用いた大衆の普遍的な興味の数値化

沢井 康孝. アクセスランキングを用いた大衆の普遍的な興味の数値化. 長岡技術科学大学修士論文 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. はじめに 情報の膨大化がもたらす恩恵と問題 – 利点 必要とする情報が得られやすい – 欠点 必要な情報が大量の情報に埋もれてしまう 情報を選択する技術 –

    検索、フィルタ、要約 人間が持つ興味、関心に着目 – 人間の感性情報で情報を選別       興味有り 興味有り       興味無し 興味無し
  2. 本研究で扱う興味 本研究で扱う興味の定義 • 大衆の興味 個人の興味の集合 不特定多数の人がいる中で興味を持つ人が多い • 個人では得られない傾向 • 興味の汎化

    • 時間的な変化を伴わない 対象自体が普遍的にもつ興味を引く強さ 時間的変化を持たない 対象:大衆の普遍的な興味
  3. 例)トレンドと普遍的興味の違い 流行分析の結果 – 全国都道府県対抗女子駅伝 本研究では – 駅伝 – 大会      大衆の興味をどれだけ引きやすいか –

    記録 単語そのものに普遍的な興味の強さを与える 第26回全国都道府県対抗女子駅伝は13日、 京都市の西京極陸上競技場発着の9区間、 42・195キロで行われ、 京都が2時間14分58秒の大会新記録で 4年連続12度目の優勝を果たした。 ...
  4. 興味を扱う関連研究 • 時系列解析を用いる  興味の発生状況から現在注目されている語句を 抽出または分析する – Document stream における burst

    の発見 [ 藤木 (03)] – weblog から社会の関心を探る [ 福原 (06)] • 協調フィルタリングを用いる  他者の興味から対象の興味を推定 – Grouplens:an open architecture for collaborative filtering of net news. [Resnick(94)] • 提案手法 – 語句そのものに対する興味の強さ – 大衆の興味が対象
  5. 目次 • はじめに • 興味について • 関連研究 • 提案手法 –

    提案手法について – 評価実験 – まとめ • 提案手法の拡張 • 結論
  6. 学習データについて 大衆の興味が反映されているデータを利用 – 大衆の興味が反映されたデータとは 多人数の行動結果を反映 – アンケート結果 – ランキング(アクセス数 ,

    ダウンロード数 , 販売数) – 検索クエリの使用回数 ニュースランキング ニュースランキングを収集 テキスト内容と順位の対として収集が可能 内容に直結した解析が可能
  7. 収集データ • 本研究で収集したデータ – 朝日新聞社の「アクセス TOP 30」 – ランキングに掲載されない記事も収集 •

    「アクセス TOP 30」掲載記事 – 順位付き文書 • 「アクセス TOP 30」非掲載記事 – 順位無し文書
  8. 1 内容語の抽出 • 形態素解析結果から内容語を抽出 • 出現回数ではなく出現したかどうかで扱う • 抽出した候補にフィルタリング ( ストップワード)

    談合と収賄の罪に問われている 談合 / と / 収賄 / の / 罪 / に / 問わ / れ / て / いる 談合 , 収賄 , 罪 , 問う
  9. 2 内容語の興味の強弱 • 抽出した内容語に興味の強弱を値で付与する • 興味を持たれる – 順位付き文書に出現する – 上位の順位に出現する

    • 2 つの尺度から興味の強さを推定 – 平均アクセス数 – 順位付き文書と順位無し文書における出現割合 談合 , 収賄 , 罪 , 問う [ 談合 ] の平均アクセス数 ×[ 談合 ] の出現割合 興味の強さ
  10. 3 文書の興味推定 • 値が付与された内容語について – 興味の値が大きい • 順位を上げる要素 – 興味の値が小さい

    • 順位を下げる要素 • 順位と無関係の要素 • 文書自体の興味の強弱の値 – 興味の値が大きい内容語が大量に含まれる文書は、興味を持 たれやすいとした – 文書自体の興味の強弱 • 文書に含まれた内容語が持つ興味の値の平均値
  11. 評価実験 • 対象データ – 学習データ • 朝日新聞社「アクセス TOP 30」より収集 •

    順位付き文書:8830記事 • 順位無し文書:25587記事 • 評価方法 – 興味の値が大きい文書がより多くの人に興味を持たれるか確 認を行うこと 実際のランキングを利用して 提案手法の順位と実際の順位の比較する 順位相関係数をもとにした評価
  12. 評価実験 • 評価データ – 学習データを収集した期間外の記事を収集 – 順位付き文書と順位無し文書を掲載日付で分ける • 1 日分の記事で評価を行う

    • 順位付き記事を正解とする – 掲載日付で分けた時の平均記事数 • 順位付き文書:24記事 • 順位無し文書:74.6記事 評価セットとして30セット作成 30セット評価を行い平均値を全体の評価とする
  13. 評価値の平均値 (0.86) の例 • 上位 15 記事、「()」は実際の順位 (9) 北陸で降雪強まる見込み 低気圧が北日本に接近 警察官を連れ去った男、包囲した民家にはおらず

    (6) 「劇団青い鳥」の4人、オートバイにはねられる 東京の自宅マンション放火事件、中2少年を家裁送致 川崎の男児転落死、殺人の疑い 投げ落とされた可能性 (18) フジテレビ、ライブドアに345億円の損害賠償の催告書 皇后さまら演奏会鑑賞 紀子さまも1カ月半ぶり公の場に (26) 西澤氏代理人が喚問通知を受理 メール問題 (3) 長男の起訴で本社社長がコメント発表 (2) 総研、ホテル側に「指導料返還しない」耐震強度偽装 (21) 手配のNTTデータ元社員を逮捕 偽造カード事件 (7) 関西―早稲田実は延長15回引き分け、再試合に 東京のマンション耐震偽装 姉歯元建築士が構造計算 「GyaO」相互リンク、USEN・ライブドア提携第1弾 (20) 黄砂、チベットからも 偏西風で日本に到達か
  14. 評価値の平均値 (0.86) の例 • 下位 15 記事、「()」は実際の順位 三菱ふそう、小型トラックを再リコール 米産牛肉、輸入再開へ日本側理解 専門家会合 米議会、新たな対中制裁法案

    中小企業の経常利益と売上高 従業員規模で2極化 グアム移転「5割負担が上限」 関係5閣僚が一致 国際競争力確保へ東大、早大と提携 鉱物資源機構 (15) 安保理拡大、日本が21カ国案の提出断念 米の支持なし 米利上げ、4.75%に 04年以来15回連続 連覇狙う千葉、広島に競り勝つ〈サッカー・ナビスコ杯〉 預金の定期金利、全種別で平均年利が上昇 日経平均、午前終値は131円高 今年の最高値を更新 NY原油、2カ月ぶり高騰 終値は66ドル台 日経平均株価、終値は248円高の1万6938円 NY円、1ドル=117円89~99銭 NYダウ、終値は95ドル安の1万1154ドル
  15. 考察:内容語を利用した興味推定 • 内容語に付与した値の特徴 – 低い値を持つ語 • 高頻度 • 経済の分野に関する語句が多い •

    値を付与する単位に問題 – 複合名詞の問題 • 「首相」と「官邸」の分割 – 単体では意味をなさない語句 • 「入る、発表」等の語句 • システム上位に正解の出現が偏るが精度として は50%程度であり、精度の向上が必要 – 内容語ではなく、複合名詞および語句の組み合わせによる着 目して興味推定を行う
  16. 目次 • はじめに • 興味について • 関連研究 • 提案手法 •

    提案手法の拡張 – 拡張方法について – 評価実験 – まとめ • 結論
  17. 拡張方法について • 内容語をもとにした実験 – 「首相」と「官邸」が別要素 – 「発表」だけでは判別要素にならない – 「プロ /

    棋士」、「プロ / ボクシング」 • 「プロ」という語句の値に引っ張られ、差が発生しない • 問題点 – 複合名詞の問題 – 内容語単体では判断が決まらない • 興味推定の素性を拡張 – 複合名詞 – 組み合わせ
  18. 複合名詞の同定手法 1/3 • 複合名詞 – 複合名詞はひとつで意味をなす – 名詞の連接では、複合名詞として誤りが含まれる • 関連研究

    – 出現頻度と連接頻度に基づく専門用語抽出 [ 中川 01] – Extracting nested collations[Katerina 94]
  19. 複合名詞の同定手法 2/3 • 名詞連接を候補に複合名詞同定処理を行う • 問題点 – 分割点の問題  音声同時記録  音声同時記録、音声

    / 同時記録、音声同時 / 記録 – 複合名詞として誤りが生成される • 同定手法 – 専門用語抽出の研究をもとに大規模コーパスを利用した同定 手法を採用
  20. 複合名詞の同定手法 3/3 • 大規模コーパスを利用した同定手法 – 入力文書から候補を抽出 • 名詞の連接( ex 推奨環境、競売入札価格)

    – 2 単語間において結合判定を行う • (推奨 環境)(競売 入札)(入札 価格) – 判定方法 1)連接して出現する文数をもとにした方法 2)連接して出現する名詞の種類数をもとにした方法
  21. 組み合わせの作成 • 語句の組み合わせ作成の手法 – 入力文書から候補を作成する – 複合名詞判定を行い、複合名詞と内容語を抽出する – 複合名詞と内容語の出現順は考えない –

    作成は文中から作成する – 出現回数によるフィルタリング 処理例 談合 , 収賄 , 罪 , 問う { 談合、収賄 } 、 { 談合、罪 } 、 { 談合、問う } { 収賄、罪 } 、 { 収賄、問う } 、 { 罪、問う }
  22. 評価実験 • 興味判別 – 内容語 – 複合名詞 – 組み合わせ •

    評価実験 – 学習データ及び評価データ • 同様 – 評価方法 • 順位相関に基づいた評価
  23. システム出力の変化について 記事数 内容語 全て 変化 上位10記事 300 160 171 +11

    上位30記事 900 374 387 +13 下位10記事 300 11 10 -1 下位30記事 900 76 75 -1 • 上位記事の精度向上 – 内容語では取得できなかった興味情報が追加 • 下位記事を興味無し記事の抽出とする – 90%を超える精度が望める
  24. 考察:素性の拡張 • 素性の拡張 – 値を付けられなかった記事が発生 – 精度の大幅な低下にはならない • 複数の判別素性 –

    複数の判別素性を利用することで精度が向上 – 上位記事に影響が強く現れた • データ量及びデータの期間と評価値の関係 → データ量を極端に増やしても大幅な精度の向上は望めないが ある程度の学習データ量があれば収集した日付の違いによる 影響は小さい
  25. 考察 • 素性に付与された値が妥当か – 語句自体を評価 • 主観的な情報であり困難 – 順位相関、抽出精度による間接的な評価を行った 高いスコアを持つ例

    駐車場 : 突っ込む 男性 : 聴く 関東 : 低気圧 ダイヤ : 乱れ 殴る : 現行犯逮捕 車内 : 確認 NHK : 現場 メンバー : 人気 低いスコアを持つ例 ニューヨーク外国為替市場 : 円相場 東京株式市場 : 日経平均株価 承認 : 向ける 状況 : 厚生労働省 人 : 救済 世界 : 棒高跳び 制裁 : 再開 奪う : 優勝
  26. 結論 • 大衆の興味が反映されたテキストを利用して大 衆の興味を値として付与する方法を提案 – 内容語を利用した手法 • 内容語では捉えられない情報が存在 • 複合名詞と組み合わせを提案

    – 文書興味の強弱の推定 • システム出力の上位に偏るが順位まで一致は困難   興味有り文書の抽出精度では約57% • 興味無し文書の抽出   90%を超える精度が望める
  27. アクセス数と順位の関係 • アクセス数と順位 – べき乗の法則に従う Hit r=10−logr= 1 r Hit(r)

    : 順位 r のアクセス数 r : 順位 h : アクセス数 logh=C 1 C 2 ×logr
  28. 素性の興味推定 • アクセス数 w 単語 のアクセス数 = ∑ Hitr⋅RankDF r

    w RankedDF w Hit(r) : 順位 r のアクセス数 RankDFr(w) :w の順位 r 文書出現数 RankedDF(w) :w の順位付き文書出現数 w 単語 の出現比率 = RankedDF w w 全ての を含む文書数
  29. IDFに基づいた推定 • 単語の興味の強さ    単語の特徴量 × 単語の順位付き確率 w 単語 の順位付き確率 =

    RankedDF w w 全ての を含む文書数 w IDF 単語 の =log すべての文書数 w 全ての を含む文書数
  30. 評価方法 • 順位相関係数を基にした評価値 – 但し d m = システム順位 -

    実際の順位 実際の順位が無い場合 d m = 0 とする 順位相関係数 =1−6⋅ ∑d i 2 n⋅n2−1
  31. 複合名詞の同定方法 2単語 AB について • 1 連接頻度に基づく方法 • 2 連接する名詞数に基づく方法

    ABの連接で出現する文数 Aと Bが共に出現する文数 Aの直後の名詞の種類数 Bの直前の名詞の種類数 AB AX AY AZ CB ZB 多いほど繋がりやすい
  32. 複合名詞同定精度 • 複合名詞が意味を持つかどうかで判断 • ランダムサンプル(100件)に対する評価 – 2形態素から構成( ex. 待ち伏せ /

    攻撃) • 0.92 – 3形態素から構成( ex. 耐震 / 強度 / 偽装) • 0.95 – 4形態素から構成( ex. 損害 / 賠償 / 請求 / 訴訟) • 0.95 • 複合名詞同定誤り – 結合の誤り • 米 / 自動車 / 最大手 / ゼネラル・モーターズ , 皇太子 / ご – 分割の誤り • 無 / 現、地域 / ごと
  33. SVM を用いた 2 値分類 • 正例 – 順位付き文書 • 負例

    – 順位無し文書 • 条件 – 素性:内容語 – 興味在り・興味無しの 2 値分類を学習
  34. 付与されたスコアの例 高い値を持つ語句 男性 : 聴く 関東 : 低気圧 ダイヤ :

    乱れ 殴る : 現行犯逮捕 車内 : 確認 NHK : 現場 メンバー : 人気 団体 : 中止 県警 : 車内 救急隊員 : 駆けつける 女子生徒 : 分かる 現行犯逮捕 : 調べる 揺れ : 最大 原因 : 容疑 レギュラー : 番組 通行人 : 110番通報 女子 : 盗む 男性 : 任意 駆けつける : 女性 低い値を持つ語句 ダウ工業株 : 平均 ニューヨーク外国為替市場 : 円相場 東京株式市場 : 日経平均株価 承認 : 向ける 状況 : 厚生労働省 人 : 救済 世界 : 棒高跳び 制裁 : 再開 奪う : 優勝 農業 : 求める 判断 : 輸入 粉飾 : 担当 保護 : 批判 補助金 : 決める
  35. 付与されたスコアの例 高い値を持つ語句 乱造 落葉 撲殺 偏愛 鉢巻き 作画 怠惰 怪死

    往還 討伐 低い値を持つ語句 調べ 調査 入る 予定 述べる 会社 関係 求める 発表 東京
  36. 値の妥当性 • プロ野球チーム – ジャイアンツ 0.177 – 阪神 0.136 –

    中日 0.124 – 日本ハム 0.121 – 巨人 0.105 – ソフトバンクホークス 0.050 • 固有名詞で判断の問題 – 流行の存在 – 個人差が大きい(評価サンプルの増大) 平均 0.141
  37. スコアの高い素性 • JR京都駅シャッターに挟まれ男性死亡 閉め た社員逮捕 – スコアの高かった素性 病院 : 確認 JR

    : 客 社員 : 現場 死亡 : 確認 寝泊まり 京都 - 府警 事務所 : 設置 業務 - 上 - 過失致死 - 容疑 搬送 - 先 : 病院
  38. 考察  • 偏りは見れるが順位まで正解しない理由 – システムの上位に実際のランキング記事が偏って出現 – 順位まで正解、もしくは正解の順位に近いか • 低精度 •

    付与した値が大局的にはあっているが局所的な 上下関係は正確ではない • 大衆の興味で捕らえられない興味の存在 高い興味の値 高い興味の値 低い興味の値 信頼性が高 い 正確ではない 高い値