沢井 康孝. アクセスランキングを用いた大衆の普遍的な興味の数値化. 長岡技術科学大学修士論文 (2008.3)
アクセスランキングを用いた 大衆の普遍的な興味の数値化所属:山本研究室学籍番号: 05534590名前:沢井 康孝
View Slide
目次● はじめに●興味について● 関連研究● 提案手法●提案手法の拡張● 結論
はじめに情報の膨大化がもたらす恩恵と問題– 利点 必要とする情報が得られやすい– 欠点 必要な情報が大量の情報に埋もれてしまう情報を選択する技術– 検索、フィルタ、要約人間が持つ興味、関心に着目– 人間の感性情報で情報を選別 興味有り興味有り 興味無し興味無し
目的目的:テキストの興味の強さを値で推定● 応用– 文書の提示方法の改善– 作成した文書の評価興味有り 興味無し興味が反映された情報興味が反映された情報未知の文書群未知の文書群
一般的な興味について一般的な興味の定義– 対象やできごとなどに対して特別の関心を持っている状態– 各個人によって変化する– 時間的な変化を持つものも存在● トレンド、流行興味は人間が持つ主観的な情報
本研究で扱う興味本研究で扱う興味の定義●大衆の興味個人の興味の集合不特定多数の人がいる中で興味を持つ人が多い● 個人では得られない傾向● 興味の汎化●時間的な変化を伴わない対象自体が普遍的にもつ興味を引く強さ時間的変化を持たない対象:大衆の普遍的な興味
例)トレンドと普遍的興味の違い流行分析の結果– 全国都道府県対抗女子駅伝本研究では– 駅伝– 大会 大衆の興味をどれだけ引きやすいか– 記録単語そのものに普遍的な興味の強さを与える第26回全国都道府県対抗女子駅伝は13日、京都市の西京極陸上競技場発着の9区間、42・195キロで行われ、京都が2時間14分58秒の大会新記録で4年連続12度目の優勝を果たした。 ...
興味を扱う関連研究● 時系列解析を用いる 興味の発生状況から現在注目されている語句を抽出または分析する– Document stream における burst の発見 [ 藤木 (03)]– weblog から社会の関心を探る [ 福原 (06)]● 協調フィルタリングを用いる 他者の興味から対象の興味を推定– Grouplens:an open architecture for collaborativefiltering of net news. [Resnick(94)]● 提案手法– 語句そのものに対する興味の強さ– 大衆の興味が対象
目次● はじめに●興味について● 関連研究● 提案手法– 提案手法について– 評価実験– まとめ● 提案手法の拡張●結論
提案手法概要入力文書 内容語の抽出内容語の興味推定文書の興味推定学習データ大衆の興味の強さ
学習データについて大衆の興味が反映されているデータを利用– 大衆の興味が反映されたデータとは多人数の行動結果を反映– アンケート結果– ランキング(アクセス数 , ダウンロード数 , 販売数)– 検索クエリの使用回数ニュースランキングニュースランキングを収集テキスト内容と順位の対として収集が可能内容に直結した解析が可能
順位が示す情報● ニュースランキングの順位が示す情報 アクセス数の上下関係(間接的な値) 順位をアクセス数に変換(直接的な値)1位 2位 3位順位上では1の差1の差順位を構成している要素順位を構成している要素(アクセス数)では?
順位とアクセス数順位をアクセス数に変換– ニュースランキングはアクセス数から決定– アクセス数とランキングの関係を利用して変換アクセス数と順位の関係– 経験則の Zipf's を利用するアクセス数とその順位はべき乗の法則に従うアクセス数 =Hit 順位 =1順位
収集データ● 本研究で収集したデータ– 朝日新聞社の「アクセス TOP 30」– ランキングに掲載されない記事も収集●「アクセス TOP 30」掲載記事– 順位付き文書●「アクセス TOP 30」非掲載記事– 順位無し文書
内容語を素性とした興味推定文書の興味推定– 文書の興味は対象文書の内容によって決定される● 内容語に着目した推定手法● 文書に含まれる内容語に興味の強弱を値で付与する– 処理手順1内容語の抽出2内容語の興味の強弱の推定3文書自体の興味の強弱の推定
1 内容語の抽出●形態素解析結果から内容語を抽出● 出現回数ではなく出現したかどうかで扱う● 抽出した候補にフィルタリング ( ストップワード)談合と収賄の罪に問われている談合 / と / 収賄 / の / 罪 / に / 問わ / れ / て / いる談合 , 収賄 , 罪 , 問う
2 内容語の興味の強弱● 抽出した内容語に興味の強弱を値で付与する●興味を持たれる– 順位付き文書に出現する– 上位の順位に出現する●2 つの尺度から興味の強さを推定– 平均アクセス数– 順位付き文書と順位無し文書における出現割合談合 , 収賄 , 罪 , 問う[ 談合 ] の平均アクセス数 ×[ 談合 ] の出現割合興味の強さ
3 文書の興味推定● 値が付与された内容語について– 興味の値が大きい● 順位を上げる要素– 興味の値が小さい● 順位を下げる要素● 順位と無関係の要素● 文書自体の興味の強弱の値– 興味の値が大きい内容語が大量に含まれる文書は、興味を持たれやすいとした– 文書自体の興味の強弱● 文書に含まれた内容語が持つ興味の値の平均値
評価実験● 対象データ– 学習データ●朝日新聞社「アクセス TOP 30」より収集● 順位付き文書:8830記事● 順位無し文書:25587記事● 評価方法– 興味の値が大きい文書がより多くの人に興味を持たれるか確認を行うこと実際のランキングを利用して提案手法の順位と実際の順位の比較する順位相関係数をもとにした評価
評価実験● 評価データ– 学習データを収集した期間外の記事を収集– 順位付き文書と順位無し文書を掲載日付で分ける●1 日分の記事で評価を行う● 順位付き記事を正解とする– 掲載日付で分けた時の平均記事数● 順位付き文書:24記事● 順位無し文書:74.6記事評価セットとして30セット作成30セット評価を行い平均値を全体の評価とする
順位相関をもとにした評価● 比較– ランダム– IDF (文書の特徴量) に基づいた方法比較対象より高精度提案手法では下位に興味有り記事は集まらない
評価値の平均値 (0.86) の例●上位 15 記事、「()」は実際の順位(9) 北陸で降雪強まる見込み 低気圧が北日本に接近警察官を連れ去った男、包囲した民家にはおらず(6) 「劇団青い鳥」の4人、オートバイにはねられる東京の自宅マンション放火事件、中2少年を家裁送致川崎の男児転落死、殺人の疑い 投げ落とされた可能性(18) フジテレビ、ライブドアに345億円の損害賠償の催告書皇后さまら演奏会鑑賞 紀子さまも1カ月半ぶり公の場に(26) 西澤氏代理人が喚問通知を受理 メール問題(3) 長男の起訴で本社社長がコメント発表(2) 総研、ホテル側に「指導料返還しない」耐震強度偽装(21) 手配のNTTデータ元社員を逮捕 偽造カード事件(7) 関西―早稲田実は延長15回引き分け、再試合に東京のマンション耐震偽装 姉歯元建築士が構造計算「GyaO」相互リンク、USEN・ライブドア提携第1弾(20) 黄砂、チベットからも 偏西風で日本に到達か
評価値の平均値 (0.86) の例●下位 15 記事、「()」は実際の順位三菱ふそう、小型トラックを再リコール米産牛肉、輸入再開へ日本側理解 専門家会合米議会、新たな対中制裁法案中小企業の経常利益と売上高 従業員規模で2極化グアム移転「5割負担が上限」 関係5閣僚が一致国際競争力確保へ東大、早大と提携 鉱物資源機構(15) 安保理拡大、日本が21カ国案の提出断念 米の支持なし米利上げ、4.75%に 04年以来15回連続連覇狙う千葉、広島に競り勝つ〈サッカー・ナビスコ杯〉預金の定期金利、全種別で平均年利が上昇日経平均、午前終値は131円高 今年の最高値を更新NY原油、2カ月ぶり高騰 終値は66ドル台日経平均株価、終値は248円高の1万6938円NY円、1ドル=117円89~99銭NYダウ、終値は95ドル安の1万1154ドル
興味のある記事抽出に注目した評価● 抽出精度– システム上位から文書を選択– 閾値までの記事の中に正解記事がどの程度含まれているか– 選択する記事数の閾値:10記事● 各方法の抽出精度– ランダム : 0.26– IDF に基づいた方法 : 0.28– SVM : 0.37– 本手法 : 0.52
考察:内容語を利用した興味推定● 内容語に付与した値の特徴– 低い値を持つ語● 高頻度● 経済の分野に関する語句が多い● 値を付与する単位に問題– 複合名詞の問題● 「首相」と「官邸」の分割– 単体では意味をなさない語句● 「入る、発表」等の語句● システム上位に正解の出現が偏るが精度としては50%程度であり、精度の向上が必要– 内容語ではなく、複合名詞および語句の組み合わせによる着目して興味推定を行う
目次● はじめに●興味について● 関連研究● 提案手法●提案手法の拡張– 拡張方法について– 評価実験– まとめ●結論
拡張方法について● 内容語をもとにした実験– 「首相」と「官邸」が別要素– 「発表」だけでは判別要素にならない– 「プロ / 棋士」、「プロ / ボクシング」● 「プロ」という語句の値に引っ張られ、差が発生しない●問題点– 複合名詞の問題– 内容語単体では判断が決まらない● 興味推定の素性を拡張– 複合名詞– 組み合わせ
複合名詞の同定手法 1/3● 複合名詞– 複合名詞はひとつで意味をなす– 名詞の連接では、複合名詞として誤りが含まれる●関連研究– 出現頻度と連接頻度に基づく専門用語抽出 [ 中川 01]– Extracting nested collations[Katerina 94]
複合名詞の同定手法 2/3● 名詞連接を候補に複合名詞同定処理を行う●問題点– 分割点の問題 音声同時記録 音声同時記録、音声 / 同時記録、音声同時 / 記録– 複合名詞として誤りが生成される●同定手法– 専門用語抽出の研究をもとに大規模コーパスを利用した同定手法を採用
複合名詞の同定手法 3/3● 大規模コーパスを利用した同定手法– 入力文書から候補を抽出● 名詞の連接( ex 推奨環境、競売入札価格)– 2 単語間において結合判定を行う● (推奨 環境)(競売 入札)(入札 価格)– 判定方法1)連接して出現する文数をもとにした方法2)連接して出現する名詞の種類数をもとにした方法
組み合わせの作成● 語句の組み合わせ作成の手法– 入力文書から候補を作成する– 複合名詞判定を行い、複合名詞と内容語を抽出する– 複合名詞と内容語の出現順は考えない– 作成は文中から作成する– 出現回数によるフィルタリング処理例談合 , 収賄 , 罪 , 問う{ 談合、収賄 } 、 { 談合、罪 } 、 { 談合、問う }{ 収賄、罪 } 、 { 収賄、問う } 、 { 罪、問う }
評価実験● 興味判別– 内容語– 複合名詞– 組み合わせ● 評価実験– 学習データ及び評価データ● 同様– 評価方法● 順位相関に基づいた評価
順位相関に基づいた評価● 単独– 同精度– 値を付与出来ない記事が発生内容語 複合名詞 組み合わせ
複数の素性を使用した評価● 複数の素性の使用– 精度の向上– 各素性が捉えた興味が必要であり、一つだけ利用することではカバーできない。– 大幅な精度の向上にはならなかった内容語 複合名詞 組合せ 評価値 抽出精度O 0.865 0.53O 0.842 0.51O 0.859 0.55O O 0.865 0.54O O 0.866 0.57O O O 0.867 0.57
システム出力の変化について記事数 内容語 全て 変化上位10記事 300 160 171 +11上位30記事 900 374 387 +13下位10記事 300 11 10 -1下位30記事 900 76 75 -1● 上位記事の精度向上– 内容語では取得できなかった興味情報が追加● 下位記事を興味無し記事の抽出とする– 90%を超える精度が望める
データ量と評価の関係● データ量を変化させた場合の評価値データ量:約一万● 現在よりも 大規模な学習データ● 学習に必要な量大幅な精度向上は繋がらない1 万件以上
学習期間と評価値● 15000記事3セット(A,B,C)– 期間の変動に対して評価値の変動が少ない大衆の興味を捕えるある程度(本研究では 1 万件)以上の学習データを用意したとき普遍的な大衆の興味を同程度の精度で判断できる
考察:素性の拡張● 素性の拡張– 値を付けられなかった記事が発生– 精度の大幅な低下にはならない●複数の判別素性– 複数の判別素性を利用することで精度が向上– 上位記事に影響が強く現れた● データ量及びデータの期間と評価値の関係→ データ量を極端に増やしても大幅な精度の向上は望めないがある程度の学習データ量があれば収集した日付の違いによる影響は小さい
考察● 素性に付与された値が妥当か– 語句自体を評価● 主観的な情報であり困難– 順位相関、抽出精度による間接的な評価を行った高いスコアを持つ例駐車場 : 突っ込む男性 : 聴く関東 : 低気圧ダイヤ : 乱れ殴る : 現行犯逮捕車内 : 確認NHK : 現場メンバー : 人気低いスコアを持つ例ニューヨーク外国為替市場 : 円相場東京株式市場 : 日経平均株価承認 : 向ける状況 : 厚生労働省人 : 救済世界 : 棒高跳び制裁 : 再開奪う : 優勝
結論● 大衆の興味が反映されたテキストを利用して大衆の興味を値として付与する方法を提案– 内容語を利用した手法● 内容語では捉えられない情報が存在● 複合名詞と組み合わせを提案– 文書興味の強弱の推定● システム出力の上位に偏るが順位まで一致は困難 興味有り文書の抽出精度では約57%● 興味無し文書の抽出 90%を超える精度が望める
ありがとうございました
アクセス数と順位の関係● アクセス数と順位– べき乗の法則に従うHit r=10−logr=1rHit(r) : 順位 r のアクセス数r : 順位h : アクセス数logh=C1C2×logr
素性の興味推定● アクセス数w単語 のアクセス数 =∑ Hitr⋅RankDFrwRankedDF wHit(r) : 順位 r のアクセス数RankDFr(w) :w の順位 r 文書出現数RankedDF(w) :w の順位付き文書出現数w単語 の出現比率 =RankedDF ww全ての を含む文書数
IDFに基づいた推定● 単語の興味の強さ 単語の特徴量 × 単語の順位付き確率w単語 の順位付き確率 =RankedDF ww全ての を含む文書数w IDF単語 の =logすべての文書数w全ての を含む文書数
評価方法● 順位相関係数を基にした評価値– 但しdm= システム順位 - 実際の順位実際の順位が無い場合 dm= 0 とする順位相関係数 =1−6⋅∑di2n⋅n2−1
複合名詞の同定方法2単語 AB について●1 連接頻度に基づく方法●2 連接する名詞数に基づく方法ABの連接で出現する文数Aと Bが共に出現する文数Aの直後の名詞の種類数 Bの直前の名詞の種類数ABAXAYAZCBZB多いほど繋がりやすい
複合名詞同定精度● 複合名詞が意味を持つかどうかで判断●ランダムサンプル(100件)に対する評価– 2形態素から構成( ex. 待ち伏せ / 攻撃)●0.92– 3形態素から構成( ex. 耐震 / 強度 / 偽装)●0.95– 4形態素から構成( ex. 損害 / 賠償 / 請求 / 訴訟)●0.95● 複合名詞同定誤り– 結合の誤り●米 / 自動車 / 最大手 / ゼネラル・モーターズ , 皇太子 / ご– 分割の誤り●無 / 現、地域 / ごと
SVM を用いた 2 値分類● 正例– 順位付き文書● 負例– 順位無し文書● 条件– 素性:内容語– 興味在り・興味無しの 2 値分類を学習
出現頻度と精度(下限)
出現頻度と精度(上限)
付与されたスコアの例高い値を持つ語句男性 : 聴く関東 : 低気圧ダイヤ : 乱れ殴る : 現行犯逮捕車内 : 確認NHK : 現場メンバー : 人気団体 : 中止県警 : 車内救急隊員 : 駆けつける女子生徒 : 分かる現行犯逮捕 : 調べる揺れ : 最大原因 : 容疑レギュラー : 番組通行人 : 110番通報女子 : 盗む男性 : 任意駆けつける : 女性低い値を持つ語句ダウ工業株 : 平均ニューヨーク外国為替市場 : 円相場東京株式市場 : 日経平均株価承認 : 向ける状況 : 厚生労働省人 : 救済世界 : 棒高跳び制裁 : 再開奪う : 優勝農業 : 求める判断 : 輸入粉飾 : 担当保護 : 批判補助金 : 決める
付与されたスコアの例高い値を持つ語句乱造落葉撲殺偏愛鉢巻き作画怠惰怪死往還討伐低い値を持つ語句調べ調査入る予定述べる会社関係求める発表東京
値の妥当性● プロ野球チーム– ジャイアンツ 0.177– 阪神 0.136– 中日 0.124– 日本ハム 0.121– 巨人 0.105– ソフトバンクホークス 0.050● 固有名詞で判断の問題– 流行の存在– 個人差が大きい(評価サンプルの増大)平均 0.141
付録:精度について● 抽出精度– 正解記事:実際のランキングに掲載された記事抽出精度 =正解記事数抽出記事数
不正解例(システム下位)
不正解例(システム上位)
スコアの高い素性● JR京都駅シャッターに挟まれ男性死亡 閉めた社員逮捕– スコアの高かった素性病院 : 確認JR : 客社員 : 現場死亡 : 確認寝泊まり京都 - 府警事務所 : 設置業務 - 上 - 過失致死 - 容疑搬送 - 先 : 病院
考察事項● 認知性との繋がり
目次– はじめに– 興味について– 関連研究– 提案手法– 提案手法の拡張– まとめ
考察 ● 偏りは見れるが順位まで正解しない理由– システムの上位に実際のランキング記事が偏って出現– 順位まで正解、もしくは正解の順位に近いか● 低精度● 付与した値が大局的にはあっているが局所的な上下関係は正確ではない●大衆の興味で捕らえられない興味の存在高い興味の値高い興味の値低い興味の値信頼性が高い正確ではない高い値