Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
順位付け文書からの影響因子マイニング
Search
自然言語処理研究室
September 30, 2004
Research
0
86
順位付け文書からの影響因子マイニング
沢井 康孝, 峠 泰成, 山本 和英. 順位付け文書からの影響因子マイニング. 情報処理学会 研究報告, NL163-23 / FI76-23 (2004.9)
自然言語処理研究室
September 30, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
Target trial emulationの概要
shuntaros
2
1.1k
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
430
クリック率を最大化しない推薦システム
joisino
41
14k
Generative Spoken Dialogue Language Modeling [対話論文読み会@電通大]
yuta0306
1
130
3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation
nttcom
0
200
First Authorに俺はなるっ!! IROS’23 CCC2023 FY
shota_nishiyama
0
170
第4回ナレッジグラフ勉強会:ISWC2023論文読み会
kg_wakate
1
200
SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ
aiueola
0
110
Generative AI - practice and theory
gpeyre
1
560
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3
shunk031
0
450
[ICLR'24] Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE
harukakiyohara_
0
180
20240127_熊本から今いちど真面目に都市交通~めざせ「車1割削減、渋滞半減、公共交通2倍」~ 全国路面電車サミット2024宇都宮
trafficbrain
1
660
Featured
See All Featured
The Mythical Team-Month
searls
215
42k
Web development in the modern age
philhawksworth
202
10k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
119
39k
Imperfection Machines: The Place of Print at Facebook
scottboms
259
12k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
115
18k
Optimizing for Happiness
mojombo
370
69k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
Building Applications with DynamoDB
mza
88
5.6k
Optimising Largest Contentful Paint
csswizardry
7
2.3k
What the flash - Photography Introduction
edds
64
11k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
1
1.3k
Visualization
eitanlees
135
14k
Transcript
順位付け文書からの影響因子マイニング 長岡技術科学大学 電気系 沢井康孝 峠泰成 山本和英 2004.9.17
人の興味 「人の興味」という情報 ある物事に特に関心を向けている 興味とは人により様々 大勢が同じものに興味を持つ
影響要素 大勢の興味には、なにが影響しているか 対象が持っている要素による 例:文書と要素 どのような要素が興味に効いているのか マイニング 文書
1 要素 A、B、C 文書 3 要素 A、D 文書 2 要素 A、C、D 興味 大 興味 小
興味が現れているデータ ランキング(順位情報) 順位を構成する要素(アクセス 数、閲覧数 等)は人の興味を 示している 使用したランキング
ニュースランキングを使用 朝日新聞社 「アクセスTOP30」
興味が現れているデータ 朝日新聞社「アクセスTOP30」 一日に現れる記事 平均130記事 ランキングに出現する記事
0時から24時までのアクセス数による順位付け 30位までの30記事を掲示 ランキングに出現する記事を順位付き文書 ランキング外の記事を順位外文書 このデータでマイニングを試みた
関連研究 石井ら(2004) 名詞句と単語の勢いを用いた話題抽出手法 時系列を用いた話題抽出 武田ら(2003)
WWWを用いた時事的な話題の分析 順位のついた情報を利用した話題の分析
単語の影響度 影響要素を単語とする 順位情報→単語が順位に及ぼす影響度 使用する単語 動詞、名詞、形容詞
影響度を推定するために 順位付き文書内に出現する頻度 順位付き文書に出現した時の順位
全体の流れ 順位付き文書 順位外文書 単語の影響度のデータ 記事 単語 スコア 学習データ
全体の流れ 単語の影響度を推定 順位から興味の強さを推定 興味の強さから単語の影響度を推定 対象の文書の興味スコア
単語の影響度から興味に対するスコアを付加
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
興味が現れているデータ ランキング(アクセス数、閲覧数、売り上げ) 選択式のアンケート(票数) 構成要素は直接的に人の興味に関係する 順位は構成要素の上下関係 このようなデータの中では上位に票数
が集中する現象が現れる
ベキ乗の法則 上位 下位 アクセス数 上位 下位 アクセス数 順位 順位 両対数
順位情報→興味の強さ 順位という興味の強さの上下関係を示した 値をべき乗の法則により興味の強さに近 似 興味の強さ=10−log順位= 1 順位
興味の強さから単語の影響度へ 興味の強さから単語が順位に及ぼす影響 を推定 単語に付加された順位情報は順位付き文書 出現頻度により複数持つ 単語wの影響度1= 単語wの持つ順位から求めた興味の強さの合計 単語wの順位付き文書内頻度
順位付き文書内頻度0の単語については この先の処理を行わず影響度=0とした
興味の強さから単語の影響度へ 単語の影響度1 順位付き文書のみを使用して推定した値 順位無し文書への考慮が必要 順位付き文書の出現確率を使用 単語wの影響度2=
単語wの影響度1⋅単語wの順位付き文書内頻度 単語wの全ての文書内頻度
興味の強さから単語の影響度へ 出現分布が広い単語は文書同士を比較す る値として適切ではない 単語の出現確率による補正 特に高頻度の語については0とした 影響度3を単語が順位に及ぼす影響の強さとする 単語wの影響度3=
−単語wの影響度2⋅log 単語wの全ての文書内頻度 全ての文書数
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
各文書に付加する興味スコア 文書に付加するスコア 対象の文書に含まれる異なり単語が順位に及 ぼす影響の値によって決定する。 対象は影響度が0より大きい単語 スコア1=文書に出現した異なり単語の影響度の合計
各文書に付加する興味スコア 文書に含まれる単語数の違いを考慮 平均の興味スコアに対して倍率も求め、この 倍率を興味スコアとした この値を文書に付加し並び換えを行った 興味スコア=文書に出現した異なり単語の影響度の合計 文書の異なり単語数に対応した平均スコア
実験及び評価 入力 一日に出現する全記事(平均130記事) 7月の記事を使用(30回) 入力を一日に限定した場合、入力に含まれる 実際のランキング記事は平均で26記事
単語の影響度を推定するための記事 4月から6月までの3ヶ月分 11916記事 (順位つき2730記事)
実験及び評価 出力 単語の影響度により記事にスコアを付加 スコアの値によって並び替え 評価
出力に含まれる実際のランキング記事数 出力の順位と実際の順位の比較
出力例(出力上位記事 9/11) 27 テロ対策、米で監視と規制強化9・11から3周年 3 ジェンキンスさん、キャンプ座間に出頭 4 妻の背に深い刺し傷、恨みによる犯行か愛知・4人殺害 15 UFJ銀を告発へ金融庁、検査忌避「悪質」と判断
京都強盗放火で運転手逮捕強殺被害者の同僚も送検へ 京都強盗放火で運転手逮捕強殺被害者の元同僚も送検へ 京都の強殺未遂事件、手配の男を逮捕 25 次男も強い殴打の跡、広範囲に灯油愛知・4人殺害 当時未成年の男性4人を逮捕ホームレス致死で千葉県警 1 女性2人、間一髪で男性救う電車とホームのすき間転落 「中国で埋設指揮」元日本兵が証言へ毒ガス訴訟 22 3年たっても「同じ失敗の可能性」告発のFBI捜査官 13 長周期の揺れ、広範囲で観測東大地震研究所が解析 「9・11テロ」3年の前夜、平和願う遺族NYなど
ランキング記事の出現数 出力順で30記事 平均10.6記事が実際のランキングに出現 最大で14記事が実際のランキングに出現 一日に出現する記事の半分の数を出力
ランキング内出現記事の約七割を含む (約65記事出力中 20記事がランキング記事)
順位相関 実際の順位と出力の順位の比較 入力はランキング内に出現した記事のみを使用 実際の順位と出力が1対1で対応 順位相関係数
スピアマンの順位相関係数を使用した
順位相関 平均順位相関値 0.20 最大順位相関値 0.54
順位相関の分布 負の相関 1件 相関無し 11件 正の相関 18件 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 6 7 順位相関係数 頻度
考察 出力について 30記事出力の精度 ランキング記事が平均で10.6記事含まれる →約3割の精度 出力の記事について内容を観察すると
スポーツ記事 株関連 が下位に現れやすい 上位 下位 スポーツ記事 株関連
下位記事の例 高津、サヨナラで5勝目3分の2回を無失点 東京円、110円23〜26銭(午前11時現在) 近鉄、オリックス両球団、10日合併基本合意書に調印へ イチロー、5打数2安打チームは敗北 *15位 日経平均63円安、1万0908円70銭 アサヒビールがオール三菱に辛勝アメフットXリーグ 肥後かおりと、表純子が首位に並ぶ日本女子プロゴルフ パラリンピック日本選手団がアテネに到着17日開幕
東大が今春優勝の明大を破る東京六大学野球 記事が下位に現れる要因 同種類の単語が使われている 単語一つ一つの影響度が低下する
単語の影響について 単語を影響因子とした 低頻度の単語 影響度が幅広い分布 高い値を持つものが存在
中頻度の単語 出現回数が同程度の単語において 値が大きい(影響因子となりうる):自殺 中学校 値が小さい:支店 予防 高頻度 影響を推定できないため
中頻度単語の例 影響が大きい単語 影響が小さい単語 暴風、興奮、演技、処罰、暴力団、教職員、生存、出勤、 教室、カッターナイフ、暴行、反省、メモ、逃走、自殺、同 級生、マンション、中学校、ジャーナリスト、最年少 財源、敵失、民兵、材料、ドレス、新幹線、常務、主戦、工 事、出資、需要、自治体、細胞、税金、債券、廃棄、指針
、保証、貯金
全体の傾向 出力の範囲を固定した場合、その範囲に どれだけ実際のランキング記事が出現す るか 出力10件ごとに分割 10件中に出現するランキング記事の数の平均 を算出
全体の傾向 図 0〜10 10〜20 20〜30 30〜40 40〜50 50〜60 60〜70
70〜80 80〜90 90〜100 0 1 2 3 4 5 出力の範囲 ランキング記事出現頻度
全体の傾向 傾向 出力の上位 ランキング内に出現した記事数が多い 下位ほどランキング記事数が減少
順位情報を興味の強さに近づけた興味強度 は文書を興味の大小によって選択できる可能 性がある
ニュースランキング固有の影響 記事の発表時間に影響 発表された時間により掲示時間が異なる リンク数の影響 各記事が同じ条件ではない ニュースランキングはアクセス数で順位付けされているため
アクセス数の取り方 Web上に存在する といったことによる影響が考えられる
おわりに 精度は低いものの上位に偏りが現れるた め、順位情報は興味の分析を行う際のパ ラメータとして使用できる可能性がある 今後の課題 共起による順位への影響
影響因子の種類の増加 他のランキングにおける効果 ニュースランキング以外でも同様のことが可能か どうかの検証
終わり