Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
順位付け文書からの影響因子マイニング
Search
自然言語処理研究室
September 30, 2004
Research
0
99
順位付け文書からの影響因子マイニング
沢井 康孝, 峠 泰成, 山本 和英. 順位付け文書からの影響因子マイニング. 情報処理学会 研究報告, NL163-23 / FI76-23 (2004.9)
自然言語処理研究室
September 30, 2004
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
2
540
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
3.7k
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
510
電通総研の生成AI・エージェントの取り組みエンジニアリング業務向けAI活用事例紹介
isidaitc
1
660
ストレス計測方法の確立に向けたマルチモーダルデータの活用
yurikomium
0
690
近似動的計画入門
mickey_kubo
4
980
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
200
Generative Models 2025
takahashihiroshi
21
12k
20250502_ABEJA_論文読み会_スライド
flatton
0
170
AI エージェントを活用した研究再現性の自動定量評価 / scisci2025
upura
1
120
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
390
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
A Modern Web Designer's Workflow
chriscoyier
695
190k
Bash Introduction
62gerente
613
210k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
For a Future-Friendly Web
brad_frost
179
9.8k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Invisible Side of Design
smashingmag
301
51k
Navigating Team Friction
lara
187
15k
Transcript
順位付け文書からの影響因子マイニング 長岡技術科学大学 電気系 沢井康孝 峠泰成 山本和英 2004.9.17
人の興味 「人の興味」という情報 ある物事に特に関心を向けている 興味とは人により様々 大勢が同じものに興味を持つ
影響要素 大勢の興味には、なにが影響しているか 対象が持っている要素による 例:文書と要素 どのような要素が興味に効いているのか マイニング 文書
1 要素 A、B、C 文書 3 要素 A、D 文書 2 要素 A、C、D 興味 大 興味 小
興味が現れているデータ ランキング(順位情報) 順位を構成する要素(アクセス 数、閲覧数 等)は人の興味を 示している 使用したランキング
ニュースランキングを使用 朝日新聞社 「アクセスTOP30」
興味が現れているデータ 朝日新聞社「アクセスTOP30」 一日に現れる記事 平均130記事 ランキングに出現する記事
0時から24時までのアクセス数による順位付け 30位までの30記事を掲示 ランキングに出現する記事を順位付き文書 ランキング外の記事を順位外文書 このデータでマイニングを試みた
関連研究 石井ら(2004) 名詞句と単語の勢いを用いた話題抽出手法 時系列を用いた話題抽出 武田ら(2003)
WWWを用いた時事的な話題の分析 順位のついた情報を利用した話題の分析
単語の影響度 影響要素を単語とする 順位情報→単語が順位に及ぼす影響度 使用する単語 動詞、名詞、形容詞
影響度を推定するために 順位付き文書内に出現する頻度 順位付き文書に出現した時の順位
全体の流れ 順位付き文書 順位外文書 単語の影響度のデータ 記事 単語 スコア 学習データ
全体の流れ 単語の影響度を推定 順位から興味の強さを推定 興味の強さから単語の影響度を推定 対象の文書の興味スコア
単語の影響度から興味に対するスコアを付加
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
興味が現れているデータ ランキング(アクセス数、閲覧数、売り上げ) 選択式のアンケート(票数) 構成要素は直接的に人の興味に関係する 順位は構成要素の上下関係 このようなデータの中では上位に票数
が集中する現象が現れる
ベキ乗の法則 上位 下位 アクセス数 上位 下位 アクセス数 順位 順位 両対数
順位情報→興味の強さ 順位という興味の強さの上下関係を示した 値をべき乗の法則により興味の強さに近 似 興味の強さ=10−log順位= 1 順位
興味の強さから単語の影響度へ 興味の強さから単語が順位に及ぼす影響 を推定 単語に付加された順位情報は順位付き文書 出現頻度により複数持つ 単語wの影響度1= 単語wの持つ順位から求めた興味の強さの合計 単語wの順位付き文書内頻度
順位付き文書内頻度0の単語については この先の処理を行わず影響度=0とした
興味の強さから単語の影響度へ 単語の影響度1 順位付き文書のみを使用して推定した値 順位無し文書への考慮が必要 順位付き文書の出現確率を使用 単語wの影響度2=
単語wの影響度1⋅単語wの順位付き文書内頻度 単語wの全ての文書内頻度
興味の強さから単語の影響度へ 出現分布が広い単語は文書同士を比較す る値として適切ではない 単語の出現確率による補正 特に高頻度の語については0とした 影響度3を単語が順位に及ぼす影響の強さとする 単語wの影響度3=
−単語wの影響度2⋅log 単語wの全ての文書内頻度 全ての文書数
全体の流れ 単語 wn 順位無し文書 順位付き文書 出現順位 順位付き内頻度 全体頻度 wn の影響度
興味の強さに変換 文書 Dn W1 W2 ・ Wn 影響度 Dn の興味スコ ア 学習データ
各文書に付加する興味スコア 文書に付加するスコア 対象の文書に含まれる異なり単語が順位に及 ぼす影響の値によって決定する。 対象は影響度が0より大きい単語 スコア1=文書に出現した異なり単語の影響度の合計
各文書に付加する興味スコア 文書に含まれる単語数の違いを考慮 平均の興味スコアに対して倍率も求め、この 倍率を興味スコアとした この値を文書に付加し並び換えを行った 興味スコア=文書に出現した異なり単語の影響度の合計 文書の異なり単語数に対応した平均スコア
実験及び評価 入力 一日に出現する全記事(平均130記事) 7月の記事を使用(30回) 入力を一日に限定した場合、入力に含まれる 実際のランキング記事は平均で26記事
単語の影響度を推定するための記事 4月から6月までの3ヶ月分 11916記事 (順位つき2730記事)
実験及び評価 出力 単語の影響度により記事にスコアを付加 スコアの値によって並び替え 評価
出力に含まれる実際のランキング記事数 出力の順位と実際の順位の比較
出力例(出力上位記事 9/11) 27 テロ対策、米で監視と規制強化9・11から3周年 3 ジェンキンスさん、キャンプ座間に出頭 4 妻の背に深い刺し傷、恨みによる犯行か愛知・4人殺害 15 UFJ銀を告発へ金融庁、検査忌避「悪質」と判断
京都強盗放火で運転手逮捕強殺被害者の同僚も送検へ 京都強盗放火で運転手逮捕強殺被害者の元同僚も送検へ 京都の強殺未遂事件、手配の男を逮捕 25 次男も強い殴打の跡、広範囲に灯油愛知・4人殺害 当時未成年の男性4人を逮捕ホームレス致死で千葉県警 1 女性2人、間一髪で男性救う電車とホームのすき間転落 「中国で埋設指揮」元日本兵が証言へ毒ガス訴訟 22 3年たっても「同じ失敗の可能性」告発のFBI捜査官 13 長周期の揺れ、広範囲で観測東大地震研究所が解析 「9・11テロ」3年の前夜、平和願う遺族NYなど
ランキング記事の出現数 出力順で30記事 平均10.6記事が実際のランキングに出現 最大で14記事が実際のランキングに出現 一日に出現する記事の半分の数を出力
ランキング内出現記事の約七割を含む (約65記事出力中 20記事がランキング記事)
順位相関 実際の順位と出力の順位の比較 入力はランキング内に出現した記事のみを使用 実際の順位と出力が1対1で対応 順位相関係数
スピアマンの順位相関係数を使用した
順位相関 平均順位相関値 0.20 最大順位相関値 0.54
順位相関の分布 負の相関 1件 相関無し 11件 正の相関 18件 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 6 7 順位相関係数 頻度
考察 出力について 30記事出力の精度 ランキング記事が平均で10.6記事含まれる →約3割の精度 出力の記事について内容を観察すると
スポーツ記事 株関連 が下位に現れやすい 上位 下位 スポーツ記事 株関連
下位記事の例 高津、サヨナラで5勝目3分の2回を無失点 東京円、110円23〜26銭(午前11時現在) 近鉄、オリックス両球団、10日合併基本合意書に調印へ イチロー、5打数2安打チームは敗北 *15位 日経平均63円安、1万0908円70銭 アサヒビールがオール三菱に辛勝アメフットXリーグ 肥後かおりと、表純子が首位に並ぶ日本女子プロゴルフ パラリンピック日本選手団がアテネに到着17日開幕
東大が今春優勝の明大を破る東京六大学野球 記事が下位に現れる要因 同種類の単語が使われている 単語一つ一つの影響度が低下する
単語の影響について 単語を影響因子とした 低頻度の単語 影響度が幅広い分布 高い値を持つものが存在
中頻度の単語 出現回数が同程度の単語において 値が大きい(影響因子となりうる):自殺 中学校 値が小さい:支店 予防 高頻度 影響を推定できないため
中頻度単語の例 影響が大きい単語 影響が小さい単語 暴風、興奮、演技、処罰、暴力団、教職員、生存、出勤、 教室、カッターナイフ、暴行、反省、メモ、逃走、自殺、同 級生、マンション、中学校、ジャーナリスト、最年少 財源、敵失、民兵、材料、ドレス、新幹線、常務、主戦、工 事、出資、需要、自治体、細胞、税金、債券、廃棄、指針
、保証、貯金
全体の傾向 出力の範囲を固定した場合、その範囲に どれだけ実際のランキング記事が出現す るか 出力10件ごとに分割 10件中に出現するランキング記事の数の平均 を算出
全体の傾向 図 0〜10 10〜20 20〜30 30〜40 40〜50 50〜60 60〜70
70〜80 80〜90 90〜100 0 1 2 3 4 5 出力の範囲 ランキング記事出現頻度
全体の傾向 傾向 出力の上位 ランキング内に出現した記事数が多い 下位ほどランキング記事数が減少
順位情報を興味の強さに近づけた興味強度 は文書を興味の大小によって選択できる可能 性がある
ニュースランキング固有の影響 記事の発表時間に影響 発表された時間により掲示時間が異なる リンク数の影響 各記事が同じ条件ではない ニュースランキングはアクセス数で順位付けされているため
アクセス数の取り方 Web上に存在する といったことによる影響が考えられる
おわりに 精度は低いものの上位に偏りが現れるた め、順位情報は興味の分析を行う際のパ ラメータとして使用できる可能性がある 今後の課題 共起による順位への影響
影響因子の種類の増加 他のランキングにおける効果 ニュースランキング以外でも同様のことが可能か どうかの検証
終わり