Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
毕设答辩
Search
Wang Dàpéng
November 18, 2012
Research
1
150
毕设答辩
我只是想测试一下这个网站
Wang Dàpéng
November 18, 2012
Tweet
Share
Other Decks in Research
See All in Research
データサイエンティストをめぐる環境の違い 2024年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
1k
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
280
Tietovuoto Social Design Agency (SDA) -trollitehtaasta
hponka
0
3.5k
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
440
情報処理学会関西支部2024年度定期講演会「自然言語処理と大規模言語モデルの基礎」
ksudoh
10
2.4k
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
190
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
450
リモートワークにおけるパッシブ疲労
matsumoto_r
PRO
7
4.9k
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
220
研究の進め方 ランダムネスとの付き合い方について
joisino
PRO
58
24k
Neural Fieldの紹介
nnchiba
1
590
「熊本県内バス・電車無料デー」の振り返りとその後の展開@土木計画学SS:成功失敗事例に学ぶ公共交通運賃設定
trafficbrain
0
160
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
28
8.4k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Cult of Friendly URLs
andyhume
78
6.2k
YesSQL, Process and Tooling at Scale
rocio
171
14k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
GitHub's CSS Performance
jonrohan
1030
460k
Agile that works and the tools we love
rasmusluckow
328
21k
Fireside Chat
paigeccino
34
3.2k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
98
18k
Faster Mobile Websites
deanohume
305
30k
Transcript
社会网络中话题的传播及内容演变分析 王大鹏 2012.6 社会网络中话题的传播及内容演变分析
选题背景 近几年涌现出一批在线社交网络 用户在其中发布了大量信息 对于关于某话题的一条信息,其影响来源是观察不到的 话题的内容在随时间不断的变化 社会网络中话题的传播及内容演变分析
目的 根据社交网络的结构、其中的信息的文本内容和一个初始话题: 推断出话题在社交网络中潜在的传播路径 推断出话题在传播过程中随时间演变的各个版本 社会网络中话题的传播及内容演变分析
现有模型 信息传播 NetInf(Net Infering):推断传播路径来解释用户的显式行为 话题传播 IndCas: 根据用户的社交关系推断话题传播 话题演变 Topic Monitor:
根据文本内容推断话题的演变 社会网络中话题的传播及内容演变分析
现有模型 TIDE: Topic-based Information Diffusion and Evolution 社会网络中话题的传播及内容演变分析
形式化定义1 社交网络G: G = (V , E) 文档集D:D = {di
}M i=1 社交社区:{G, D} 话题θ:单词的分布{p(w|θ)}w∈W ,且有Σw∈W p(w|θ) = 1 社会网络中话题的传播及内容演变分析
形式化定义2 主题Θ: 一段时间内话题流的集合:Θ = {θt}T t=0 θ0 称为原始话题 传播图谱: 文档dj
到文档di 的传播流为di 受到dj 的影响而采纳了Θ中的话 题的概率,强度为πi,j di 也可能给Θ引入新的内容,认为有一个从话题θti 到di 的传 播流,强度为πi,θ 传播向量π(i):所有流向di 的传播流的集合, 即π(i) = {πi,j }dj ∈D ∪ {πi,θ } 传播图谱就是D中所有文档的传播向量的集合, 即Π = {π(i)}di ∈D 社会网络中话题的传播及内容演变分析
形式化定义任务 给定一个社交社区G、一个用户产生的文档集D以及一个原始话 题θ0 ,我们的任务是推断出传播图谱Π和追踪话题的版本演变Θ: P(Π, Θ|G, D, θ0) ∝ P(Θ|Π,
θ0) · P(Π, G) (1) 这个公式的前半部分称为话题模型,后半部分称为传播模型 社会网络中话题的传播及内容演变分析
话题模型 社会网络中话题的传播及内容演变分析
话题模型 由于直接计算Θ的后验概率比较复杂,我们对公式做如下变形: P(Θ|Π, θ0) ∝ P(D|Θ, Π, θ0) · P(Θ|θ0)
(2) di 中出现词w的概率为: p(w|di ) = (1 − λB)( j∈r(i) πi p(w|θdj ) + πi,θp(w|θti )) + λBp(w|θB) (3) P(D|Θ, Π, θ0) = di ∈D w∈W p(w|di )c(w,di ) (4) P(Θ|θ0) = t∈1...T p(θt|θ0) = t∈1...T w∈W p(w|θt)µE p(w|θ0) (5) 社会网络中话题的传播及内容演变分析
传播模型 P(Π|G) = P(Π|Π ) = P({π(i)}di ∈D|Π ) =
di ∈D P(π(i)|π (i)) (6) 高斯马尔可夫随机场(GMRF)正规化: P(π(i)|π (i)) ∝ e−1 2 i ,j ∈r(i)∪θ (πi,i −µi,i )Qπi (i ,j )(πi,j −µi,j ) (7) 社会网络中话题的传播及内容演变分析
EM算法估计参数 要估计的参数:πi,j , πi,θ, p(w|θt) E-Step: z(n) di ,w (θdj
) = π(n−1) i,j p(w|θdj ) j ∈r(i) π(n−1) i,j p(w|θdj ) + π(n−1) i,θ p(w|θti ) (8) z(n) di ,w (θti ) = π(n−1) i,j p(n−1)(w|θti ) j ∈r(i) π(n−1) i,j p(w|θdj ) + π(n−1) i,θ p(w|θti ) (9) z(n) di ,w (θB ) = λB p(w|θB ) (1 − λB )( j π(n−1) i,j p(w|θdj ) + π(n−1) i,θ p(w|θti )) + λB p(w|θB ) (10) 社会网络中话题的传播及内容演变分析
EM算法参数估计 M-Step: p(w|θt ) = di ,ti =t c(di ,
w)(1 − z(n) di ,w (θB ))z(n) di ,w (θt ) + µE p(w|θ0 ) w di ,ti =t c(di , w )(1 − z(n) di ,w (θB ))z(n) di ,w (θt ) + µE p(w |θ0 ) (11) πi,j = j∈r(i) c(w, di ) · (1 − zdi,w (θB )) · zdi,w (θdj ) + µG (gi,j − ti − tj α ) (12) 社会网络中话题的传播及内容演变分析
系统实现 社会网络中话题的传播及内容演变分析
模块框架 社会网络中话题的传播及内容演变分析
实验及结果 初始话题(数据挖掘相关): data, mining, clustering, discovery, patterns, frequent, rules 从数据库中DBLP数据中选取至少包括3个初始话题中的词的论
文,得到1140篇论文,对其进行实验。 社会网络中话题的传播及内容演变分析
实验及结果 话题的版本: 原始话题 2002年 2004年 2006年 2008年 2010年 data 0.35
data 0.54 data 0.41 data 0.45 data 0.41 data 0.43 mining 0.23 mining 0.37 mining 0.35 mining 0.32 mining 0.31 mining 0.33 patterns 0.15 clustering 0.10 patterns 0.13 patterns 0.12 patterns 0.14 patterns 0.13 frequent 0.13 legacy 0.01 frequent 0.06 frequent 0.07 frequent 0.08 frequent 0.06 rules 0.07 reengineering 0.01 rules 0.02 rules 0.03 rules 0.02 rules 0.02 clustering 0.04 distributed 0.01 clustering 0.01 discovery 0.01 distributed 0.01 clustering 0.02 discovery 0.03 systems 0.01 distributed 0.01 clustering 0.01 clustering 0.01 discovery 0.01 object 0.01 approach 0.01 based 0.01 association 0.01 algorithm 0.01 system 0.01 pattern 0.01 based 0.01 algorithm 0.01 method 0.01 environments 0.01 complex 0.01 web 0.01 algorithm 0.01 abnormal 0.01 社会网络中话题的传播及内容演变分析
实验及结果 传播图谱,用JavaScript控制SVG绘制的页面,可交互操作 社会网络中话题的传播及内容演变分析
谢 谢 谢谢 谢 谢! ! ! 社会网络中话题的传播及内容演变分析