WSDM 2016勉強会資料

WSDM 2016勉強会「Wiggins: Detecting Valuable Information in Dynamic Networks Using
Limited Resources」 Ahmad Mahmoody, Matteo Riondato, Eli Upfal 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部高柳慎一

モチベーション • 動的ネットワーク上での情報検知は有用 – 新しいWebページの検出 – 電気回路上での欠陥の伝搬 – 水の汚染の検出 •
情報がネットワーク上を伝搬していく • 情報を新規性のあるうちに見つけたい • 一方、全ノードを常に監視するのは難しい – 各時点において一部のノードを調査できる状況を考える • どうノードを調査すべきかの最適なスケジューリングを考えたい 2

やったこと • 各種定義 – ネットワーク上での情報の生成と伝搬過程の定式化 • （明示的に書いてないけど）測度論ベース – スケジュールに沿ったノードの調査法の定義 –
異なるスケジュール間のコストを定義 • これらを最適調査計画問題（Optimal Probing Schedule Problem）として定義づける • 制約付の凸計画問題として定式化し、それを解くためにWIGGINSというアルゴリズム提案 – MapReduce適用な形で提案 – WIGGINSってのはシャーロックホームズに出てくる諜報機関？のリーダの名前らしい 3

２：問題の定式化 • グラフ構造： • ノード数： • ノードの部分集合族： • ある関数（確率）：：
→ • グラフ上での情報生成・伝搬過程： – 時点tにおいて生成される情報（集合族）： – あるノード部分集合がに含まれる確率 • Sは論文中ではσ加法族と区別するために導入 – 単なるVの部分集合と考える、かつ、その生起確率を定義 • (t, S): “時点tに生成された情報が手元にあるる”を表現（アイテムと呼称） 4

２：問題の定式化 • “時点tにおいて調査する” ＝アイテム集合を得る • 過去に生成された情報の和集合： • 全時点ではc個のノードのみを調べる • ：時点ｔより以前に取得
• ：時点ｔにおいてまだここにない • 情報の新規性： • まだ見ぬ情報集合によるLoad 5

• スケジュールpはノードV上の確率分布 • 時点tにおいてc個のうち個ノードを選択 • コスト関数を定義（スケジュールpに依存！） • これを解く： (θ,
c)-OPSP – (θ, c)-Optimal Probing Schedule Problem – スケジュール集合： 6 ２：問題の定式化

3: 関連研究 • 水汚染の検出[1, 13, 20, 24, 29] • 伝染病の検出[7]
• センサーのバッテリー消費最適化[11, 19, 21, 22] • SNS上での急伸トピックの検出[4, 25] • クローリング [8, 32] • ニュースフィードの更新[3, 15, 28, 30] 7

４：WIGGINSアルゴリズム • が既知の場合 • は凸関数 • 拘束条件付きの最適化問題として以下を解く 8

４：WIGGINSアルゴリズム 9

• 限られた（離散的な）情報しかわからない場合 • アルゴリズムはこの部分だけを変更する • Sごとにmapして計算（mapReduce） 10 ４：WIGGINSアルゴリズム

５：数値実験 • Independent-Cascade (IC) model [17]を使用 • 生成(creation)フェイズ – ノード上に噂”rumor”を生成し、そのノードの出次数
(出て行く辺数、outdegree, deg+)に応じて確率にbiasを付けて生成を行わせる • 伝搬(diffusion)フェイズ – 確率1/伝搬先の入次数(入ってくる辺数indegree, deg-) で伝搬 11

• 他のベンチマーク的な方法 – 一様、out or indegree・接続数に比例で選択 • これらに比べてコスト関数が小さくなる 12 ５：数値実験

• 一度最適化したものに負荷を与える（灰色箇所始端からノードの値をランダムにひっくり返す） • 緑色箇所にてまた最適化計算 13
５：数値実験

• ノイズの影響がまた消える 14 ５：数値実験

まとめ • ネットワーク上での情報の生成と伝搬過程の定式化 • （明示的に書いてないけど）測度論ベース – スケジュールに沿ったノードの調査法の定義 – 異なるスケジュール間のコストを定義 •
これらを最適調査計画問題（Optimal Probing Schedule Problem）として定式化 • 制約付の凸計画問題として定式化し、それを解くためにWIGGINSというアルゴリズム提案 • 数値検証実施 15

WSDM 2016勉強会資料

WSDM 2016勉強会資料

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Research

Featured

Transcript

WSDM 2016勉強会「Wiggins: Detecting Valuable Information in Dynamic Networks Using

モチベーション • 動的ネットワーク上での情報検知は有用 – 新しいWebページの検出 – 電気回路上での欠陥の伝搬 – 水の汚染の検出 •

やったこと • 各種定義 – ネットワーク上での情報の生成と伝搬過程の定式化 • （明示的に書いてないけど）測度論ベース – スケジュールに沿ったノードの調査法の定義 –

２：問題の定式化 • グラフ構造： • ノード数： • ノードの部分集合族： • ある関数（確率）：：

２：問題の定式化 • “時点tにおいて調査する” ＝アイテム集合を得る • 過去に生成された情報の和集合： • 全時点ではc個のノードのみを調べる • ：時点ｔより以前に取得

• スケジュールpはノードV上の確率分布 • 時点tにおいてc個のうち個ノードを選択 • コスト関数を定義（スケジュールpに依存！） • これを解く： (θ,

3: 関連研究 • 水汚染の検出[1, 13, 20, 24, 29] • 伝染病の検出[7]

４：WIGGINSアルゴリズム • が既知の場合 • は凸関数 • 拘束条件付きの最適化問題として以下を解く 8

４：WIGGINSアルゴリズム 9

• 限られた（離散的な）情報しかわからない場合 • アルゴリズムはこの部分だけを変更する • Sごとにmapして計算（mapReduce） 10 ４：WIGGINSアルゴリズム

５：数値実験 • Independent-Cascade (IC) model [17]を使用 • 生成(creation)フェイズ – ノード上に噂”rumor”を生成し、そのノードの出次数

• 他のベンチマーク的な方法 – 一様、out or indegree・接続数に比例で選択 • これらに比べてコスト関数が小さくなる 12 ５：数値実験

• 一度最適化したものに負荷を与える（灰色箇所始端からノードの値をランダムにひっくり返す） • 緑色箇所にてまた最適化計算 13

• ノイズの影響がまた消える 14 ５：数値実験

まとめ • ネットワーク上での情報の生成と伝搬過程の定式化 • （明示的に書いてないけど）測度論ベース – スケジュールに沿ったノードの調査法の定義 – 異なるスケジュール間のコストを定義 •