Pro Yearly is on sale from $80 to $50! »

WWW2020論文読み会 / User Modeling セッションから
 コンテンツに関連するダイナミクス研究紹介
 / 秋葉原ラボ 武内慎


2016ba6b977a2e6691811fa66d5f4336?s=47 CyberAgent
August 18, 2020
680

WWW2020論文読み会 / User Modeling セッションから
 コンテンツに関連するダイナミクス研究紹介
 / 秋葉原ラボ 武内慎


WWW2020の User Modeling セッションから、コンテンツに関連するダイナミクス研究を2本紹介しています。

2016ba6b977a2e6691811fa66d5f4336?s=128

CyberAgent

August 18, 2020
Tweet

Transcript

  1. WWW2020読み会
 
 User Modeling セッションから
 コンテンツに関連するダイナミクスの研究紹介
 
 武内慎
 株式会社サイバーエージェント
 秋葉原ラボ


  2. 1. 本紹介資料の概要 2. 論文紹介(2本) 2-1. [User Modeling] Discovering Strategic Behaviors for

    Collaborative Content-Production in Social Networks 2-2. [User Modeling] Do podcasts and music compete with one another? Understanding users’ audio streaming habits 3. まとめ コンテンツに関連するダイナミクスの研究紹介 目次
  3. <今回ご紹介する内容> WWW2020の User Modeling セッションから、コンテンツに関連するダイナミクス研究を2本紹介 <見どころ> ・Discovering Strategic Behaviors for

    Collaborative Content-Production in Social Networks  ソーシャルネットワーク上で人がコンテンツを生成し報酬を得る様子をモデル化し、  ネットワーク上の勝者の戦略傾向を定性分析している。  戦略の伝搬という意味では文化進化的な観点でも興味深く、また、 Webサービスにおける、  ユーザーによるコンテンツ生成の生態系分析にも有用と思われる。 ・Do podcasts and music compete with one another? Understanding users’ audio streaming habits  音楽等のコンテンツ配信サブスクサービスにおいて、コンテンツでの差別化は宿命的な課題であり、  podcast等の”別腹”コンテンツによる差別化はその解決の1つの可能性だと思われる。しかし、音楽と  podcastが競合しては本末転倒であり、むしろ違いの役割を相補し合うような使われ方を模索すべきである。  本研究では、コンテンツ提供サービスにとって重要な問題に対して A/Bテストが実施できない状況で因果分析  を行っているという点が事業者観点で有用性が高く、また学術的背景からみた本研究の立ち位置を、音楽鑑賞  行動への介入実験という捉え方で説明している点も興味深い、学びの多い研究。 1.本紹介資料の概要
  4. [User Modeling] Discovering Strategic Behaviors for Collaborative Content-Production in Social

    Networks Yuxin Xiao, Adit Krishnan, Hari Sundaram [Keywords: Strategic Behavior Modeling, Social Network Analysis] https://dl.acm.org/doi/fullHtml/10.1145/3366423.3380274 2-1.
  5. <この研究のモチベーション> ・ソーシャルネットワーク上のユーザーのコンテンツ生成行動とその報酬の関係が 謎 ・ごく一部のインフルエンサーと呼ばれるユーザー達(ソーシャルネットワーク上の勝 者)は、効用最大化の戦略を知っていて、意図的にその戦略を活用しているのか? [2-1.Discovering Strategic Behaviors for Collaborative

    Content-Production in Social Networks] モチベーション ここで想定しているソーシャルネットワークの具体例: ・報酬メカニズムが明示的な例:   StackOverflowなどの質問と回答コンテンツを生成するソーシャルネットワーク ・報酬メカニズムが不透明な例:   twitter、研究者の論文生成ネットワーク
  6. <課題> ・コンテンツ生成者(以降では「著者」とする)のコンテンツ生成戦略をどうモデル化すればよい か?  ・戦略は直接観測できない ( 戦略に従った結果としての行動は観測可能 ) ・著者のコンテンツ生成戦略をどう時間発展させるか?  ・著者達は、ソーシャルネットワーク上でお互いに影響を与え合っていると仮定できる ・効用を最大化できる合理的な戦略をどう判定すればよいか?

     ・解析的に求めることができないので、実データを元に合理的な戦略ならば実現できる効用のレベルを 求める必要がある [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks] 研究課題
  7. <課題> ・コンテンツ生成者(以降では「著者」とする)のコンテンツ生成戦略をどうモデル化すればよい か?  ・戦略は直接観測できない ( 戦略に従った結果としての行動は観測可能 )  → 各著者は、戦略分布を持ち、どの戦略をとるかを確率的に決定すると仮定する ・著者のコンテンツ生成戦略をどう時間発展させるか?

     ・著者達は、ソーシャルネットワーク上でお互いに影響を与え合っていると仮定できる  →著者と、それらの相互作用を媒介するコンテンツを、ノード埋め込みベクトルで表現し、   行列演算で相互作用を表す ( 先行研究[40]のGraph Attention Networkからのインスパイア ) ・効用を最大化できる合理的な戦略をどう判定すればよいか?  ・解析的に求めることができないので、実データを元に合理的な戦略ならば実現できる効用のレベルを 求める必要がある  → 戦略分布の中で最尤な戦略と、結果として観測した効用を対応付け [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks] 研究課題
  8. <手法> ・新規手法 DDAN(Dynamic Dual Attention Network)を提案 ・本研究では、対象を論文生成ネットワークとし、これを著者と論文の二部グラフとして扱う。 [2-1.Discovering Strategic Behaviors

    for Collaborative Content-Production in Social Networks] モデル・手法
  9. <モデル・相互作用> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    モデル・手法 ・DDANでの相互作用(影響関係)を表す図 <二部グラフ> ・グラフ G(t) は時刻 t におけるスナップショット ・エッジ(黒線)は、論文とその著者の関係 ・共著(1つの論文に対して複数の著者が対応 )がありえる <影響の矢印> ・青矢印は、著者から論文への影響を表す ・赤矢印は、著者への影響を表す  ・著者から著者への影響は、共著時に、   著作論文を介して伝達される  ・1ステップ過去の自分からの影響も考慮
  10. <モデル・論文属性/戦略> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    モデル・手法 <論文属性> ・論文ノードには、属性 ( 採択会議、トピック、引用論文など )  を持たせる ・著者は、自分の戦略分布に従い確率的にある戦略を選択し、  著作論文の各属性の値を決定する <戦略> ・戦略は属性毎に別個に存在する ・具体的には、「どの論文を引用するか? (属性)」に対して、  「引用論文を過去の論文から一様ランダムに選択する」や  「引用数に基づいて論文を選択する」などがありえる
  11. これが貢献度 <モデル・期待効用> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social

    Networks] モデル・手法 <期待効用> ・著者 a が時刻 t に生成した論文 c から k 時間単位後に受ける期待効用 μa(t,k)  ・著者aが時刻tに生成した論文の集合を Ca(t) とする  ・論文cに対して、aの貢献度を r(a|c) とする <貢献度の計算> ・共著を考慮し、著者 a から論文 c への貢献度を、時刻 t における著者 a の埋め込みベクトル ha(t) と論文 c の埋め込みベクトル hc を用いて、1層のFFNN(feedforward neural network)で計算する c からみた a の 重要度のようなもの φc,a : パラメータベクトル Wc,a : 各ノードに作用する    パラメータ行列 || : ベクトルの結合演算子 σ : LeakyReLU パラメータの 学習方法は後述
  12. <実験> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    実験結果 <データセット> ・DBLPデータセット(論文の著者と引用と発表会議のデータ )  ・1980年~1999年に生成された論文を比較対象とし、  ・2000年~2018年( t in {1,2,...,19})の各年に対応するネットワークの状態を G(t) と表す <利用する論文の属性> ・引用論文、著者、発表会議 <実験で考慮する戦略空間の軸> ・Popularity:人気のある論文を優先的に引用しやすい (preferential attachment) or ランダム ・Field:類似のテーマの論文を引用しやすい or 別のテーマの論文を引用しやすい ・Familiarity:過去に共著者になった人の論文を引用しやすい or 共著者ではない人の論文を引用しやすい ・Time:最近の論文を引用しやすい or ランダム 戦略は、上記の各戦略軸の値の組み合わせで表現され、その戦略によって実際の論文の属性が説明されると仮定する (Ex. 人気があって同じ分野の論文を引用している  ← 「Popularity」と「Field」の戦略の複合戦略を持つ場合に最も実現されやすいと評価できる  ) 以下の2つの論文の属性を評価していく  ・引用論文属性:これを説明する戦略は、上記戦略の4つを考慮  (2^4=16通りの戦略)  ・発表会議属性:これを説明する戦略は、上記戦略のうち  Popularity, Field, Familiarityの3つを考慮 (2^3=8通りの戦略)
  13. <学習> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    実験結果 <学習方法> ・前述の貢献度を用いて、時刻 t における各ノード(著者、論文)の複合戦略を計算 ・Ground Truthとして時刻 t のスナップショット G(t) を用い、  各エッジが複合戦略から生じるとしたときの  負の対数尤度の合計値を最小化 <DDANフレームワークの精度> ・まず、学習結果評価のため、  エッジ予測のタスクで他ベースライン手法と比較 ・全スナップショットデータにおいて、既存手法より  予測精度が勝った G(t) の全ての エッジについての和 貢献度から計算される戦略分布 Dci が 与えられた時に、エッジ ( ci, cj )を観測する確率
  14. <定性評価> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    実験結果 <戦略と効用の関係> ・分析対象の戦略  ・引用論文属性を説明する、引用戦略(4^2=16通り)  ・発表会議属性を説明する、発表戦略(3^2=8通り) ・論文からの期待効用の観測値は、論文の引用数。つまり、μc(k) は、論文公開からk時間単位後までの引用数 ・引用戦略と発表戦略は独立で、 μc(k) へ等しく貢献していると仮定 戦略毎の著者数分布 横軸:効用 左図:引用戦略 右図:発表戦略 戦略0の効用が高い → Popularity & Field & Familiarity 戦略 (有名な会議に、類似分野に、何度も出している )
  15. <定性評価> [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks]

    実験結果 <戦略の安定性と効用の関係> 効用上位1%の著者は、 戦略の選好順序が 最も安定している 効用下位の著者は、戦略の選好順序が不安定
  16. <まとめ> ・コンテンツ生成者のコンテンツ生成戦略をモデル化  ・戦略を直接観察できないために実証困難だった点をDDANの学習によって解決  ・エッジ予測精度比較結果から、うまくモデリングできていると判断できる ・論文の著者の戦略は、引用数上位10%程度までは戦略の選好に安定性がある ・これらの人たちは、自分の成功戦略を発見し、実践している <所感> ・コンテンツを生成するユーザーの行動理解に繋がる ・適用するソーシャルネットワークと生成されるコンテンツに依存して、メカニズムや登場人物 を変えていく必要あり

    ・特に、効用が自明でないコンテンツ生成生態系は、モデルを考えるのが大変そう [2-1.Discovering Strategic Behaviors for Collaborative Content-Production in Social Networks] まとめ・所感
  17. [User Modeling] Do podcasts and music compete with one another?

    Understanding users’ audio streaming habits Ang Li, Alice Wang, Zahra Nazari, Praveen Chandar and Benjamin Carterette. [Keywords: listening habits, music, podcast] https://dl.acm.org/doi/abs/10.1145/3366423.3380260 2-2.
  18. [2-2.Do podcasts and music compete with one another? Understanding users’

    audio streaming habits] モチベーション <この研究のモチベーション> ・音楽サブスクサービスで podcast配信することは、本業の音楽消費と競合する懸念がある  ・音楽と podcastの競合可能性の検証  ・音楽消費行動にどう影響を与えるのか? ・消費者行動理解と、レコメンドへの応用 <関連研究> ・音楽の機能に関する心理学的研究  ・娯楽のために音楽を聴く [52]、社会的相互作用の促進のため [5,25,38]、教育のため [26,51] ・メディアの消費構造の研究  ・消費者本人要因と構造的要因の2つが議論され、これらを統合する研究もある  [12,60,61]  ・構造的要因の「ルーチン化」 [18] ・目的や聴き方が違うなら競合しない? (podcastの使い方の研究はまだほとんど存在しない。 ) ・podcast配信をすることによる影響や、配信の前後のユーザーの習慣変化も理解する必要がある。 ・構造的要因(podcastの配信開始)による音楽消費習慣の変化を評価
  19. <課題> ・因果推論のためのゴールドスタンダードな方法であるランダム化実験  (A/Bテスト) は、  今回は使えない  ・露出の制御は出来ても、podcastを強制的に聴かせる事は不可 <手法・概要> ・観測データに対して、準実験計画法を用いて因果関係を評価する  ・podcastを聴くことを介入として扱い、音楽リスナーを治療者とみなす  ・傾向スコアマッチングによって、対照群ユーザーグループを選定

      ・podcastを聴いたユーザーと聴かなかったユーザーの違いによる交絡因子の影響をできるだけ排除  ・対照群を選定後、差分の差分法を用いて、介入の影響を定量化する   ・介入後の平均変化量を対照群と比較する回帰モデル [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 課題と手法
  20. <手法・詳細> <治療ユーザー群と対照ユーザー群> [2-2.Do podcasts and music compete with one another?

    Understanding users’ audio streaming habits] 課題と手法 治療ユーザー群 Adopters : 聴きたい番組をみつけている 対照ユーザー群 Seekers : podcast聴き始め Music only : podcastを聴いたことがない Adoptersプロキシ条件 : 1時間以上再生した番組が 3つ以上ある <傾向スコアマッチング> ・治療前の1/1~3/1のリスニング行動に基づき、治療群と  対象群(2つ)の類似ユーザーペアを作る ・傾向スコアの計算には、ロジスティック回帰モデルを使用  ・モデルに使った独立変数:年齢、性別、アカウントの年齢、登録デバ イス、課金ステータス、音楽リスニング行動、時間帯曜日別(朝/昼/午後/ 夜、平日/週末)のリスニング行動 ・左図は、マッチング前後で傾向スコア分布を比較している  ・上段がマッチング前、下段がマッチング後  ・(a,c:Adopters vs Music only、b,d:Adopters vs Seekers)
  21. <手法・詳細> <差分の差分法> ・治療前時刻 t1 と治療後時刻 t2 の、治療群と対照群比較し、治療効果 (差分)を推定する。 ・治療効果(差分)の推定には、線形回帰の fittingを行う。

    [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 課題と手法 ユーザー: u 、治療群/対照群: τ 、t1/t2: t の 従属変数 D はダミー変数で、 α 、 β はそれぞれ τ と t の固定影響を表すバイナリ値 δ は y に依存する 介入の影響係数
  22. <RQ1: podcastリスニングによって 音楽リスニング習慣は変化するか?> ・差分の差分法の分析結果  ・下表:前項の回帰 fittingで求めた、      各従属変数における δ の値とp値  ・右図:t1

    期間の再生時間ベースラインからの増加率 ・再生時間が大幅に増え、音楽再生時間は若干減る影響が  確認できる。 [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 結果 podcastを聴くことで 若干音楽を聴く時間が減る トータルのリスニング時間 は20%ほど増える y軸の0%は t1 期間における 再生時間のベースライン 音楽再生時間の 減少は、比較的 午後と夕方に多い
  23. <RQ2: podcast vs 音楽 のリスニング習慣> ・Adoptersの t2 期間において、podcastと音楽のリスニング習慣を比較  ・χ^2 検定で、曜日と時間帯で有意な差を確認

     ・podcastは、朝6時、平日の10時まで、水曜にピーク  ・音楽は、夕方午後6~10時、週末の金曜〜日曜 [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 結果
  24. <RQ2: podcast vs 音楽 のリスニング習慣> ・Adoptersの t2 期間において、podcastの番組タイプ別にリスニング習慣を比較  ・χ^2 検定で、番組タイプ別の再生頻度分布に有意な差を確認

     ・エンターテイメントの分布は音楽と類似  ・情報番組は、午前中6~10時の再生傾向が顕著  ・曜日に関しては、番組タイプの大きな違いは確認できなかった [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 結果 点線が音楽再生の分布
  25. <SheekersとAdaptersが聴いている番組の違い> ・Adaptersの治療期間に聴いている番組特徴を利用して、  Adapters化予測のロジスティック回帰モデルを作る。  ・Adapters : 1 vs Sheekers : 0

    をバイナリ従属変数としてモデル化  ・podcastの再生経路、聴いているpodcastの番組タイプを   独立変数として使用 ・Adapters化するユーザーは、コメディや、犯罪ドキュメンタリー番組  の視聴傾向が強い ・予測精度(accuracy)は70%程度 [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 結果 この期間の podcastリスニング 傾向からその後を予測する
  26. <RQ3: podcastリスニング予測> ・Adoptersのpodcastと音楽のリスニング習慣には有意な差があることがわかったので、これらの違い学習したLSTMモデルで、  リスニングセッション開始時のpodcastリスニング予測を行う  ・リスニング習慣の時間的依存性をLSTMが上手く補足できるという仮説の検証  ・10分以上の期間が空いたら新セッション、260万件のリスニングセッションを用いて学習 ・用いる特徴量:ユーザー特徴量、曜日と時間、前回のセッション情報、今までの再生数、今までの再生時間 ・ベースラインとして、「ユーザー属性」と「前回のセッション情報」のみでのロジスティック回帰およびRandom Forestを用いた ・ベースラインとの比較でLSTMを用いたものの精度が高い

    [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] 結果 5分割交差検証結果の F1スコアの平均と分散
  27. <まとめ> ・音楽と podcast の競合可能性を検証し、 podcast を聴くことで生じる音楽鑑賞行動の変化を  分析した。その結果、音楽と podcast はほとんど競合しないことがわかった。 ・A/Bテストができないため、準実験計画法で因果を分析した。

    ・podcast視聴ユーザー群(Adopters)化の予測モデルから、重要な podcast番組タイプを特定した。 ・LSTMでセッション単位の podcast リスニング予測検証を行い、リスニング習慣の  時間的依存性をLSTMで捉えられる可能性を示した。 <所感> ・実サービスの分析でも、A/Bテストができない状況は多々あり、本研究のアプローチはその参考になる。 ・サービス内での podcast 配信を、構造的要因として解釈し、既存研究と対応づけている。 [2-2.Do podcasts and music compete with one another? Understanding users’ audio streaming habits] まとめ・所感
  28.  まとめ 3.まとめ

  29. 3.まとめ <まとめ> ・WWW2020の User Modeling セッションから、コンテンツ関連のダイナミクス研究を2本紹介 ・Discovering Strategic Behaviors for

    Collaborative Content-Production in Social Networks では、  ソーシャルネットワーク上で人がコンテンツを生成し報酬を得る様子をモデル化した。 ・Do podcasts and music compete with one another? Understanding users’ audio streaming habitsでは、  podcast配信による介入行為の影響について因果分析をした。 <所感> ・多くのWebサービスにおいて、コンテンツによる同業との差別化は重要な課題であり、  コンテンツに関連するダイナミクスを理解することは、差別化戦略を考える上で有用だと思われる。 ・紹介論文の対象のコンテンツは、紹介論文の 1本目はコンテンツ=論文、2本目はコンテンツ=音楽,podcast  だったが、他コンテンツにも応用可能なアプローチだった (少なくとも基本的な考え方の部分は )。また、  コンテンツの種類によって共通する部分と異なる部分があるはずで、モデルを構築しながら  それらを体系的に整理できると、人の行動やそのコンテンツの文化的 /社会的役割を理解することにも繋がり、  非常に興味深い。