論文紹介 Quantifying attention via dwell time and engagement in a social media browsing environment / web-socialmedia-study-8th

Slide 1

Slide 1 text

読み手：石原祥太郎（日本経済新聞社）第八回ウェブ・ソーシャルメディア論文読み会 2023 年 8 月 24 日 Neurips 2022 workshop & IC2S2 2023 Best Plenary Talk [arXiv] Quantifying attention via dwell time and engagement in a social media browsing environment

Slide 2

Slide 2 text

2 本論文の概要 ● ユーザの同意を得てスクロール可能なタイムライン上で、ニュース記事の滞在時間やエンゲージメント（いいね・共有）を記録し記事の特徴（魅力・信頼性など）との関係性などを幅広く分析した研究 ○ 結果として “Try + Buy” の 2 段階にユーザ行動を落とし込んでいる ○ Try: 扇情性が高い記事ほど、滞在時間が長い ○ Buy: 信頼性が高い記事ほど、エンゲージメントに繋がる ○ 滞在時間とエンゲージメントは相互に関係する ● 著者は Hause Lin さん（レジャイナ大）& Ziv Epstein さん（MIT）ら ● Neurips 2022 workshop & IC2S2 2023 Best Plenary Talk

Slide 3

Slide 3 text

3 選定理由 ● 7 月 17-20 日の IC2S2 2023 で発表を聞いて興味を持ち、帰国の便で読むリストに入れていた ● 「クリック」より情報量が多い「滞在時間」に関心がある ○ 日経電子版の滞在時間の予測モデルを作りエラー分析した結果、様々な要因が存在するため複数のモデル化が必要だと感じていた ■ 記事内容が難解 or 興味深いので読み込んでいる ? ○ Shotaro Ishihara, and Yasufumi Nakama (2022). Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning. In Proceedings of 2022 IEEE International Conference on Big Data (Industrial & Government Track).

Slide 4

Slide 4 text

4 読み手の紹介：石原祥太郎（日本経済新聞社） ● 大学新聞での 4 年間の記者・編集長などを経て、日経新聞でデータ分析・機能開発・研究に従事 ○ 大規模言語モデルとニュースメディア ■ 独自データによるドメイン特化モデルの開発・検証 ■ 性能劣化 (AACL 2022) や訓練データ抽出（TrustNLP 2023） ■ 応用：クロスワードパズル生成 (CIKM 2023) など ○ 単語分散表現による言語の通時変化の定量化 ■ 第2回計算社会科学会大会優秀賞、IC2S2 2023 発表 ○ 機械学習コンテストに関する書籍 * 3

Slide 5

Slide 5 text

5 導入 ● 「アテンション・エコノミー」の概念にもある通り、人々のアテンションは近年のデジタルエコシステムで重要な役割を果たしている ● しかし、アテンションがどう作用しているかは依然として不明である ● そこで本研究では、デジタルエコシステムのためのアテンションを定量化するモデルを提案し、検証する ● 先行研究ではアテンションの測定基準として滞在時間とエンゲージメントを用いているが、この 2 つを統合した分析はほとんどない ○ 唯一の例: Understanding User Attention and Engagement in Online News Reading. In Proceedings of WSDM 16.

Slide 6

Slide 6 text

6 本論文での用語 ● アテンション ○ 滞在時間 ■ 投稿が画面に表示されている時間 ○ エンゲージメント ■ 投稿の共有 ■ 投稿へのいいね

Slide 7

Slide 7 text

7 実験設定 ● アメリカ人 628 人が参加 ○ デスクトップ (N=483)、モバイル (N=145) ○ 時給 9 米ドル ○ 平均年齢 35.7 歳、女性 46.5 %、白人 66 % ● 120 の投稿を各参加者に表示 ○ 90（半分は真実、半分は偽）=> 200 のニュース記事から抽出 ○ 30 => 76の意見とニュース記事のセットから抽出 ○ すべての投稿はサムネイル画像と見出しの両方を含む

Slide 8

Slide 8 text

8 滞在時間 ● 先行研究に従い、0.15 秒以下 or 30 秒以上を外れ値として除去 ● スクロール可能なタイムラインでは、滞在時間とエンゲージメントに相互依存の関係がある ○ ベイズ階層混合効果モデルで、各参加者が投稿に 1 回エンゲージメントをするのにかかる時間を推定し、滞在時間を調整

Slide 9

Slide 9 text

● 実験参加者とは別の 872 人、時給 9 米ドル ● それぞれ 276 のうち 40 記事について、以下の観点で評価 ○ sharing: この記事を見かけたら、どの程度の確率で共有しますか？ ○ familiarity: この記事の見出しを以前に見たことがありますか？ ○ truth: この記事の見出しが真実である可能性はどのくらいですか？ ○ favorability: この記事の見出しが正確と仮定した場合、民主党と共和党のどちらに好意的ですか？ ○ provocative: この記事の見出しはどの程度過激・扇情的か？ ○ informative: この記事の見出しはどの程度参考になりますか？ ○ surprising: この記事の見出しの意外性は？ ○ impactful: この記事の見出しのインパクトは？ 9 276 のニュース記事へのアノテーション参加者全体の平均から、各投稿の特徴について1つの推定値を算出

Slide 10

Slide 10 text

10 投稿の 8 特徴と滞在時間の相関 ● 滞在時間は、truth, surprising, familiarity と有意に相関 ○ truth と familiarity が大きいほど、滞在時間は短く ○ surprising が大きいほど、滞在時間は長く

Slide 11

Slide 11 text

11 投稿の 8 特徴の主成分分析 ● PC1「信頼性 (credibility)」に関する特徴 ● PC2「扇情性 (sensationalism)」に関する特徴

Slide 12

Slide 12 text

12 エンゲージメントの有無と滞在時間

Slide 13

Slide 13 text

13 回帰分析①滞在時間の予測 ● log(滞在時間) をエンゲージメントの有無・PC1「信頼性 (credibility)」・PC2「扇情性 (sensationalism)」で予測 ● 扇情性が高いほど、滞在時間が長いことが示唆された

Slide 14

Slide 14 text

14 回帰分析②エンゲージメントの予測 ● エンゲージメントの有無をlog(滞在時間) ・PC1「信頼性 (credibility)」・PC2「扇情性 (sensationalism)」で予測 ● {信頼性が高い | 扇情性が低い}ほど、エンゲージメントの可能性が高いことが示唆された ● 滞在時間とエンゲージメントは相互に関係する

Slide 15

Slide 15 text

15 本論文のまとめと議論 ● ユーザの同意を得てスクロール可能なタイムライン上で、ニュース記事の滞在時間やエンゲージメント（いいね・共有）を記録し記事の特徴（魅力・信頼性など）との関係性などを幅広く分析した研究 ○ 結果として “Try + Buy” の 2 段階にユーザ行動を落とし込んでいる ○ Try: 扇情性が高い記事ほど、滞在時間が長い ○ Buy: 信頼性が高い記事ほど、エンゲージメントに繋がる ○ 滞在時間とエンゲージメントは相互に関係する ● 推薦システムを実装する際に最適化する指標に注意 ○ 滞在時間の最適化は、過激な見出しに繋がってしまう懸念

Slide 16

Slide 16 text

16 所感 ● ある程度多い人数のユーザ実験でデータを収集し、さまざまな観点で分析をしている点で参考になる ● 投稿の 8 特徴はどうやって決めた？ ○ 最終的には、主成分分析で 2 特徴に括っている ○ 民主党と共和党の話を聞く必要あった？ ● 分析前にどういう仮説があったのか気になる ● 表で出てくる項目と本文の対応関係が分かりづらい ● 統計検定の記号が説明なしに出てくる