Upgrade to Pro — share decks privately, control downloads, hide ads and more …

動画共有サイトにおけるコメント語彙の時系列解析手法の提案 / Temporal Analysis of Comment Vocabulary in A Video Sharing Service

動画共有サイトにおけるコメント語彙の時系列解析手法の提案 / Temporal Analysis of Comment Vocabulary in A Video Sharing Service

柳田雄輝, 若林啓, 佐藤哲司. 動画共有サイトにおけるコメント語彙の時系列解析手法の提案. 第12回データ工学と情報マネジメントに関するフォーラム(DEIM 2020). 2020, https://proceedings-of-deim.github.io/DEIM2020/papers/G2-2.pdf, (accessed 2020-05-05).

オンラインプレゼンテーション賞 受賞

YANAGIDA Yuki

March 02, 2020
Tweet

More Decks by YANAGIDA Yuki

Other Decks in Research

Transcript

  1. 研究目的
 動画に頻出するコメントの投稿日時の分布を分析
 • DF値
 • カテゴリ
 • 動画のタイムライン
 との関係性を明らかにする
 4


    88
 コメント投稿日時
 日時がしばらく経った後の 「88」はフィルタリングしてよさ そう
 日時が経つにつれ,
 88というコメント
 の割合が増えている
 例

  2. 提案手法
 6
 コメント データ[2]
 [2] 株式会社ドワンゴ(2019): ニコニコ動画コメント等データ. 国立情報 学研究所情報学研究データリポジトリ. (データセット).

    https://doi.org/10.32130/idr.3.1
 単語抽出
 ヒート
 マップ
 単語解析
 図示
 クラスタリ ング
 単語集約
 集計
 カウント

  3. 提案手法(単語解析)
 • 以下の条件で動画を無作為抽出
 ◦ 代表的な4カテゴリから各5本ずつ選ぶ
 ▪ 代表的なカテゴリ: ゲーム,アニメ,歌ってみた,科学
 ◦ 総コメント10,000以上


    ◦ 2013~2015年に投稿
 • コメントを形態素解析
 ◦ 各語のTF値,投稿位置,投稿日時を集計
 ◦ 文字の繰り返しが見られる語は2文字に置換して累計
 ▪ e.g. wwww → ww と置換
 7

  4. 提案手法(カウント)
 • TF値上位10語についてDF値をカウント
 ◦ 各動画のコメント集合を1文書とみなす
 ◦ DF値が高い⇔動画非依存の語
 8
 TF上位10語
 ww


    88
 うぽつ
 かわいい
 TF上位10語
 うぽつ
 ww
 懐かしい
 DF(88) = 1
 DF(うぽつ) = 2
 ︙
 ︙
 動画A
 動画B
 DF値をカウント
 ︙

  5. TF値・DF値のカウント
 9
 コメント
 うぽつ
 ww
 88
 88
 コメント
 うぽつ
 ww


    うぽつ
 TF値: その語の出現頻度
 DF値: その語を含むコメントを持つ動画数
 TF(88) = 2
 DF(88) = 1
 TF(うぽつ) = 3
 DF(うぽつ) = 2
 矢印の色数がDF値に対応

  6. 提案手法(図示)
 • コメント投稿日時と動画投稿日時の差分を集計
 ◦ 動画投稿日時は最初に付けられたコメント日時で近似
 • DF値とコメント投稿日時の関係を図示
 ◦ ヒートマップに表す
 ◦

    時系列は1日以内,1週間,1ヶ月,それ以降の4区分
 10
 88(5)
 ww(3)
 1day 1week 1month 1month<
 括弧内の数値: DF値
 色の濃淡: TF値の大小

  7. 12
 • 横軸: 動画が投稿されてからコメ ントが投稿されるまでの時間
 ◦ 各行について正規化
 • 縦軸: DF値を降順に並べた語


    ◦ 括弧内の数値: DF値
 ◦ 各列について標準化
 
 • e.g. 「うぽつ」は動画投稿後1日 以内に頻出
 ◦ 1ヶ月以降にはほぼ出現しない
 実験結果
 投稿日時の分布

  8. 動画のタイムラインを10分割した図
 18
 コメントのタイムライン上での位置(10区分)
 全コメントの分布
 高DF値の語を含むコメントの分布
 正 規 化 コ メ

    ン ト 頻 度 タイムラインでの時系列分布はDF値に依ると推測
 • タイムラインとコメント投稿時間の関係は見えない
 ◦ 関係がある ⇒ 各区分の比が異なる
 ◦ e.g. 緑(1ヶ月以降)の比が大きい ⇒ 盛り上がりに便乗