Slide 1

Slide 1 text

動画共有サイトにおけるコメント語彙 の時系列解析手法の提案
 柳田雄輝(筑波大学), 若林啓(筑波大学), 佐藤哲司(筑波大学)


Slide 2

Slide 2 text

研究背景
 動画共有サイトでは,動画のタイムラインに沿って画面 上にコメントを重畳表示する形態がある [1]
 
 
 
 
 
 [1] https://www.nicovideo.jp/watch/sm36230032
 2


Slide 3

Slide 3 text

問題点
 コメントが動画の内容理解を妨げる可能性がある
 ● 画面を埋め尽くすほどのコメント
 ● 内容とは関係のないコメント
 ○ e.g. wwww,88
 ○ 特徴: カテゴリに依存せず付与される
 
 
 新たなフィルタリング機能の作成が必要
 3


Slide 4

Slide 4 text

研究目的
 動画に頻出するコメントの投稿日時の分布を分析
 ● DF値
 ● カテゴリ
 ● 動画のタイムライン
 との関係性を明らかにする
 4
 88
 コメント投稿日時
 日時がしばらく経った後の 「88」はフィルタリングしてよさ そう
 日時が経つにつれ,
 88というコメント
 の割合が増えている
 例


Slide 5

Slide 5 text

知見
 5
 コメントの投稿日時
 属性間の関係性
 コメントのカテゴリ
 コメントのDF値
 コメントのタイム
 ライン上での位置
 ● コメントの投稿日時はコメントのカテゴリに依存
 ● コメントのタイムライン上での位置はコメントのDF値に依存
 依存
 依存
 相関弱
 相関弱


Slide 6

Slide 6 text

提案手法
 6
 コメント データ[2]
 [2] 株式会社ドワンゴ(2019): ニコニコ動画コメント等データ. 国立情報 学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/idr.3.1
 単語抽出
 ヒート
 マップ
 単語解析
 図示
 クラスタリ ング
 単語集約
 集計
 カウント


Slide 7

Slide 7 text

提案手法(単語解析)
 ● 以下の条件で動画を無作為抽出
 ○ 代表的な4カテゴリから各5本ずつ選ぶ
 ■ 代表的なカテゴリ: ゲーム,アニメ,歌ってみた,科学
 ○ 総コメント10,000以上
 ○ 2013~2015年に投稿
 ● コメントを形態素解析
 ○ 各語のTF値,投稿位置,投稿日時を集計
 ○ 文字の繰り返しが見られる語は2文字に置換して累計
 ■ e.g. wwww → ww と置換
 7


Slide 8

Slide 8 text

提案手法(カウント)
 ● TF値上位10語についてDF値をカウント
 ○ 各動画のコメント集合を1文書とみなす
 ○ DF値が高い⇔動画非依存の語
 8
 TF上位10語
 ww
 88
 うぽつ
 かわいい
 TF上位10語
 うぽつ
 ww
 懐かしい
 DF(88) = 1
 DF(うぽつ) = 2
 ︙
 ︙
 動画A
 動画B
 DF値をカウント
 ︙


Slide 9

Slide 9 text

TF値・DF値のカウント
 9
 コメント
 うぽつ
 ww
 88
 88
 コメント
 うぽつ
 ww
 うぽつ
 TF値: その語の出現頻度
 DF値: その語を含むコメントを持つ動画数
 TF(88) = 2
 DF(88) = 1
 TF(うぽつ) = 3
 DF(うぽつ) = 2
 矢印の色数がDF値に対応


Slide 10

Slide 10 text

提案手法(図示)
 ● コメント投稿日時と動画投稿日時の差分を集計
 ○ 動画投稿日時は最初に付けられたコメント日時で近似
 ● DF値とコメント投稿日時の関係を図示
 ○ ヒートマップに表す
 ○ 時系列は1日以内,1週間,1ヶ月,それ以降の4区分
 10
 88(5)
 ww(3)
 1day 1week 1month 1month<
 括弧内の数値: DF値
 色の濃淡: TF値の大小


Slide 11

Slide 11 text

提案手法(単語集約)
 ● 各語をクラスタリング
 ○ カテゴリとコメント投稿日時の関係を明らかにする
 ■ e.g. ゲームカテゴリのコメントは投稿直後に多く付与
 ■ 似た時系列を持つ語を集約
 ○ クラスタ数 = 4
 11
 88
 コメント投稿日時
 ww
 うぽつ
 クラスタリング
 88
 ww
 うぽつ
 クラスタ1
 クラスタ2


Slide 12

Slide 12 text

12
 ● 横軸: 動画が投稿されてからコメ ントが投稿されるまでの時間
 ○ 各行について正規化
 ● 縦軸: DF値を降順に並べた語
 ○ 括弧内の数値: DF値
 ○ 各列について標準化
 
 ● e.g. 「うぽつ」は動画投稿後1日 以内に頻出
 ○ 1ヶ月以降にはほぼ出現しない
 実験結果
 投稿日時の分布


Slide 13

Slide 13 text

DF値における考察
 13
 DF値と時系列分布の間には 関係が見えない 投稿日時の分布(続き)
 ● e.g. 「可愛い」は動画投稿後1ヶ 月以降に頻出
 差がない


Slide 14

Slide 14 text

14
 クラスタ3
 クラスタ4


Slide 15

Slide 15 text

カテゴリおける考察
 ● 各語がどのカテゴリでDF値が加算されたか集計
 15
 ● アニメと歌ってみた,ゲームと科学が似ている
 ○ コメントの時系列分布はカテゴリに依ると推測できる

Slide 16

Slide 16 text

クラスタの解釈
 ● アニメ・歌ってみたカテゴリの共 通点
 ○ 動画投稿者やキャラクターに対し て歓声が上がる
 ○ 後からファンになる層の存在
 ■ 時系列分布が右に歪む
 16
 クラスタ3


Slide 17

Slide 17 text

クラスタの解釈
 ● ゲーム・科学カテゴリの共 通点
 ○ 同カテゴリでも動画の内容は 様々
 ■ 日時を問わずまんべんなく出 現
 17
 クラスタ4


Slide 18

Slide 18 text

動画のタイムラインを10分割した図
 18
 コメントのタイムライン上での位置(10区分)
 全コメントの分布
 高DF値の語を含むコメントの分布
 正 規 化 コ メ ン ト 頻 度 タイムラインでの時系列分布はDF値に依ると推測
 ● タイムラインとコメント投稿時間の関係は見えない
 ○ 関係がある ⇒ 各区分の比が異なる
 ○ e.g. 緑(1ヶ月以降)の比が大きい ⇒ 盛り上がりに便乗


Slide 19

Slide 19 text

まとめ
 ● コメント語彙の抽出
 ○ 形態素解析と正規表現によるルール付け
 19
 コメントの投稿日時
 属性間の関係性
 コメントのカテゴリ
 コメントのDF値
 コメントのタイム
 ライン上での位置
 依存
 依存
 相関弱
 相関弱


Slide 20

Slide 20 text

コメント集計結果
 20


Slide 21

Slide 21 text

他のクラスタ
 21
 クラスタ1
 クラスタ2


Slide 22

Slide 22 text

カテゴリ間のDF値の類似度
 22


Slide 23

Slide 23 text

タイムライン10分割のヒストグラム
 23
 コメントのタイムライン上での位置(10区分)
 全コメントの分布
 高DF値の語を含むコメントの分布
 縦軸: コメントの頻度