Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
動画共有サイトにおけるコメント語彙 の時系列解析手法の提案 柳田雄輝(筑波大学), 若林啓(筑波大学), 佐藤哲司(筑波大学)
Slide 2
Slide 2 text
研究背景 動画共有サイトでは,動画のタイムラインに沿って画面 上にコメントを重畳表示する形態がある [1] [1] https://www.nicovideo.jp/watch/sm36230032 2
Slide 3
Slide 3 text
問題点 コメントが動画の内容理解を妨げる可能性がある ● 画面を埋め尽くすほどのコメント ● 内容とは関係のないコメント ○ e.g. wwww,88 ○ 特徴: カテゴリに依存せず付与される 新たなフィルタリング機能の作成が必要 3
Slide 4
Slide 4 text
研究目的 動画に頻出するコメントの投稿日時の分布を分析 ● DF値 ● カテゴリ ● 動画のタイムライン との関係性を明らかにする 4 88 コメント投稿日時 日時がしばらく経った後の 「88」はフィルタリングしてよさ そう 日時が経つにつれ, 88というコメント の割合が増えている 例
Slide 5
Slide 5 text
知見 5 コメントの投稿日時 属性間の関係性 コメントのカテゴリ コメントのDF値 コメントのタイム ライン上での位置 ● コメントの投稿日時はコメントのカテゴリに依存 ● コメントのタイムライン上での位置はコメントのDF値に依存 依存 依存 相関弱 相関弱
Slide 6
Slide 6 text
提案手法 6 コメント データ[2] [2] 株式会社ドワンゴ(2019): ニコニコ動画コメント等データ. 国立情報 学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/idr.3.1 単語抽出 ヒート マップ 単語解析 図示 クラスタリ ング 単語集約 集計 カウント
Slide 7
Slide 7 text
提案手法(単語解析) ● 以下の条件で動画を無作為抽出 ○ 代表的な4カテゴリから各5本ずつ選ぶ ■ 代表的なカテゴリ: ゲーム,アニメ,歌ってみた,科学 ○ 総コメント10,000以上 ○ 2013~2015年に投稿 ● コメントを形態素解析 ○ 各語のTF値,投稿位置,投稿日時を集計 ○ 文字の繰り返しが見られる語は2文字に置換して累計 ■ e.g. wwww → ww と置換 7
Slide 8
Slide 8 text
提案手法(カウント) ● TF値上位10語についてDF値をカウント ○ 各動画のコメント集合を1文書とみなす ○ DF値が高い⇔動画非依存の語 8 TF上位10語 ww 88 うぽつ かわいい TF上位10語 うぽつ ww 懐かしい DF(88) = 1 DF(うぽつ) = 2 ︙ ︙ 動画A 動画B DF値をカウント ︙
Slide 9
Slide 9 text
TF値・DF値のカウント 9 コメント うぽつ ww 88 88 コメント うぽつ ww うぽつ TF値: その語の出現頻度 DF値: その語を含むコメントを持つ動画数 TF(88) = 2 DF(88) = 1 TF(うぽつ) = 3 DF(うぽつ) = 2 矢印の色数がDF値に対応
Slide 10
Slide 10 text
提案手法(図示) ● コメント投稿日時と動画投稿日時の差分を集計 ○ 動画投稿日時は最初に付けられたコメント日時で近似 ● DF値とコメント投稿日時の関係を図示 ○ ヒートマップに表す ○ 時系列は1日以内,1週間,1ヶ月,それ以降の4区分 10 88(5) ww(3) 1day 1week 1month 1month< 括弧内の数値: DF値 色の濃淡: TF値の大小
Slide 11
Slide 11 text
提案手法(単語集約) ● 各語をクラスタリング ○ カテゴリとコメント投稿日時の関係を明らかにする ■ e.g. ゲームカテゴリのコメントは投稿直後に多く付与 ■ 似た時系列を持つ語を集約 ○ クラスタ数 = 4 11 88 コメント投稿日時 ww うぽつ クラスタリング 88 ww うぽつ クラスタ1 クラスタ2
Slide 12
Slide 12 text
12 ● 横軸: 動画が投稿されてからコメ ントが投稿されるまでの時間 ○ 各行について正規化 ● 縦軸: DF値を降順に並べた語 ○ 括弧内の数値: DF値 ○ 各列について標準化 ● e.g. 「うぽつ」は動画投稿後1日 以内に頻出 ○ 1ヶ月以降にはほぼ出現しない 実験結果 投稿日時の分布
Slide 13
Slide 13 text
DF値における考察 13 DF値と時系列分布の間には 関係が見えない 投稿日時の分布(続き) ● e.g. 「可愛い」は動画投稿後1ヶ 月以降に頻出 差がない
Slide 14
Slide 14 text
14 クラスタ3 クラスタ4
Slide 15
Slide 15 text
カテゴリおける考察 ● 各語がどのカテゴリでDF値が加算されたか集計 15 ● アニメと歌ってみた,ゲームと科学が似ている ○ コメントの時系列分布はカテゴリに依ると推測できる
Slide 16
Slide 16 text
クラスタの解釈 ● アニメ・歌ってみたカテゴリの共 通点 ○ 動画投稿者やキャラクターに対し て歓声が上がる ○ 後からファンになる層の存在 ■ 時系列分布が右に歪む 16 クラスタ3
Slide 17
Slide 17 text
クラスタの解釈 ● ゲーム・科学カテゴリの共 通点 ○ 同カテゴリでも動画の内容は 様々 ■ 日時を問わずまんべんなく出 現 17 クラスタ4
Slide 18
Slide 18 text
動画のタイムラインを10分割した図 18 コメントのタイムライン上での位置(10区分) 全コメントの分布 高DF値の語を含むコメントの分布 正 規 化 コ メ ン ト 頻 度 タイムラインでの時系列分布はDF値に依ると推測 ● タイムラインとコメント投稿時間の関係は見えない ○ 関係がある ⇒ 各区分の比が異なる ○ e.g. 緑(1ヶ月以降)の比が大きい ⇒ 盛り上がりに便乗
Slide 19
Slide 19 text
まとめ ● コメント語彙の抽出 ○ 形態素解析と正規表現によるルール付け 19 コメントの投稿日時 属性間の関係性 コメントのカテゴリ コメントのDF値 コメントのタイム ライン上での位置 依存 依存 相関弱 相関弱
Slide 20
Slide 20 text
コメント集計結果 20
Slide 21
Slide 21 text
他のクラスタ 21 クラスタ1 クラスタ2
Slide 22
Slide 22 text
カテゴリ間のDF値の類似度 22
Slide 23
Slide 23 text
タイムライン10分割のヒストグラム 23 コメントのタイムライン上での位置(10区分) 全コメントの分布 高DF値の語を含むコメントの分布 縦軸: コメントの頻度