Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニコニコ動画のコメント解析

 ニコニコ動画のコメント解析

トピック
1. ごちうさ難民はどこへ行ったか
2. コメントによる動画要約
3. ニコニコ動画を表現するマルチモーダル特徴の検討

ブログ記事は http://hi-king.hatenablog.com/entry/2015/05/01/220432

Keisuke OGAKI

February 21, 2015
Tweet

More Decks by Keisuke OGAKI

Other Decks in Technology

Transcript

  1. ニコニコ米解析
    @Hi_king

    View Slide

  2. @Hi_king

    View Slide

  3. 今日の目標

    View Slide

  4. 米ってどんなデータ?

    View Slide

  5. 本日のトピック
    ごちうさ難民はどこへ行ったか
    コメントによる動画要約
    動画を表現するマルチモーダル
    特徴の検討

    View Slide

  6. ごちうさ難民はどこへ行った
    か?
    ブログ記事: http://hi-king.hatenablog.com/entry/2014/12/13/091527

    View Slide

  7. この話で使う特徴
    動画

    • テキスト
    • 時間
    • タグ
    • 画像
    • 音声
    • 視聴者、投稿者

    View Slide

  8. なんで?なんで?(ごちうさ)

    View Slide

  9. View Slide

  10. View Slide

  11. https://twitter.com/search?f=realtime&q=難民救済力%20lang:ja

    View Slide

  12. ブヒリティ
    “ニコニコ養豚場の特徴としては、コメントの大半が「ぶひいぃぃぃ」等の豚の
    鳴き声で占められており…”
    (http://dic.nicovideo.jp/a/ニコニコ養豚場)
    要するに、かわいい女の子がキャッキャしてるのを眺めている我々のことであ
    る。

    View Slide

  13. ブヒリティ?
    キルラキルはあざとい系アニメじゃないはず。。。

    View Slide

  14. ブヒリティ?

    View Slide

  15. 強きものに屈服する
    豚たち。。。
    ぶひい、というコメントが必ずしも萌えを表すものではなかった
    (“服をきた豚ども!”という台詞に呼応してる)

    View Slide

  16. まとめ

    View Slide

  17. コメントによる動画要約

    View Slide

  18. この話で使う特徴
    動画

    • テキスト
    • 時間
    • タグ
    • 画像
    • 音声

    View Slide

  19. View Slide

  20. 一枚絵とagifで動画の雰囲
    気を観よう

    View Slide

  21. ヒストグラム?

    View Slide

  22. カーネル密度推定

    View Slide

  23. 次への課題

    View Slide

  24. ニコニコの動画を表現する
    マルチモーダル特徴の検討

    View Slide

  25. この話で使う特徴
    動画

    • テキスト
    • 時間
    • タグ
    • 画像
    • 音声
    • 視聴者、投稿者
    全部考えてみる!

    View Slide

  26. 最適な特徴量?

    View Slide

  27. 動画 特徴量
    •いろんなのを結

    識別器
    •ランダムフォレ
    スト固定
    カテゴリ
    •アニメ、ゲーム
    等29カテゴリ
    タスク

    View Slide

  28. 動画 特徴量
    •いろんなのを結

    識別器
    •ランダムフォレ
    スト固定
    カテゴリ
    •アニメ、ゲーム
    等29カテゴリ
    タスク

    View Slide

  29. 画像

    View Slide

  30. 画像特徴量

    View Slide

  31. 局所特徴量

    View Slide

  32. 大域特徴量

    View Slide

  33. CNN

    View Slide

  34. 実験結果
    特徴量 正答率
    ランダム 3.48%
    GIST 13.18%
    CNN 26.43%
    • データ: 2876サンプル
    • 29カテゴリから100サンプルずつ。
    • ニコニコ新検索で”人気順”
    • 学習方法: 2776で学習、100でテストを繰り返すクロスバリデーション

    View Slide

  35. CNNの混同行列

    View Slide


  36. View Slide

  37. 音特徴量

    View Slide

  38. パワーの統計特徴量

    View Slide

  39. 周波数領域の瞬時特徴量

    View Slide

  40. 実験結果
    特徴量 正答率
    ランダム 7.23%
    音量統計量 18.81%
    瞬時特徴 20.69%
    両方 24.82%
    • データ: 1382サンプル
    • 動画の取得に結構失敗したため画像の例よりサンプルが少ない
    • さらに、カテゴリの割合がばらついている。
    • 学習方法: 1282で学習、100でテストを繰り返すクロスバリデーション

    View Slide

  41. 音声結合特徴の混同行列

    View Slide

  42. メタデータ

    View Slide

  43. 動画メタデータ

    View Slide

  44. ユーザーデータ

    View Slide

  45. View Slide

  46. コメントテキスト

    View Slide

  47. コメント特徴量の候補
    • 正規化済み生コメントのままつかう
    • Ngramに分解
    • 形態素解析
    • tfidfフィルタリングの追加

    View Slide

  48. “あずにゃんペロペロペロペロ”
    をアニメと認識させる
    分解方法 分解結果
    生コメント あずにゃんペロペロペロペ
    ロペロペロ
    全く同じコメントが少ないか
    ら難しい
    正規化 あずにゃんペロ テンプレが認識される。
    けどあずにゃんじゃない対
    象ではだめ
    2gram [あず, ずに, にゃ…] “あず”や”ペロ”という特徴
    語が現れるので認識しやす
    くなる
    形態素解析 [あずにゃん, ペロ] 2gramより、意味を持った次
    元になる。ただし辞書が
    整ってない場合はおかしな
    位置で切られてしまう

    View Slide

  49. Tf-IDF

    View Slide

  50. 今回用いた特徴
    1. ユニコード正規化(NFKC)
    2. 4文字以内の繰り返しを正規化
    3. 1-gramと2-gramのベクトルに分解
    4. 教師データ内での出現頻度上位10000次元に制限(計
    算資源の都合)
    5. tfとidfのフィルタかける

    View Slide

  51. 実験結果
    特徴量 正答率
    ランダム 3.45%
    生コメント10000次元 42.30%
    1gram+2gram10000次元 54.65%
    1gram+2gram10000次元tf-idf 57.97%
    • データ: 2896サンプル
    • 29カテゴリから100サンプルずつ。
    • すごい検索で”人気順”
    • 学習方法: 2796で学習、100でテストを繰り返すクロスバリデーション

    View Slide

  52. 考察

    View Slide

  53. マルチモーダル

    View Slide

  54. マルチモーダル特徴?

    View Slide

  55. 実験結果
    特徴量 次元数 正答率 サンプル数
    ランダム 7.24% 2876
    コメント 10000 57.97%
    コメント+CNN 10960 58.84%
    特徴量 次元数 正答率 サンプル数
    ランダム 3.48% 1382
    コメント 10000 62.42%
    コメント+音 10068 63.14%
    コメント+音+CNN 11028 63.58%

    View Slide

  56. 大規模データで再実験

    View Slide

  57. コメント+CNNの混同行列

    View Slide

  58. 音楽, アニメ
    音楽, 歌ってみた
    アニメ, エンターテイメント
    たしかに、視聴者も近く、サムネイルも似ているものが混同している
    コメント+CNNの混同行列

    View Slide

  59. コメント数毎の正答率

    View Slide

  60. 考察

    View Slide

  61. 本日のトピック
    ごちうさ難民はどこへ行ったか
    コメントによる動画要約
    動画を表現するマルチモーダル
    特徴の検討
    @Hi_kin

    View Slide