Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニコニコ動画のコメント解析

Keisuke OGAKI
February 21, 2015

 ニコニコ動画のコメント解析

トピック
1. ごちうさ難民はどこへ行ったか
2. コメントによる動画要約
3. ニコニコ動画を表現するマルチモーダル特徴の検討

ブログ記事は http://hi-king.hatenablog.com/entry/2015/05/01/220432

Keisuke OGAKI

February 21, 2015
Tweet

More Decks by Keisuke OGAKI

Other Decks in Technology

Transcript

  1. この話で使う特徴 動画 米 • テキスト • 時間 • タグ •

    画像 • 音声 • 視聴者、投稿者 全部考えてみる!
  2. CNN

  3. 実験結果 特徴量 正答率 ランダム 3.48% GIST 13.18% CNN 26.43% •

    データ: 2876サンプル • 29カテゴリから100サンプルずつ。 • ニコニコ新検索で”人気順” • 学習方法: 2776で学習、100でテストを繰り返すクロスバリデーション
  4. 実験結果 特徴量 正答率 ランダム 7.23% 音量統計量 18.81% 瞬時特徴 20.69% 両方

    24.82% • データ: 1382サンプル • 動画の取得に結構失敗したため画像の例よりサンプルが少ない • さらに、カテゴリの割合がばらついている。 • 学習方法: 1282で学習、100でテストを繰り返すクロスバリデーション
  5. “あずにゃんペロペロペロペロ” をアニメと認識させる 分解方法 分解結果 生コメント あずにゃんペロペロペロペ ロペロペロ 全く同じコメントが少ないか ら難しい 正規化

    あずにゃんペロ テンプレが認識される。 けどあずにゃんじゃない対 象ではだめ 2gram [あず, ずに, にゃ…] “あず”や”ペロ”という特徴 語が現れるので認識しやす くなる 形態素解析 [あずにゃん, ペロ] 2gramより、意味を持った次 元になる。ただし辞書が 整ってない場合はおかしな 位置で切られてしまう
  6. 実験結果 特徴量 正答率 ランダム 3.45% 生コメント10000次元 42.30% 1gram+2gram10000次元 54.65% 1gram+2gram10000次元tf-idf

    57.97% • データ: 2896サンプル • 29カテゴリから100サンプルずつ。 • すごい検索で”人気順” • 学習方法: 2796で学習、100でテストを繰り返すクロスバリデーション
  7. 実験結果 特徴量 次元数 正答率 サンプル数 ランダム 7.24% 2876 コメント 10000

    57.97% コメント+CNN 10960 58.84% 特徴量 次元数 正答率 サンプル数 ランダム 3.48% 1382 コメント 10000 62.42% コメント+音 10068 63.14% コメント+音+CNN 11028 63.58%