Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データサイエンス14_システム.pdf

 データサイエンス14_システム.pdf

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. 推薦システムで利用される情報  明示的情報:利用者自身が入力した情報  星の数(1~5または7)  商品コメント  推測情報:利用者の行動から推測した情報 

    購入履歴:買ったということは興味がありそう  閲覧ページ、閲覧時間:ページを(長時間)見ているということは興味 がありそう
  2. 評判分析の対象  通販サイト  Amazon、楽天など  ソーシャルメディア  FacebookやLINEは閉鎖性が高いので主に Twitter

    が使われる  Q&Aサイト  Yahoo!知恵袋、OKWAVEなど  レビューサイト  価格.com、@cosmeなど  ブログサイト
  3. 何を分析するのか?  商品・サービスの注目度、話題度  言及数をカウント  Twitterの場合、言及者数も計数可能  どれだけ好評か? 

    肯定/否定の割合を計算  商品・サービスに関連するキーワード  「花火」「限定」「サッカー」  メディア別  Twitterで特に話題になる等
  4. 評判分析の難しさ  高頻度=特徴語とは限らない  ストップワード  サクラ問題  各種表現 

    これでおいしくないとは言わせない  おいしすぎてつらい  ~店のほうが断然おいしい  客が誰もいなくて神秘的  もう来ない
  5. オープンテストとクローズドテスト  オープンテスト(open test)  システム作成時に使ったデータ以外の入力(未知の入力)に対してシステムの性 能を評価するテスト方法。これがいわゆるシステム性能となる。  クローズドテスト(closed test)

     システム作成時に何らかの形で参照したデータに対してシステムの性能を評価 するテスト方法。  通常はオープンテストを行えばよいが、クローズドテストの性能もシステム開発時の 参照として意味がある。  例えば、一般にクローズドテストの結果>オープンテストの結果なので、クローズ ドテストで低い値しか得られない時はそもそもオープンテストの意味がないなど。
  6. 交差検定(cross validation)  できるだけ多くのオープンテストを行うための工 夫  データをn分割してオープンテストを繰り返す (これをn-fold cross validationと呼ぶ)

     この特別な場合として、データを1件のみ訓 練から除外して交差検定を行うことをジャック ナイフ法または leave-one-out法と呼ぶ  最大限の訓練データが確保できるが、そ の一方で実験負荷が最大になる。
  7. システム評価 出力(スイング) 非出力(見送り) 正解 (ストライク) True Positive(TP) (ホームラン) False Negative(FN)

    (見逃し三振) 不正解 (ボール) False Positive(FP) (空振り三振) True Negative(TN) (ボール見送り) 各事例に対して、システムは正解と判断したもののみを出力する。
  8. マイクロ平均とマクロ平均  マイクロ平均  マクロ平均  A社は900人面接で内定者90人  B社は100人面接で内定者50人 

    マイクロ平均の内定率(=内定者比率)は  (90+50)/(900+100)=14%  マクロ平均の内定率(=会社別平均)は  (10%+50%)/2=30%
  9. テキスト分析は甘くない  まず何を知りたいのかを明確に  目的なく分析しても平凡な結果 しか得られない  分析には限界がある  データの規模は十分か?

     収集データに偏りはないか?  解析誤りがどの程度含まれる か?  レポートの提出をお待ちしています。