$30 off During Our Annual Pro Sale. View Details »

Arbitrariness for Classification

ohto
May 28, 2017

Arbitrariness for Classification

ohto

May 28, 2017
Tweet

More Decks by ohto

Other Decks in Technology

Transcript

  1. 分類するということ By Yasunori Ohto

  2. 自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /

    27
  3. 活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27

  4. おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜

    4 / 27
  5. 概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27

  6. 分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異

    なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
  7. 分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7

    / 27
  8. はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27

  9. 分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27

  10. 分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27

  11. 分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは

    骨を中心とする 形による分類 11 / 27
  12. 分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を

    組み合わせると クジラは カバに近い!! 12 / 27
  13. 分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /

    27
  14. 人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –

    番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
  15. さて、 15 / 27

  16. 「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合

    16 / 27
  17. 「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's

    Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
  18. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:

    ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
  19. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building

    High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
  20. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words

    – 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
  21. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –

    実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
  22. 「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}

    からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
  23. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る

    – 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
  24. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる

    Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
  25. 「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット

    – 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
  26. まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

    /対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
  27. まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

    /対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
  28. おしまい