Arbitrariness for Classification

Ab55f7551d7e4e4b2ea07e60dec4279e?s=47 ohto
May 28, 2017

Arbitrariness for Classification

Ab55f7551d7e4e4b2ea07e60dec4279e?s=128

ohto

May 28, 2017
Tweet

Transcript

  1. 分類するということ By Yasunori Ohto

  2. 自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /

    27
  3. 活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27

  4. おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜

    4 / 27
  5. 概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27

  6. 分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異

    なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
  7. 分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7

    / 27
  8. はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27

  9. 分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27

  10. 分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27

  11. 分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは

    骨を中心とする 形による分類 11 / 27
  12. 分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を

    組み合わせると クジラは カバに近い!! 12 / 27
  13. 分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /

    27
  14. 人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –

    番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
  15. さて、 15 / 27

  16. 「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合

    16 / 27
  17. 「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's

    Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
  18. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:

    ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
  19. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building

    High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
  20. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words

    – 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
  21. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –

    実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
  22. 「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}

    からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
  23. 「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る

    – 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
  24. 「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる

    Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
  25. 「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット

    – 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
  26. まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

    /対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
  27. まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

    /対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
  28. おしまい