$30 off During Our Annual Pro Sale. View Details »

Arbitrariness for Classification

ohto
May 28, 2017

Arbitrariness for Classification

ohto

May 28, 2017
Tweet

More Decks by ohto

Other Decks in Technology

Transcript

  1. 分類するということ
    By Yasunori Ohto

    View Slide

  2. 自己紹介
    名前: 大戸康紀
    所属: (社名公開NG でした)
    仕事: データマイニングとか(過去形...)
    2 / 27

    View Slide

  3. 活動
    数学やってます
    google検索で8番目
    日時: 2017/5/27
    記事数: 909,000
    3 / 27

    View Slide

  4. おことわり
    ● ゆるいです ^^;
    ● 数学成分少ないです m_ _m
    Qiita とかに良い記事がいっぱいあるよ〜
    4 / 27

    View Slide

  5. 概要
    ● 分類には「恣意性」が必要
    ● 「恣意性」の使い方
    5 / 27

    View Slide

  6. 分類とは -wikipedia から
    分類(ぶんるい)とは、複数の事物や現象を、何
    らかの基準に従って区分することによって体系づ
    けることである。そうして作られたグループをカ
    テゴリという。
    概要
    凡そ分類というのはある特定の観点から分けら
    れた便宜的なものに過ぎず、別の観点からは異
    なる分類が可能であり、カテゴリ間に明確な境
    界がないことも多い。(赤は筆者による)
    https://ja.wikipedia.org/wiki/分類
    6 / 27

    View Slide

  7. 分類例
    ● 図書館十進分類法
    ● 日本酒
    ● 世界の瞑想法
    ● 系統樹
    7 / 27

    View Slide

  8. はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html
    分類例 -図書館十進分類法
    8 / 27

    View Slide

  9. 分類例 -日本酒
    世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart
    分類軸は
    業界的に認知
    されている
    9 / 27

    View Slide

  10. 分類例 -世界の瞑想法
    分類軸は
    研究者の
    センス
    世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html
    10 / 27

    View Slide

  11. 分類例 -系統樹
    A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/
    今までは
    骨を中心とする
    形による分類
    11 / 27

    View Slide

  12. 分類例 -系統樹
    B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/
    遺伝子の比較を
    組み合わせると
    クジラは
    カバに近い!!
    12 / 27

    View Slide

  13. 分類例 -系統樹
    分類基準は変化する...
    1.魚
    2.哺乳類(胎盤がある)
    3.偶蹄目(骨格)
    4.カバの類縁(遺伝子)
    多くの人が納得する分類基準であれば良い
    13 / 27

    View Slide

  14. 人によって分類軸は違う
    CMは迷惑?
    – 昔、ビデオレコーダーに「CMカット」があった
    – 今、チャプターの自動認識
    – チャプターはCMを切り出している訳ではない...
    人によって分類は変わる
    – 番組制作側は見て欲しい(番組はCMを...ry)
    – CMをみたい人もいるよね
    14 / 27

    View Slide

  15. さて、
    15 / 27

    View Slide

  16. 「恣意性」の使い方
    考えない
    – データが素直なとき
    – 大量データで押し切る
    直接関わる
    – 対象データの特徴を使う
    融合
    16 / 27

    View Slide

  17. 「恣意性」の使い方 -考えない
    データが素直なとき
    – データが連続値
    – データ間の距離が
    ユークリッド距離
    Edgar Anderson's Iris Data at Plotting the IrisData
    http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/
    17 / 27

    View Slide

  18. 「恣意性」の使い方 -考えない
    大量データで押し切る ⇒ Deep learning
    – 中間層で非線形性を学習
    – 理由が不明: ブラックボックス
    Machine Learning: Supervised Learning pt. 2
    http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2
    18 / 27

    View Slide

  19. 「恣意性」の使い方 -考えない
    大量データで押し切る ⇒ Deep learning
    Le & al.: Building High-level Features Using Large Scale..., 2012
    https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf
    19 / 27

    View Slide

  20. 「恣意性」の使い方 -直接関わる
    対象データの特徴を使う
    例:類似文書の分類
    – 特徴量(特徴ベクトル) ⇒ Bag of Words
    – 特徴量間の類似度の定義 ⇒コサイン類似度
    – 分類器の選択
    20 / 27

    View Slide

  21. 「恣意性」の使い方 -直接関わる
    対象データの特徴を使う
    例:ベーカリースキャン
    パンを判別して価格を出す
    – ユーザがちょっと手助け
    – 学習時間が短い
    – 実用性があればOK
    ベーカリースキャン http://www.g-mark.org/award/describe/42788
    21 / 27

    View Slide

  22. 「恣意性」の使い方
    考えない
    大量データで押し切る ⇒ Deep Learning
    – 集合の外延的定義 (集合Aは {1,3,5,7,9,...} からなる)
    – ルールを分類器側で推測してもらう
    直接関わる
    対象データの特徴を使う
    – 集合の内包的定義 (集合Aは正の奇数)
    – 設計者がルールを与える
    22 / 27

    View Slide

  23. 「恣意性」の使い方 -考えない
    大量データで押し切る ⇒ Deep Learning
    Pros
    – 対象データの内容によらず汎用的に使える
    恣意性が減る
    – 簡単に認識率が上げられる
    Cons
    – いろんな種類のデータが大量に必要
    – 分類器の学習に多量の計算量がかかる
    – 分類方法がブラックボックス
    – メタパラメータの調整が必要
    中間層の数とか...
    データが用意できればGood
    23 / 27

    View Slide

  24. 「恣意性」の使い方 -直接関わる
    対象データの特徴を使う
    Pros
    – 学習データは少量でOK
    – 小さい計算量
    – 分類方法の中身がわかる
    Cons
    – 特徴量や類似度の定義、分類器の選択が必要
    – どう定義するかに恣意性が入る
    皆が納得いく恣意性なら問題ないはず
    最終的には使えるものであればOK
    24 / 27

    View Slide

  25. 「恣意性」の使い方 -ハイブリッド
    ● 対象データの特徴を用いた特徴量(ベクトル)
    – 扱うデータ量を低減
    – データの複雑度(非線形度合い)を緩和
    ● 分類器としてニューラルネット
    – 調整が必要なパラメータを低減
    いいとこどりしよう
    25 / 27

    View Slide

  26. まとめ
    ● 分類には「恣意性」が必要
    ● 「恣意性」の使い方
    – 考えない /大量データで押し切る
    – 関わる /対象データの特徴を使う
    – ハイブリッド /いいとこどり
    26 / 27

    View Slide

  27. まとめ
    ● 分類には「恣意性」が必要
    ● 「恣意性」の使い方
    – 考えない /大量データで押し切る
    – 関わる /対象データの特徴を使う
    – ハイブリッド /いいとこどり
    「恣意性」を味方につけましょう
    27 / 27

    View Slide

  28. おしまい

    View Slide