Arbitrariness for Classification

分類するということ By Yasunori Ohto

自己紹介名前: 大戸康紀所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /
27

活動数学やってます google検索で8番目日時: 2017/5/27 記事数: 909,000 3 / 27

おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜
4 / 27

概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27

分類とは -wikipedia から分類（ぶんるい）とは、複数の事物や現象を、何らかの基準に従って区分することによって体系づけることである。そうして作られたグループをカテゴリという。概要凡そ分類というのはある特定の観点から分けられた便宜的なものに過ぎず、別の観点からは異
なる分類が可能であり、カテゴリ間に明確な境界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27

分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7
/ 27

はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27

分類例 -日本酒世嬉の一（せきのいち）酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は業界的に認知されている 9 / 27

分類例 -世界の瞑想法分類軸は研究者のセンス世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27

分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは
骨を中心とする形による分類 11 / 27

分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を
組み合わせるとクジラはカバに近い!! 12 / 27

分類例 -系統樹分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /
27

人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –
番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27

さて、 15 / 27

「恣意性」の使い方考えない – データが素直なとき – 大量データで押し切る直接関わる – 対象データの特徴を使う融合
16 / 27

「恣意性」の使い方 -考えないデータが素直なとき – データが連続値 – データ間の距離がユークリッド距離 Edgar Anderson's
Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:
ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep learning Le & al.: Building
High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27

「恣意性」の使い方 -直接関わる対象データの特徴を使う例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words
– 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27

「恣意性」の使い方 -直接関わる対象データの特徴を使う例:ベーカリースキャンパンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –
実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27

「恣意性」の使い方考えない大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}
からなる) – ルールを分類器側で推測してもらう直接関わる対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える恣意性が減る
– 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要中間層の数とか... データが用意できればGood 23 / 27

「恣意性」の使い方 -直接関わる対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる
Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る皆が納得いく恣意性なら問題ないはず最終的には使えるものであればOK 24 / 27

「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット
– 調整が必要なパラメータを低減いいとこどりしよう 25 / 27

まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27

まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり「恣意性」を味方につけましょう 27 / 27

おしまい

Arbitrariness for Classification

Arbitrariness for Classification

ohto

More Decks by ohto

Other Decks in Technology

Featured

Transcript

分類するということ By Yasunori Ohto

自己紹介名前: 大戸康紀所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /

活動数学やってます google検索で8番目日時: 2017/5/27 記事数: 909,000 3 / 27

おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜

概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27

分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7

はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27

分類例 -日本酒世嬉の一（せきのいち）酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は業界的に認知されている 9 / 27

分類例 -世界の瞑想法分類軸は研究者のセンス世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27

分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは

分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を

分類例 -系統樹分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /

人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –

さて、 15 / 27

「恣意性」の使い方考えない – データが素直なとき – 大量データで押し切る直接関わる – 対象データの特徴を使う融合

「恣意性」の使い方 -考えないデータが素直なとき – データが連続値 – データ間の距離がユークリッド距離 Edgar Anderson's

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep learning Le & al.: Building

「恣意性」の使い方 -直接関わる対象データの特徴を使う例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words

「恣意性」の使い方 -直接関わる対象データの特徴を使う例:ベーカリースキャンパンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –

「恣意性」の使い方考えない大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}

「恣意性」の使い方 -考えない大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える恣意性が減る

「恣意性」の使い方 -直接関わる対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる

「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット

まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる

おしまい