Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Arbitrariness for Classification
ohto
May 28, 2017
Technology
0
640
Arbitrariness for Classification
ohto
May 28, 2017
Tweet
Share
More Decks by ohto
See All by ohto
speed cube
ohto
1
39
Living a Software Engineer
ohto
0
31
Redmine on Docker
ohto
0
99
Ruby de FizzBuzz
ohto
0
51
enjoy your dream
ohto
0
73
We may be win a computer
ohto
0
770
Things that computers can not do
ohto
0
71
mumbling about data mining
ohto
0
2.1k
Other Decks in Technology
See All in Technology
ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み / Improvement the reliability of ZOZOTOWN with Production Readiness Checklist
akitok_
5
2.2k
Apache Kafka and the World of Streams
hashitokyo
0
130
信頼性の階層の一段目を積み上げる/Monitoring Dashboard
shonansurvivors
0
180
AI Company
shurain
0
600
Agile and Requirement : アジャイルな要件定義について考える
kawaguti
PRO
11
3.7k
Declarative Clients in Spring
olgamaciaszek
0
120
家の明るさ制御 / Brightness Control in My House
1024jp
0
140
Microsoft Build 2022 - Azure のデータ & 分析サービス 最新アップデート / Microsoft Build 2022 Updates on Azure Data and Analytics Services
nakazax
1
220
プロダクトの理想と現実はなぜ乖離しがち?プロダクト作りに潜む問題を考える
suzukentaro
0
270
我々はなぜテストをするのか?
kawaguti
PRO
0
630
個人的に使って良かったUiPathアクティビティ
saoritakita
0
280
XRを取り巻く技術の正体と未来
kajiken_meson
0
200
Featured
See All Featured
Web Components: a chance to create the future
zenorocha
303
40k
It's Worth the Effort
3n
172
25k
How GitHub Uses GitHub to Build GitHub
holman
465
280k
Fantastic passwords and where to find them - at NoRuKo
philnash
25
1.5k
A better future with KSS
kneath
225
15k
Fireside Chat
paigeccino
11
1.3k
The MySQL Ecosystem @ GitHub 2015
samlambert
238
11k
Fontdeck: Realign not Redesign
paulrobertlloyd
73
4.1k
Done Done
chrislema
174
14k
What's in a price? How to price your products and services
michaelherold
229
9.3k
Practical Orchestrator
shlominoach
178
8.6k
Docker and Python
trallard
27
1.5k
Transcript
分類するということ By Yasunori Ohto
自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /
27
活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27
おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜
4 / 27
概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27
分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異
なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7
/ 27
はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27
分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27
分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27
分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは
骨を中心とする 形による分類 11 / 27
分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を
組み合わせると クジラは カバに近い!! 12 / 27
分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /
27
人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –
番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
さて、 15 / 27
「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合
16 / 27
「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's
Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:
ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building
High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words
– 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –
実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}
からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る
– 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる
Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット
– 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
おしまい