Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Arbitrariness for Classification
Search
ohto
May 28, 2017
Technology
0
1.1k
Arbitrariness for Classification
ohto
May 28, 2017
Tweet
Share
More Decks by ohto
See All by ohto
speed cube
ohto
1
120
Living a Software Engineer
ohto
0
94
Redmine on Docker
ohto
0
160
Ruby de FizzBuzz
ohto
0
94
enjoy your dream
ohto
0
120
We may be win a computer
ohto
0
1.1k
Things that computers can not do
ohto
0
120
mumbling about data mining
ohto
0
2.5k
Other Decks in Technology
See All in Technology
失敗しないAIエージェント開発:階層的タスク分解の実践
kworkdev
PRO
0
110
AIエージェント時代のエンジニアになろう #jawsug #jawsdays2025 / 20250301 Agentic AI Engineering
yoshidashingo
9
4.3k
生成AIがローコードツールになる時代の エンジニアの役割を考える
khwada
0
320
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
550
人生を左右する「即答」のススメ: 一瞬の判断を間違えないためにするべきこと
takasyou
8
920
RaspberryPi CM4(CM5も)面白いぞ!
nonnoise
1
220
“常に進化する”開発現場へ! SHIFTが語るアジャイルQAの未来/20250306 Yuma Murase
shift_evolve
0
150
AIエージェント入門
minorun365
PRO
35
20k
User Story Mapping + Inclusive Team
kawaguti
PRO
3
580
4th place solution Eedi - Mining Misconceptions in Mathematics
rist
0
160
Pwned Labsのすゝめ
ken5scal
2
590
どうすると生き残れないのか/how-not-to-survive
hanhan1978
2
1.6k
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Designing for Performance
lara
605
68k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
11
550
The Pragmatic Product Professional
lauravandoore
32
6.4k
How GitHub (no longer) Works
holman
314
140k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Unsuck your backbone
ammeep
669
57k
Faster Mobile Websites
deanohume
306
31k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Automating Front-end Workflow
addyosmani
1369
200k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Thoughts on Productivity
jonyablonski
69
4.5k
Transcript
分類するということ By Yasunori Ohto
自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /
27
活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27
おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜
4 / 27
概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27
分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異
なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7
/ 27
はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27
分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27
分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27
分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは
骨を中心とする 形による分類 11 / 27
分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を
組み合わせると クジラは カバに近い!! 12 / 27
分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /
27
人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –
番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
さて、 15 / 27
「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合
16 / 27
「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's
Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:
ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building
High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words
– 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –
実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}
からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る
– 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる
Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット
– 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
おしまい