Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Arbitrariness for Classification
Search
ohto
May 28, 2017
Technology
1.2k
0
Share
Arbitrariness for Classification
ohto
May 28, 2017
More Decks by ohto
See All by ohto
speed cube
ohto
1
140
Living a Software Engineer
ohto
0
110
Redmine on Docker
ohto
0
180
Ruby de FizzBuzz
ohto
0
110
enjoy your dream
ohto
0
130
We may be win a computer
ohto
0
1.2k
Things that computers can not do
ohto
0
140
mumbling about data mining
ohto
0
2.6k
Other Decks in Technology
See All in Technology
AI Agent に“攻略本”を渡したら、150フォームの移行が回り始めた話/登壇資料(高橋 悟生)
hacobu
PRO
0
120
みんなの考えた最強のデータ基盤アーキテクチャ'26前期〜前夜祭〜ルーキーズ_資料_遠藤な
endonanana
0
460
アプリブロック機能のつくりかたと、AIとHTMLの不合理な相性の良さについて
kumamotone
1
260
20260516_SecJAWS_Days
takuyay0ne
2
500
20260515 OpenIDファウンデーション・ジャパンご紹介
oidfj
0
210
JTCでRedmine利用者2700人を実現した手法 第二部
nobuonakamura
0
140
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
4.5k
10サービス以上のメール到達率改善を地道に継続的に進めている話 / Continue to improve email delivery rates across multiple services
yamaguchitk333
6
2.2k
業務に残された「良くない型」で考える「TypeScriptの難しさ」
sajikix
2
530
R&D 祭 2024 UE5で絵コンテ・作画の制作支援ツールをつくる話
olmdrd
PRO
0
190
可視化から活用へ — Mesh化・Segmentation・アライメントの研究動向
gpuunite_official
0
230
Purview Endpoint DLP 動かしてみた
kozakigh
1
450
Featured
See All Featured
A Soul's Torment
seathinner
6
2.8k
The browser strikes back
jonoalderson
0
1.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
440
How STYLIGHT went responsive
nonsquared
100
6.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Building an army of robots
kneath
306
46k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.8k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
400
Transcript
分類するということ By Yasunori Ohto
自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /
27
活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27
おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜
4 / 27
概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27
分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異
なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7
/ 27
はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27
分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27
分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27
分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは
骨を中心とする 形による分類 11 / 27
分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を
組み合わせると クジラは カバに近い!! 12 / 27
分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /
27
人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –
番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
さて、 15 / 27
「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合
16 / 27
「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's
Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:
ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building
High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words
– 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –
実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}
からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る
– 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる
Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット
– 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
おしまい