Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Arbitrariness for Classification
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ohto
May 28, 2017
Technology
0
1.2k
Arbitrariness for Classification
ohto
May 28, 2017
Tweet
Share
More Decks by ohto
See All by ohto
speed cube
ohto
1
140
Living a Software Engineer
ohto
0
100
Redmine on Docker
ohto
0
180
Ruby de FizzBuzz
ohto
0
110
enjoy your dream
ohto
0
130
We may be win a computer
ohto
0
1.2k
Things that computers can not do
ohto
0
130
mumbling about data mining
ohto
0
2.6k
Other Decks in Technology
See All in Technology
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
3
900
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
7
7.1k
LLM活用の壁を超える:リクルートR&Dの戦略と打ち手
recruitengineers
PRO
1
240
ブラックボックス観測に基づくAI支援のプロトコルのリバースエンジニアリングと再現~AIを用いたリバースエンジニアリング~ @ SECCON 14 電脳会議 / Reverse Engineering and Reproduction of an AI-Assisted Protocol Based on Black-Box Observation @ SECCON 14 DENNO-KAIGI
chibiegg
0
140
Kaggleで鍛えたスキルの実務での活かし方 競技とプロダクト開発のリアル
recruitengineers
PRO
1
150
越境する組織づくり ─ 多様性を前提にしたチームビルディングとリードの実践知
kido_engineer
1
110
DX Improvement at Scale
ntk1000
2
290
Kaggleの経験が実務にどう活きているか / kaggle_findy
sansan_randd
4
760
Windows ネットワークを再確認する
murachiakira
PRO
0
260
Evolution of Claude Code & How to use features
oikon48
1
240
JAWS DAYS 2026 CDP道場 事前説明会 / JAWS DAYS 2026 CDP Dojo briefing document
naospon
0
170
組織のSREを推進するためのPlatform EngineeringとEKS / Platform Engineering and EKS to drive SRE in your organization
chmikata
0
180
Featured
See All Featured
Discover your Explorer Soul
emna__ayadi
2
1.1k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
67
37k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
130
Producing Creativity
orderedlist
PRO
348
40k
BBQ
matthewcrist
89
10k
Documentation Writing (for coders)
carmenintech
77
5.3k
Docker and Python
trallard
47
3.8k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
280
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.3k
Building Adaptive Systems
keathley
44
2.9k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.9k
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Transcript
分類するということ By Yasunori Ohto
自己紹介 名前: 大戸康紀 所属: (社名公開NG でした) 仕事: データマイニングとか(過去形...) 2 /
27
活動 数学やってます google検索で8番目 日時: 2017/5/27 記事数: 909,000 3 / 27
おことわり • ゆるいです ^^; • 数学成分少ないです m_ _m Qiita とかに良い記事がいっぱいあるよ〜
4 / 27
概要 • 分類には「恣意性」が必要 • 「恣意性」の使い方 5 / 27
分類とは -wikipedia から 分類(ぶんるい)とは、複数の事物や現象を、何 らかの基準に従って区分することによって体系づ けることである。そうして作られたグループをカ テゴリという。 概要 凡そ分類というのはある特定の観点から分けら れた便宜的なものに過ぎず、別の観点からは異
なる分類が可能であり、カテゴリ間に明確な境 界がないことも多い。(赤は筆者による) https://ja.wikipedia.org/wiki/分類 6 / 27
分類例 • 図書館十進分類法 • 日本酒 • 世界の瞑想法 • 系統樹 7
/ 27
はつかいち市民図書館 http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html 分類例 -図書館十進分類法 8 / 27
分類例 -日本酒 世嬉の一(せきのいち)酒造 http://www.sekinoichi.com/fs/sekinoichi/c/sakechart 分類軸は 業界的に認知 されている 9 / 27
分類例 -世界の瞑想法 分類軸は 研究者の センス 世界の瞑想法 http://morfov.blog79.fc2.com/blog-entry-89.html 10 / 27
分類例 -系統樹 A) Thewissen et al., 2007 5号館を出て http://shinka3.exblog.jp/12442224/ 今までは
骨を中心とする 形による分類 11 / 27
分類例 -系統樹 B) O’Leary and Gatesy, 2008 5号館を出て http://shinka3.exblog.jp/12442224/ 遺伝子の比較を
組み合わせると クジラは カバに近い!! 12 / 27
分類例 -系統樹 分類基準は変化する... 1.魚 2.哺乳類(胎盤がある) 3.偶蹄目(骨格) 4.カバの類縁(遺伝子) 多くの人が納得する分類基準であれば良い 13 /
27
人によって分類軸は違う CMは迷惑? – 昔、ビデオレコーダーに「CMカット」があった – 今、チャプターの自動認識 – チャプターはCMを切り出している訳ではない... 人によって分類は変わる –
番組制作側は見て欲しい(番組はCMを...ry) – CMをみたい人もいるよね 14 / 27
さて、 15 / 27
「恣意性」の使い方 考えない – データが素直なとき – 大量データで押し切る 直接関わる – 対象データの特徴を使う 融合
16 / 27
「恣意性」の使い方 -考えない データが素直なとき – データが連続値 – データ間の距離が ユークリッド距離 Edgar Anderson's
Iris Data at Plotting the IrisData http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/iris_plots/ 17 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning – 中間層で非線形性を学習 – 理由が不明:
ブラックボックス Machine Learning: Supervised Learning pt. 2 http://www.nelsonspencer.com/blog/2015/2/15/machine-learning-supervised-learning-pt-2 18 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep learning Le & al.: Building
High-level Features Using Large Scale..., 2012 https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/38115.pdf 19 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:類似文書の分類 – 特徴量(特徴ベクトル) ⇒ Bag of Words
– 特徴量間の類似度の定義 ⇒コサイン類似度 – 分類器の選択 20 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う 例:ベーカリースキャン パンを判別して価格を出す – ユーザがちょっと手助け – 学習時間が短い –
実用性があればOK ベーカリースキャン http://www.g-mark.org/award/describe/42788 21 / 27
「恣意性」の使い方 考えない 大量データで押し切る ⇒ Deep Learning – 集合の外延的定義 (集合Aは {1,3,5,7,9,...}
からなる) – ルールを分類器側で推測してもらう 直接関わる 対象データの特徴を使う – 集合の内包的定義 (集合Aは正の奇数) – 設計者がルールを与える 22 / 27
「恣意性」の使い方 -考えない 大量データで押し切る ⇒ Deep Learning Pros – 対象データの内容によらず汎用的に使える 恣意性が減る
– 簡単に認識率が上げられる Cons – いろんな種類のデータが大量に必要 – 分類器の学習に多量の計算量がかかる – 分類方法がブラックボックス – メタパラメータの調整が必要 中間層の数とか... データが用意できればGood 23 / 27
「恣意性」の使い方 -直接関わる 対象データの特徴を使う Pros – 学習データは少量でOK – 小さい計算量 – 分類方法の中身がわかる
Cons – 特徴量や類似度の定義、分類器の選択が必要 – どう定義するかに恣意性が入る 皆が納得いく恣意性なら問題ないはず 最終的には使えるものであればOK 24 / 27
「恣意性」の使い方 -ハイブリッド • 対象データの特徴を用いた特徴量(ベクトル) – 扱うデータ量を低減 – データの複雑度(非線形度合い)を緩和 • 分類器としてニューラルネット
– 調整が必要なパラメータを低減 いいとこどりしよう 25 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 26 / 27
まとめ • 分類には「恣意性」が必要 • 「恣意性」の使い方 – 考えない /大量データで押し切る – 関わる
/対象データの特徴を使う – ハイブリッド /いいとこどり 「恣意性」を味方につけましょう 27 / 27
おしまい