Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習入門 + Amazon MLちょっと触ってみた
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
oshokawa
May 31, 2015
1.9k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
機械学習入門 + Amazon MLちょっと触ってみた
JAWS-UG京王線 2015.05.30
oshokawa
May 31, 2015
More Decks by oshokawa
See All by oshokawa
密度比推定による異常検知
oshokawa
6
12k
DQN
oshokawa
2
1.1k
機械学習概要
oshokawa
0
2.4k
センシングデータの異常検知
oshokawa
1
2.1k
Featured
See All Featured
Claude Code のすすめ
schroneko
67
230k
Skip the Path - Find Your Career Trail
mkilby
1
150
Ruling the World: When Life Gets Gamed
codingconduct
0
260
Statistics for Hackers
jakevdp
799
230k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
Technical Leadership for Architectural Decision Making
baasie
3
420
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
4 Signs Your Business is Dying
shpigford
187
22k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
200
Navigating Weather and Climate Data
rabernat
0
230
Transcript
機械学習入�門 ++ AAmmaazzoonn MMLLちょっと触ってみた この資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意 願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならび に第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。 滝 勇太 22001155..0055..3300 JJAAWWSS--UUGG京王線�@電通大
1
自己紹介 名前:滝((石川)) 勇太 専門:機械学習 職種:でーたさいえんてぃすと((笑)) 趣味:ぬこ ウニ様 ♀ ((アメリカンカール)) トロ様 ♀ ((マンチカン))
2
3 機械学習ってなんぞ?
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))
エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 4
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))
エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 • 人工知能 • 知能っぽいもの • 機械学習の応用 • 機械学習 • 数学っぽい学習((最適化)) • データマイニング • 学習っていうか発見 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 5
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))
エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング DDeeeepp LLeeaarrnniinngg 人工知能 33rrdd ニューラルネット((DDeeeepp)) 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 全脳アーキテクチャ 汎用人工知能 人工知能・機械学習・データマイニング • 人工知能 • 知能っぽいもの • 機械学習の応用 • 機械学習 • 数学っぽい学習((最適化)) • データマイニング • 学習っていうか発見 6
aa sseett ooff mmeetthhooddss tthhaatt ccaann aauuttoommaattiiccaallllyy ddeetteecctt ppaatttteerrnnss iinn
ddaattaa,, aanndd tthheenn uussee tthhee uunnccoovveerreedd ppaatttteerrnnss ttoo pprreeddiicctt ffuuttuurree ddaattaa,, oorr ttoo ppeerrffoorrmm ootthheerr kkiinnddss ooff ddeecciissiioonn mmaakkiinngg uunnddeerr uunncceerrttaaiinnttyy 機械学習とは、 • データから自動的にパターンを発見し、 • 将来のデータの予測や意思決定に利用する、 ための手法群である KK.. PP.. MMuurrpphhyy.. MMaacchhiinnee LLeeaarrnniinngg AA pprroobbaabbiilliissttiicc PPeerrssppeeccttiivvee.. TThhee MMIITT PPrreessss.. 22001122.. 機械学習 ʙ 個人的に好きな表現 ʙ 7
• 多様なデータの処理を想定 – これまで:構造化データがメイン – さいきん:構造化 // 非構造化なんでもござれ • データ分布に対する仮定が比較的弱い((??))
– これまで:正規分布などがメイン – さいきん:あんまり気にしない • 大量のデータ処理を想定 – これまで:少なめ – さいきん:多め • 学習結果の可読性をあまり気にしない – これまで:各パラメータ・モデルに直観的な意味づけが可能 – さいきん:あまり気にしない ※ 個人的な見解です 旧世代のデータ分析技術との違いは? 8
機械学習の流れ 9 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います
機械学習の流れ 10 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います ここが モヤモヤ する
数式で説明したほうがわかりやすいよ たぶん 11
パラメータ群 によって特徴づけられる何からの関数 は、 学習データ ((教師有)),, ((教師無))に基づき、 を最大化ないし最小化することで推定((学習))されます 指標と最大化・最小化手法の例 • ((対数))尤度
を 最尤法 により最大化 • 二乗誤差 を 最小二乗法 により最小化 など 機械学習でやってること 12 何らかの指標: 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化 ((学習))
13 なるほど・・・ わからん
学習データ モデル((関数)) 目的関数(二乗誤差)) 簡単な例で ʙ
単((線�形))回帰 ʙ 14
学習データ モデル((関数)) 目的関数(二乗誤差)) ただし 簡単な例で
ʙ 単((線�形))回帰 ʙ 15 を最小する((最小二乗法))ことで、 , が以下のように求まる
学習データ モデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし))
厄介な例で ʙ カーネル回帰 ʙ 16
学習データ モデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし))
前ページと同様に を最小化して、 パラメータ を求めると、右のような関数が求まる 参考までに 厄介な例で ʙ カーネル回帰 ʙ カーネル関数((決め打ち)): 学習後の関数: 17
単回帰も機械学習? この流れが 機械学習 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化((学習)) 18 予測に使用
YYeess,, もちコース
とはいっても、33点にした場合 単回帰 vv..ss.. カーネル回帰 場合によっては、 モデルを考え直した ほうが良さげ このままで良さげ この辺の柔軟さが機械学習っぽい 19
回帰の他にも 分類 次元削減 クラスタリング 手法例:kk--mmeeaannss法、階層型クラスタリング 応用例:顧客セグメンテーション、文書分類 手法例:線�形判別分析、SSVVMM、ランダムフォレスト 応用例:異常検知、画像認識、疾患判別 手法例:主成分分析、多次元尺度構成法 応用例:データ可視化、特徴抽出
判別の境界となる 関数を学習 「似ている」 データの塊を発見 高次元→低次元 の写像を学習 赤枠:どっちかっていうと機械学習 青枠:どっちかっていうとデータマイニング 20
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 データを整備します ((実はすごく大事だけ ど詳細は割愛))
手法を決めて 学習します 学習データ以外のデータに対する 性能((汎化性能))を評価して、モデ ルを調整((モデル選択))します 機械学習の流れ 〜 AAmmaazzoonn MMLLの準備体操 〜 21
というわけで、 22
Machine Learning をちょっと触ってみたよ! 23
AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinngg AAWWSSの「分析」カテゴリにあります 24
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 25
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 ①データ整備
②モデル学習 ③モデル評価 ④予測 AAmmaazzoonn MMLLで やってくれるとこ 26
• 分類 – 22クラス分類 :二項ロジスティック回帰 • 正常 // 異常、買う //
買わない eettcc.. – 多クラス分類 :多項ロジスティック回帰 • 顧客タイプAA // …� // ZZ、疾患AA // …� // ZZ eettcc.. • 回帰 – 線�形回帰 • 株価、ユーザ登録数変化 eettcc.. 今のところ、実装済みの機械学習手法は上の33つっぽい((今後に期待?)) AAmmaazzoonn MMLLで出来ること 27
実際の使い方は↓↓が大変まとまっています 【新サービス】AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinnggを試してみた hhttttpp::////ddeevv..ccllaassssmmeetthhoodd..jjpp//cclloouudd//aawwss//ggeettttiinngg--ssttaarrtteedd--aammaazzoonn--mmaacchhiinnee--lleeaarrnniinngg// ので、 独断と偏見により選んだ機能 だけピックアップして キャプチャ載せて終わります 28
AAmmaazzoonn MMLLによる機械学習 ʙ ①データ整備 ʙ • SS33からデータを読み込むと内容を表形式で表示してくれる • DDaattaa TTyyppeeも数値とかカテゴリカルとか決めてくれる
• コンボボックスでそのへんいじくれる • ラジオボタンでTTaarrggeett((目的変数))を 選択すると、分析手法を決めてくれる • 今回は「BBiinnaarryy CCllaassssiiffiiccaattiioonn」 29
AAmmaazzoonn MMLLによる機械学習 ʙ ②モデル学習 ʙ 30 • 手法は決まってるので、「DDeeffaauulltt」を選択すれ ば、勝手に学習してくれます •
ついでに評価用エンティティも作ってくれます • 「CCuussttoomm」を選ぶと、特徴選択 // 特徴抽出とか 正則化法とかも選べます • 玄人向�け
AAmmaazzoonn MMLLによる機械学習 ʙ ③モデル評価 ʙ • こいつをドラッグすると「閾値」を変 えた場合の予測精度を確認できる • 結果は右下に
AAccccuurraaccyy,, FFPPRR,, PPrreecciissiioonn,, RReeccaallllなど、大 事な指標を即時確認可能 31
バッチ予測の出力ファイル AAPPIIを使えばリアルタイム予測もできるらしい AAmmaazzoonn MMLLによる機械学習 ʙ ④予測 ʙ 予測に使ったモデル、予測対象データ、
予測結果ファイルの出力先が確認できる • 予測結果ファイルはSS33とかに出力 • ロジスティック回帰のスコアとモデ ル評価のところで設定した閾値を基 準とした判定結果が記載される 32
AAmmaazzoonn MMLLによる機械学習 ʙ まとめ ʙ 下から • 元データ pp.. 2299
• 学習データ((元データのサブセット)) 同上 • 評価データ((元データのサブセット)) 同上 • 学習されたモデル pp.. 3300 • モデル評価用エンティティ pp.. 3311 • テストデータ((予測対象データ)) pp.. 3322 • 予測結果((結果そのものはSS33に存在)) 同上 • データやらモデルやらは「ダッシュボード」 に一覧で表示される • 迷子にならなくていい 33
私 でーたさいえんぃすとに なれました 34
とはいっても・・・ 試行錯誤的なデータ分析は AAmmaazzoonn MMLLだけでは不十分 ((そもそも、そういう使い方は想定してない?)) • 特徴選択 // 特徴抽出 –
トリッキーなデータ処理 • 学習手法 – たくさんある手法のどれがいいか • モデル選択 – CCrroossss VVaalliiddaattiioonnとかなんやかんや 35
AAMMAAZZOONN MMLLが 唯一の選択ですか? 36
なんか、色々あるねん・・・ MMLLaaaaSSっぽいものを含むサービス その他機械学習的なフレームワーク 37
結果・・・ よくわかんないおっおっ(^ω^) おしえて、えろいひと 38
ご清聴あじゅじゅしたー お問い合わせは↓↓まで TTwwiitttteerr :@@oosshhookkaawwaa FFaacceebbooookk :滝勇太 猫のアイコンが目印です 39