機械学習入門 + Amazon MLちょっと触ってみた

Slide 1

Slide 1 text

機械学習入�門 ++ AAmmaazzoonn MMLLちょっと触ってみたこの資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならびに第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。滝　勇太 22001155..0055..3300 JJAAWWSS--UUGG京王線�＠電通大 1

Slide 2

Slide 2 text

自己紹介名前：滝((石川)) 勇太専門：機械学習職種：でーたさいえんてぃすと((笑)) 趣味：ぬこウニ様　♀ ((アメリカンカール)) トロ様　♀ ((マンチカン)) 2

Slide 3

Slide 3 text

3 機械学習ってなんぞ？

Slide 4

Slide 4 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム強化学習人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬冬ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません人工知能・機械学習・データマイニング 4

Slide 5

Slide 5 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム強化学習機械学習データマイニング人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬冬ダートマス会議 •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 ※ aauutthhoorriizzeeされた経緯・分類ではありません人工知能・機械学習・データマイニング 5

Slide 6

Slide 6 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム強化学習機械学習データマイニング DDeeeepp LLeeaarrnniinngg 人工知能 33rrdd ニューラルネット((DDeeeepp)) 11sstt AAII 22nndd AAII 33rrdd AAII 冬冬ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません全脳アーキテクチャ汎用人工知能人工知能・機械学習・データマイニング •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 6

Slide 7

Slide 7 text

aa sseett ooff mmeetthhooddss tthhaatt ccaann aauuttoommaattiiccaallllyy ddeetteecctt ppaatttteerrnnss iinn ddaattaa,, aanndd tthheenn uussee tthhee uunnccoovveerreedd ppaatttteerrnnss ttoo pprreeddiicctt ffuuttuurree ddaattaa,, oorr ttoo ppeerrffoorrmm ootthheerr kkiinnddss ooff ddeecciissiioonn mmaakkiinngg uunnddeerr uunncceerrttaaiinnttyy 機械学習とは、 •  データから自動的にパターンを発見し、 •  将来のデータの予測や意思決定に利用する、ための手法群である KK.. PP.. MMuurrpphhyy.. MMaacchhiinnee LLeeaarrnniinngg AA pprroobbaabbiilliissttiicc PPeerrssppeeccttiivvee.. TThhee MMIITT PPrreessss.. 22001122.. 機械学習 ʙ 個人的に好きな表現 ʙ 7

Slide 8

Slide 8 text

•  多様なデータの処理を想定 –  これまで：構造化データがメイン –  さいきん：構造化 // 非構造化なんでもござれ •  データ分布に対する仮定が比較的弱い((??)) –  これまで：正規分布などがメイン –  さいきん：あんまり気にしない •  大量のデータ処理を想定 –  これまで：少なめ –  さいきん：多め •  学習結果の可読性をあまり気にしない –  これまで：各パラメータ・モデルに直観的な意味づけが可能 –  さいきん：あまり気にしない ※ 個人的な見解です旧世代のデータ分析技術との違いは？ 8

Slide 9

Slide 9 text

機械学習の流れ 9 データを集めますでーたさいえんてぃすとがいろいろ検討します学習させます使います

Slide 10

Slide 10 text

機械学習の流れ 10 データを集めますでーたさいえんてぃすとがいろいろ検討します学習させます使いますここがモヤモヤする

Slide 11

Slide 11 text

数式で説明したほうがわかりやすいよたぶん 11

Slide 12

Slide 12 text

パラメータ群によって特徴づけられる何からの関数は、学習データ ((教師有)),, ((教師無))に基づき、を最大化ないし最小化することで推定((学習))されます指標と最大化・最小化手法の例 •  ((対数))尤度を　最尤法により最大化 •  二乗誤差を　最小二乗法により最小化など機械学習でやってること 12 何らかの指標：学習データモデル((関数)) 最適化指標 ((目的関数)) 最適化 ((学習))

Slide 13

Slide 13 text

13 なるほど・・・わからん

Slide 14

Slide 14 text

学習データモデル((関数)) 目的関数（二乗誤差)) 簡単な例で ʙ 単((線�形))回帰 ʙ 14

Slide 15

Slide 15 text

学習データモデル((関数)) 目的関数（二乗誤差)) ただし簡単な例で ʙ 単((線�形))回帰 ʙ 15 を最小する((最小二乗法))ことで、 , が以下のように求まる

Slide 16

Slide 16 text

学習データモデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし)) 厄介な例で ʙ カーネル回帰 ʙ 16

Slide 17

Slide 17 text

学習データモデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし)) 前ページと同様に　　を最小化して、パラメータ　を求めると、右のような関数が求まる参考までに厄介な例で ʙ カーネル回帰 ʙ カーネル関数((決め打ち))：学習後の関数： 17

Slide 18

Slide 18 text

単回帰も機械学習？この流れが機械学習学習データモデル((関数)) 最適化指標 ((目的関数)) 最適化((学習)) 18 予測に使用 YYeess,, もちコース

Slide 19

Slide 19 text

とはいっても、33点にした場合単回帰 vv..ss.. カーネル回帰場合によっては、モデルを考え直したほうが良さげこのままで良さげこの辺の柔軟さが機械学習っぽい 19

Slide 20

Slide 20 text

回帰の他にも分類次元削減クラスタリング手法例：kk--mmeeaannss法、階層型クラスタリング応用例：顧客セグメンテーション、文書分類手法例：線�形判別分析、SSVVMM、ランダムフォレスト応用例：異常検知、画像認識、疾患判別手法例：主成分分析、多次元尺度構成法応用例：データ可視化、特徴抽出判別の境界となる関数を学習「似ている」データの塊を発見高次元→低次元の写像を学習赤枠：どっちかっていうと機械学習青枠：どっちかっていうとデータマイニング 20

Slide 21

Slide 21 text

モデル元データ学習データ検証データ最終モデル予測対象データ予測結果データを整備します ((実はすごく大事だけど詳細は割愛)) 手法を決めて学習します学習データ以外のデータに対する性能((汎化性能))を評価して、モデルを調整((モデル選択))します機械学習の流れ〜 AAmmaazzoonn MMLLの準備体操〜 21

Slide 22

Slide 22 text

というわけで、 22

Slide 23

Slide 23 text

Machine Learning をちょっと触ってみたよ！ 23

Slide 24

Slide 24 text

AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinngg AAWWSSの「分析」カテゴリにあります 24

Slide 25

Slide 25 text

モデル元データ学習データ検証データ最終モデル予測対象データ予測結果 AAmmaazzoonn MMLLによる機械学習 25

Slide 26

Slide 26 text

モデル元データ学習データ検証データ最終モデル予測対象データ予測結果 AAmmaazzoonn MMLLによる機械学習 ①データ整備 ②モデル学習 ③モデル評価 ④予測 AAmmaazzoonn MMLLでやってくれるとこ 26

Slide 27

Slide 27 text

•  分類 –  22クラス分類：二項ロジスティック回帰 •  正常 // 異常、買う // 買わない eettcc.. –  多クラス分類：多項ロジスティック回帰 •  顧客タイプAA // …� // ZZ、疾患AA // …� // ZZ eettcc.. •  回帰 –  線�形回帰 •  株価、ユーザ登録数変化 eettcc.. 今のところ、実装済みの機械学習手法は上の33つっぽい((今後に期待？)) AAmmaazzoonn MMLLで出来ること 27

Slide 28

Slide 28 text

実際の使い方は↓↓が大変まとまっています【新サービス】AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinnggを試してみた hhttttpp::////ddeevv..ccllaassssmmeetthhoodd..jjpp//cclloouudd//aawwss//ggeettttiinngg--ssttaarrtteedd--aammaazzoonn--mmaacchhiinnee--lleeaarrnniinngg// ので、独断と偏見により選んだ機能だけピックアップしてキャプチャ載せて終わります 28

Slide 29

Slide 29 text

AAmmaazzoonn MMLLによる機械学習 ʙ ①データ整備 ʙ •  SS33からデータを読み込むと内容を表形式で表示してくれる •  DDaattaa TTyyppeeも数値とかカテゴリカルとか決めてくれる •  コンボボックスでそのへんいじくれる •  ラジオボタンでTTaarrggeett((目的変数))を選択すると、分析手法を決めてくれる •  今回は「BBiinnaarryy CCllaassssiiffiiccaattiioonn」 29

Slide 30

Slide 30 text

AAmmaazzoonn MMLLによる機械学習 ʙ ②モデル学習 ʙ 30 •  手法は決まってるので、「DDeeffaauulltt」を選択すれば、勝手に学習してくれます •  ついでに評価用エンティティも作ってくれます •  「CCuussttoomm」を選ぶと、特徴選択 // 特徴抽出とか正則化法とかも選べます •  玄人向�け

Slide 31

Slide 31 text

AAmmaazzoonn MMLLによる機械学習 ʙ ③モデル評価 ʙ •  こいつをドラッグすると「閾値」を変えた場合の予測精度を確認できる •  結果は右下に AAccccuurraaccyy,, FFPPRR,, PPrreecciissiioonn,, RReeccaallllなど、大事な指標を即時確認可能 31

Slide 32

Slide 32 text

バッチ予測の出力ファイル AAPPIIを使えばリアルタイム予測もできるらしい AAmmaazzoonn MMLLによる機械学習 ʙ ④予測　　 ʙ 予測に使ったモデル、予測対象データ、予測結果ファイルの出力先が確認できる •  予測結果ファイルはSS33とかに出力 •  ロジスティック回帰のスコアとモデル評価のところで設定した閾値を基準とした判定結果が記載される 32

Slide 33

Slide 33 text

AAmmaazzoonn MMLLによる機械学習 ʙ まとめ　 ʙ 下から •  元データ pp.. 2299 •  学習データ((元データのサブセット)) 同上 •  評価データ((元データのサブセット)) 同上 •  学習されたモデル pp.. 3300 •  モデル評価用エンティティ pp.. 3311 •  テストデータ((予測対象データ)) pp.. 3322 •  予測結果((結果そのものはSS33に存在)) 同上 •  データやらモデルやらは「ダッシュボード」に一覧で表示される •  迷子にならなくていい 33

Slide 34

Slide 34 text

私でーたさいえんぃすとになれました 34

Slide 35

Slide 35 text

とはいっても・・・試行錯誤的なデータ分析は AAmmaazzoonn MMLLだけでは不十分 ((そもそも、そういう使い方は想定してない？)) •  特徴選択 // 特徴抽出 –  トリッキーなデータ処理 •  学習手法 –  たくさんある手法のどれがいいか •  モデル選択 –  CCrroossss VVaalliiddaattiioonnとかなんやかんや 35

Slide 36

Slide 36 text

AAMMAAZZOONN MMLLが唯一の選択ですか？ 36

Slide 37

Slide 37 text

なんか、色々あるねん・・・ MMLLaaaaSSっぽいものを含むサービスその他機械学習的なフレームワーク 37

Slide 38

Slide 38 text

結果・・・よくわかんないおっおっ（＾ω＾）おしえて、えろいひと 38

Slide 39

Slide 39 text

ご清聴あじゅじゅしたーお問い合わせは↓↓まで TTwwiitttteerr ：@@oosshhookkaawwaa FFaacceebbooookk ：滝勇太　　　　猫のアイコンが目印です 39