機械学習入門 + Amazon MLちょっと触ってみた
by
oshokawa
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
機械学習入�門 ++ AAmmaazzoonn MMLLちょっと触ってみた この資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意 願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならび に第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。 滝 勇太 22001155..0055..3300 JJAAWWSS--UUGG京王線�@電通大 1
Slide 2
Slide 2 text
自己紹介 名前:滝((石川)) 勇太 専門:機械学習 職種:でーたさいえんてぃすと((笑)) 趣味:ぬこ ウニ様 ♀ ((アメリカンカール)) トロ様 ♀ ((マンチカン)) 2
Slide 3
Slide 3 text
3 機械学習ってなんぞ?
Slide 4
Slide 4 text
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 4
Slide 5
Slide 5 text
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 • 人工知能 • 知能っぽいもの • 機械学習の応用 • 機械学習 • 数学っぽい学習((最適化)) • データマイニング • 学習っていうか発見 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 5
Slide 6
Slide 6 text
11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング DDeeeepp LLeeaarrnniinngg 人工知能 33rrdd ニューラルネット((DDeeeepp)) 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 全脳アーキテクチャ 汎用人工知能 人工知能・機械学習・データマイニング • 人工知能 • 知能っぽいもの • 機械学習の応用 • 機械学習 • 数学っぽい学習((最適化)) • データマイニング • 学習っていうか発見 6
Slide 7
Slide 7 text
aa sseett ooff mmeetthhooddss tthhaatt ccaann aauuttoommaattiiccaallllyy ddeetteecctt ppaatttteerrnnss iinn ddaattaa,, aanndd tthheenn uussee tthhee uunnccoovveerreedd ppaatttteerrnnss ttoo pprreeddiicctt ffuuttuurree ddaattaa,, oorr ttoo ppeerrffoorrmm ootthheerr kkiinnddss ooff ddeecciissiioonn mmaakkiinngg uunnddeerr uunncceerrttaaiinnttyy 機械学習とは、 • データから自動的にパターンを発見し、 • 将来のデータの予測や意思決定に利用する、 ための手法群である KK.. PP.. MMuurrpphhyy.. MMaacchhiinnee LLeeaarrnniinngg AA pprroobbaabbiilliissttiicc PPeerrssppeeccttiivvee.. TThhee MMIITT PPrreessss.. 22001122.. 機械学習 ʙ 個人的に好きな表現 ʙ 7
Slide 8
Slide 8 text
• 多様なデータの処理を想定 – これまで:構造化データがメイン – さいきん:構造化 // 非構造化なんでもござれ • データ分布に対する仮定が比較的弱い((??)) – これまで:正規分布などがメイン – さいきん:あんまり気にしない • 大量のデータ処理を想定 – これまで:少なめ – さいきん:多め • 学習結果の可読性をあまり気にしない – これまで:各パラメータ・モデルに直観的な意味づけが可能 – さいきん:あまり気にしない ※ 個人的な見解です 旧世代のデータ分析技術との違いは? 8
Slide 9
Slide 9 text
機械学習の流れ 9 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います
Slide 10
Slide 10 text
機械学習の流れ 10 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います ここが モヤモヤ する
Slide 11
Slide 11 text
数式で説明したほうがわかりやすいよ たぶん 11
Slide 12
Slide 12 text
パラメータ群 によって特徴づけられる何からの関数 は、 学習データ ((教師有)),, ((教師無))に基づき、 を最大化ないし最小化することで推定((学習))されます 指標と最大化・最小化手法の例 • ((対数))尤度 を 最尤法 により最大化 • 二乗誤差 を 最小二乗法 により最小化 など 機械学習でやってること 12 何らかの指標: 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化 ((学習))
Slide 13
Slide 13 text
13 なるほど・・・ わからん
Slide 14
Slide 14 text
学習データ モデル((関数)) 目的関数(二乗誤差)) 簡単な例で ʙ 単((線�形))回帰 ʙ 14
Slide 15
Slide 15 text
学習データ モデル((関数)) 目的関数(二乗誤差)) ただし 簡単な例で ʙ 単((線�形))回帰 ʙ 15 を最小する((最小二乗法))ことで、 , が以下のように求まる
Slide 16
Slide 16 text
学習データ モデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし)) 厄介な例で ʙ カーネル回帰 ʙ 16
Slide 17
Slide 17 text
学習データ モデル((関数)) 目的関数 ((二乗誤差 ++ 正則化なし)) 前ページと同様に を最小化して、 パラメータ を求めると、右のような関数が求まる 参考までに 厄介な例で ʙ カーネル回帰 ʙ カーネル関数((決め打ち)): 学習後の関数: 17
Slide 18
Slide 18 text
単回帰も機械学習? この流れが 機械学習 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化((学習)) 18 予測に使用 YYeess,, もちコース
Slide 19
Slide 19 text
とはいっても、33点にした場合 単回帰 vv..ss.. カーネル回帰 場合によっては、 モデルを考え直した ほうが良さげ このままで良さげ この辺の柔軟さが機械学習っぽい 19
Slide 20
Slide 20 text
回帰の他にも 分類 次元削減 クラスタリング 手法例:kk--mmeeaannss法、階層型クラスタリング 応用例:顧客セグメンテーション、文書分類 手法例:線�形判別分析、SSVVMM、ランダムフォレスト 応用例:異常検知、画像認識、疾患判別 手法例:主成分分析、多次元尺度構成法 応用例:データ可視化、特徴抽出 判別の境界となる 関数を学習 「似ている」 データの塊を発見 高次元→低次元 の写像を学習 赤枠:どっちかっていうと機械学習 青枠:どっちかっていうとデータマイニング 20
Slide 21
Slide 21 text
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 データを整備します ((実はすごく大事だけ ど詳細は割愛)) 手法を決めて 学習します 学習データ以外のデータに対する 性能((汎化性能))を評価して、モデ ルを調整((モデル選択))します 機械学習の流れ 〜 AAmmaazzoonn MMLLの準備体操 〜 21
Slide 22
Slide 22 text
というわけで、 22
Slide 23
Slide 23 text
Machine Learning をちょっと触ってみたよ! 23
Slide 24
Slide 24 text
AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinngg AAWWSSの「分析」カテゴリにあります 24
Slide 25
Slide 25 text
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 25
Slide 26
Slide 26 text
モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 ①データ整備 ②モデル学習 ③モデル評価 ④予測 AAmmaazzoonn MMLLで やってくれるとこ 26
Slide 27
Slide 27 text
• 分類 – 22クラス分類 :二項ロジスティック回帰 • 正常 // 異常、買う // 買わない eettcc.. – 多クラス分類 :多項ロジスティック回帰 • 顧客タイプAA // …� // ZZ、疾患AA // …� // ZZ eettcc.. • 回帰 – 線�形回帰 • 株価、ユーザ登録数変化 eettcc.. 今のところ、実装済みの機械学習手法は上の33つっぽい((今後に期待?)) AAmmaazzoonn MMLLで出来ること 27
Slide 28
Slide 28 text
実際の使い方は↓↓が大変まとまっています 【新サービス】AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinnggを試してみた hhttttpp::////ddeevv..ccllaassssmmeetthhoodd..jjpp//cclloouudd//aawwss//ggeettttiinngg--ssttaarrtteedd--aammaazzoonn--mmaacchhiinnee--lleeaarrnniinngg// ので、 独断と偏見により選んだ機能 だけピックアップして キャプチャ載せて終わります 28
Slide 29
Slide 29 text
AAmmaazzoonn MMLLによる機械学習 ʙ ①データ整備 ʙ • SS33からデータを読み込むと内容を表形式で表示してくれる • DDaattaa TTyyppeeも数値とかカテゴリカルとか決めてくれる • コンボボックスでそのへんいじくれる • ラジオボタンでTTaarrggeett((目的変数))を 選択すると、分析手法を決めてくれる • 今回は「BBiinnaarryy CCllaassssiiffiiccaattiioonn」 29
Slide 30
Slide 30 text
AAmmaazzoonn MMLLによる機械学習 ʙ ②モデル学習 ʙ 30 • 手法は決まってるので、「DDeeffaauulltt」を選択すれ ば、勝手に学習してくれます • ついでに評価用エンティティも作ってくれます • 「CCuussttoomm」を選ぶと、特徴選択 // 特徴抽出とか 正則化法とかも選べます • 玄人向�け
Slide 31
Slide 31 text
AAmmaazzoonn MMLLによる機械学習 ʙ ③モデル評価 ʙ • こいつをドラッグすると「閾値」を変 えた場合の予測精度を確認できる • 結果は右下に AAccccuurraaccyy,, FFPPRR,, PPrreecciissiioonn,, RReeccaallllなど、大 事な指標を即時確認可能 31
Slide 32
Slide 32 text
バッチ予測の出力ファイル AAPPIIを使えばリアルタイム予測もできるらしい AAmmaazzoonn MMLLによる機械学習 ʙ ④予測 ʙ 予測に使ったモデル、予測対象データ、 予測結果ファイルの出力先が確認できる • 予測結果ファイルはSS33とかに出力 • ロジスティック回帰のスコアとモデ ル評価のところで設定した閾値を基 準とした判定結果が記載される 32
Slide 33
Slide 33 text
AAmmaazzoonn MMLLによる機械学習 ʙ まとめ ʙ 下から • 元データ pp.. 2299 • 学習データ((元データのサブセット)) 同上 • 評価データ((元データのサブセット)) 同上 • 学習されたモデル pp.. 3300 • モデル評価用エンティティ pp.. 3311 • テストデータ((予測対象データ)) pp.. 3322 • 予測結果((結果そのものはSS33に存在)) 同上 • データやらモデルやらは「ダッシュボード」 に一覧で表示される • 迷子にならなくていい 33
Slide 34
Slide 34 text
私 でーたさいえんぃすとに なれました 34
Slide 35
Slide 35 text
とはいっても・・・ 試行錯誤的なデータ分析は AAmmaazzoonn MMLLだけでは不十分 ((そもそも、そういう使い方は想定してない?)) • 特徴選択 // 特徴抽出 – トリッキーなデータ処理 • 学習手法 – たくさんある手法のどれがいいか • モデル選択 – CCrroossss VVaalliiddaattiioonnとかなんやかんや 35
Slide 36
Slide 36 text
AAMMAAZZOONN MMLLが 唯一の選択ですか? 36
Slide 37
Slide 37 text
なんか、色々あるねん・・・ MMLLaaaaSSっぽいものを含むサービス その他機械学習的なフレームワーク 37
Slide 38
Slide 38 text
結果・・・ よくわかんないおっおっ(^ω^) おしえて、えろいひと 38
Slide 39
Slide 39 text
ご清聴あじゅじゅしたー お問い合わせは↓↓まで TTwwiitttteerr :@@oosshhookkaawwaa FFaacceebbooookk :滝勇太 猫のアイコンが目印です 39