Slide 1

Slide 1 text

機械学習入�門 ++ AAmmaazzoonn MMLLちょっと触ってみた この資料には、弊社のノウハウ、営業機密等が含まれておりますので、お取り扱いには十分ご留意 願います。この資料およびその内容を、弊社に無断で使用、複写、破壊、改�ざんすること、ならび に第三者へ開示すること、漏洩すること、あるいは使用させることは、固くお断り申しあげます。 滝 勇太 22001155..0055..3300 JJAAWWSS--UUGG京王線�@電通大 1

Slide 2

Slide 2 text

自己紹介 名前:滝((石川)) 勇太 専門:機械学習 職種:でーたさいえんてぃすと((笑)) 趣味:ぬこ ウニ様 ♀ ((アメリカンカール)) トロ様 ♀ ((マンチカン)) 2

Slide 3

Slide 3 text

3 機械学習ってなんぞ?

Slide 4

Slide 4 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 4

Slide 5

Slide 5 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 5

Slide 6

Slide 6 text

11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形)) エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング DDeeeepp LLeeaarrnniinngg 人工知能 33rrdd ニューラルネット((DDeeeepp)) 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 全脳アーキテクチャ 汎用人工知能 人工知能・機械学習・データマイニング •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 6

Slide 7

Slide 7 text

aa sseett ooff mmeetthhooddss tthhaatt ccaann aauuttoommaattiiccaallllyy ddeetteecctt ppaatttteerrnnss iinn ddaattaa,, aanndd tthheenn uussee tthhee uunnccoovveerreedd ppaatttteerrnnss ttoo pprreeddiicctt ffuuttuurree ddaattaa,, oorr ttoo ppeerrffoorrmm ootthheerr kkiinnddss ooff ddeecciissiioonn mmaakkiinngg uunnddeerr uunncceerrttaaiinnttyy 機械学習とは、 •  データから自動的にパターンを発見し、 •  将来のデータの予測や意思決定に利用する、 ための手法群である KK.. PP.. MMuurrpphhyy.. MMaacchhiinnee LLeeaarrnniinngg AA pprroobbaabbiilliissttiicc PPeerrssppeeccttiivvee.. TThhee MMIITT PPrreessss.. 22001122.. 機械学習 ʙ 個人的に好きな表現 ʙ 7

Slide 8

Slide 8 text

•  多様なデータの処理を想定 –  これまで:構造化データがメイン –  さいきん:構造化 // 非構造化なんでもござれ •  データ分布に対する仮定が比較的弱い((??)) –  これまで:正規分布などがメイン –  さいきん:あんまり気にしない •  大量のデータ処理を想定 –  これまで:少なめ –  さいきん:多め •  学習結果の可読性をあまり気にしない –  これまで:各パラメータ・モデルに直観的な意味づけが可能 –  さいきん:あまり気にしない ※ 個人的な見解です 旧世代のデータ分析技術との違いは? 8

Slide 9

Slide 9 text

機械学習の流れ 9 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います

Slide 10

Slide 10 text

機械学習の流れ 10 データを集めます でーたさいえんてぃすとが いろいろ検討します 学習させます 使います ここが モヤモヤ する

Slide 11

Slide 11 text

数式で説明したほうがわかりやすいよ たぶん 11

Slide 12

Slide 12 text

パラメータ群 によって特徴づけられる何からの関数 は、 学習データ ((教師有)),, ((教師無))に基づき、 を最大化ないし最小化することで推定((学習))されます 指標と最大化・最小化手法の例 •  ((対数))尤度 を  最尤法 により最大化 •  二乗誤差 を  最小二乗法 により最小化 など 機械学習でやってること 12 何らかの指標: 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化 ((学習))

Slide 13

Slide 13 text

13 なるほど・・・ わからん

Slide 14

Slide 14 text

学習データ モデル((関数)) 目的関数(二乗誤差))           簡単な例で ʙ 単((線�形))回帰 ʙ 14

Slide 15

Slide 15 text

学習データ モデル((関数)) 目的関数(二乗誤差))           ただし 簡単な例で ʙ 単((線�形))回帰 ʙ 15 を最小する((最小二乗法))ことで、 , が以下のように求まる

Slide 16

Slide 16 text

学習データ モデル((関数))     目的関数 ((二乗誤差 ++ 正則化なし))           厄介な例で ʙ カーネル回帰 ʙ 16

Slide 17

Slide 17 text

学習データ モデル((関数))     目的関数 ((二乗誤差 ++ 正則化なし))           前ページと同様に    を最小化して、 パラメータ  を求めると、右のような関数が求まる 参考までに 厄介な例で ʙ カーネル回帰 ʙ カーネル関数((決め打ち)): 学習後の関数: 17

Slide 18

Slide 18 text

単回帰も機械学習? この流れが 機械学習 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化((学習)) 18 予測に使用 YYeess,, もちコース

Slide 19

Slide 19 text

とはいっても、33点にした場合 単回帰 vv..ss.. カーネル回帰 場合によっては、 モデルを考え直した ほうが良さげ このままで良さげ この辺の柔軟さが機械学習っぽい 19

Slide 20

Slide 20 text

回帰の他にも 分類 次元削減 クラスタリング 手法例:kk--mmeeaannss法、階層型クラスタリング 応用例:顧客セグメンテーション、文書分類 手法例:線�形判別分析、SSVVMM、ランダムフォレスト 応用例:異常検知、画像認識、疾患判別 手法例:主成分分析、多次元尺度構成法 応用例:データ可視化、特徴抽出 判別の境界となる 関数を学習 「似ている」 データの塊を発見 高次元→低次元 の写像を学習 赤枠:どっちかっていうと機械学習   青枠:どっちかっていうとデータマイニング 20

Slide 21

Slide 21 text

モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 データを整備します ((実はすごく大事だけ ど詳細は割愛)) 手法を決めて 学習します 学習データ以外のデータに対する 性能((汎化性能))を評価して、モデ ルを調整((モデル選択))します 機械学習の流れ 〜 AAmmaazzoonn MMLLの準備体操 〜 21

Slide 22

Slide 22 text

というわけで、 22

Slide 23

Slide 23 text

Machine Learning をちょっと触ってみたよ! 23

Slide 24

Slide 24 text

AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinngg AAWWSSの「分析」カテゴリにあります 24

Slide 25

Slide 25 text

モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 25

Slide 26

Slide 26 text

モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 AAmmaazzoonn MMLLによる機械学習 ①データ整備 ②モデル学習 ③モデル評価 ④予測 AAmmaazzoonn MMLLで やってくれるとこ 26

Slide 27

Slide 27 text

•  分類 –  22クラス分類 :二項ロジスティック回帰 •  正常 // 異常、買う // 買わない eettcc.. –  多クラス分類 :多項ロジスティック回帰 •  顧客タイプAA // …� // ZZ、疾患AA // …� // ZZ eettcc.. •  回帰 –  線�形回帰 •  株価、ユーザ登録数変化 eettcc.. 今のところ、実装済みの機械学習手法は上の33つっぽい((今後に期待?)) AAmmaazzoonn MMLLで出来ること 27

Slide 28

Slide 28 text

実際の使い方は↓↓が大変まとまっています 【新サービス】AAmmaazzoonn MMaacchhiinnee LLeeaarrnniinnggを試してみた hhttttpp::////ddeevv..ccllaassssmmeetthhoodd..jjpp//cclloouudd//aawwss//ggeettttiinngg--ssttaarrtteedd--aammaazzoonn--mmaacchhiinnee--lleeaarrnniinngg// ので、 独断と偏見により選んだ機能 だけピックアップして キャプチャ載せて終わります 28

Slide 29

Slide 29 text

AAmmaazzoonn MMLLによる機械学習 ʙ ①データ整備 ʙ •  SS33からデータを読み込むと内容を表形式で表示してくれる •  DDaattaa TTyyppeeも数値とかカテゴリカルとか決めてくれる •  コンボボックスでそのへんいじくれる •  ラジオボタンでTTaarrggeett((目的変数))を 選択すると、分析手法を決めてくれる •  今回は「BBiinnaarryy CCllaassssiiffiiccaattiioonn」 29

Slide 30

Slide 30 text

AAmmaazzoonn MMLLによる機械学習 ʙ ②モデル学習 ʙ 30 •  手法は決まってるので、「DDeeffaauulltt」を選択すれ ば、勝手に学習してくれます •  ついでに評価用エンティティも作ってくれます •  「CCuussttoomm」を選ぶと、特徴選択 // 特徴抽出とか 正則化法とかも選べます •  玄人向�け

Slide 31

Slide 31 text

AAmmaazzoonn MMLLによる機械学習 ʙ ③モデル評価 ʙ •  こいつをドラッグすると「閾値」を変 えた場合の予測精度を確認できる •  結果は右下に AAccccuurraaccyy,, FFPPRR,, PPrreecciissiioonn,, RReeccaallllなど、大 事な指標を即時確認可能 31

Slide 32

Slide 32 text

バッチ予測の出力ファイル AAPPIIを使えばリアルタイム予測もできるらしい AAmmaazzoonn MMLLによる機械学習 ʙ ④予測     ʙ 予測に使ったモデル、予測対象データ、 予測結果ファイルの出力先が確認できる •  予測結果ファイルはSS33とかに出力 •  ロジスティック回帰のスコアとモデ ル評価のところで設定した閾値を基 準とした判定結果が記載される 32

Slide 33

Slide 33 text

AAmmaazzoonn MMLLによる機械学習 ʙ まとめ  ʙ 下から •  元データ pp.. 2299 •  学習データ((元データのサブセット)) 同上 •  評価データ((元データのサブセット)) 同上 •  学習されたモデル pp.. 3300 •  モデル評価用エンティティ pp.. 3311 •  テストデータ((予測対象データ)) pp.. 3322 •  予測結果((結果そのものはSS33に存在)) 同上 •  データやらモデルやらは「ダッシュボード」 に一覧で表示される •  迷子にならなくていい 33

Slide 34

Slide 34 text

私 でーたさいえんぃすとに なれました 34

Slide 35

Slide 35 text

とはいっても・・・ 試行錯誤的なデータ分析は AAmmaazzoonn MMLLだけでは不十分 ((そもそも、そういう使い方は想定してない?)) •  特徴選択 // 特徴抽出 –  トリッキーなデータ処理 •  学習手法 –  たくさんある手法のどれがいいか •  モデル選択 –  CCrroossss VVaalliiddaattiioonnとかなんやかんや 35

Slide 36

Slide 36 text

AAMMAAZZOONN MMLLが 唯一の選択ですか? 36

Slide 37

Slide 37 text

なんか、色々あるねん・・・ MMLLaaaaSSっぽいものを含むサービス その他機械学習的なフレームワーク 37

Slide 38

Slide 38 text

結果・・・ よくわかんないおっおっ(^ω^) おしえて、えろいひと 38

Slide 39

Slide 39 text

ご清聴あじゅじゅしたー お問い合わせは↓↓まで TTwwiitttteerr :@@oosshhookkaawwaa FFaacceebbooookk :滝勇太      猫のアイコンが目印です 39