Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習入門 + Amazon MLちょっと触ってみた

oshokawa
May 31, 2015
1.7k

機械学習入門 + Amazon MLちょっと触ってみた

JAWS-UG京王線 2015.05.30

oshokawa

May 31, 2015
Tweet

Transcript

  1. 11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))

    エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 4
  2. 11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))

    エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング 人工知能 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 ※ aauutthhoorriizzeeされた経緯・分類ではありません 人工知能・機械学習・データマイニング 5
  3. 11995500 22001100 11997700 11998800 11999900 22000000 11996600 推論・探索 11sstt ニューラルネット((線�形))

    エキスパートシステム 22nndd ニューラルネット((非線�形)) 遺伝的アルゴリズム 強化学習 機械学習 データマイニング DDeeeepp LLeeaarrnniinngg 人工知能 33rrdd ニューラルネット((DDeeeepp)) 11sstt AAII 22nndd AAII 33rrdd AAII 冬 冬 ダートマス会議 ※ aauutthhoorriizzeeされた経緯・分類ではありません 全脳アーキテクチャ 汎用人工知能 人工知能・機械学習・データマイニング •  人工知能 •  知能っぽいもの •  機械学習の応用 •  機械学習 •  数学っぽい学習((最適化)) •  データマイニング •  学習っていうか発見 6
  4. aa sseett ooff mmeetthhooddss tthhaatt ccaann aauuttoommaattiiccaallllyy ddeetteecctt ppaatttteerrnnss iinn

    ddaattaa,, aanndd tthheenn uussee tthhee uunnccoovveerreedd ppaatttteerrnnss ttoo pprreeddiicctt ffuuttuurree ddaattaa,, oorr ttoo ppeerrffoorrmm ootthheerr kkiinnddss ooff ddeecciissiioonn mmaakkiinngg uunnddeerr uunncceerrttaaiinnttyy 機械学習とは、 •  データから自動的にパターンを発見し、 •  将来のデータの予測や意思決定に利用する、 ための手法群である KK.. PP.. MMuurrpphhyy.. MMaacchhiinnee LLeeaarrnniinngg AA pprroobbaabbiilliissttiicc PPeerrssppeeccttiivvee.. TThhee MMIITT PPrreessss.. 22001122.. 機械学習 ʙ 個人的に好きな表現 ʙ 7
  5. •  多様なデータの処理を想定 –  これまで:構造化データがメイン –  さいきん:構造化 // 非構造化なんでもござれ •  データ分布に対する仮定が比較的弱い((??))

    –  これまで:正規分布などがメイン –  さいきん:あんまり気にしない •  大量のデータ処理を想定 –  これまで:少なめ –  さいきん:多め •  学習結果の可読性をあまり気にしない –  これまで:各パラメータ・モデルに直観的な意味づけが可能 –  さいきん:あまり気にしない ※ 個人的な見解です 旧世代のデータ分析技術との違いは? 8
  6. パラメータ群 によって特徴づけられる何からの関数 は、 学習データ ((教師有)),, ((教師無))に基づき、 を最大化ないし最小化することで推定((学習))されます 指標と最大化・最小化手法の例 •  ((対数))尤度

    を  最尤法 により最大化 •  二乗誤差 を  最小二乗法 により最小化 など 機械学習でやってること 12 何らかの指標: 学習データ モデル((関数)) 最適化指標 ((目的関数)) 最適化 ((学習))
  7. 学習データ モデル((関数)) 目的関数(二乗誤差))           ただし 簡単な例で

    ʙ 単((線�形))回帰 ʙ 15 を最小する((最小二乗法))ことで、 , が以下のように求まる
  8. 学習データ モデル((関数))     目的関数 ((二乗誤差 ++ 正則化なし))    

          前ページと同様に    を最小化して、 パラメータ  を求めると、右のような関数が求まる 参考までに 厄介な例で ʙ カーネル回帰 ʙ カーネル関数((決め打ち)): 学習後の関数: 17
  9. モデル 元データ 学習データ 検証データ 最終モデル 予測対象データ 予測結果 データを整備します ((実はすごく大事だけ ど詳細は割愛))

    手法を決めて 学習します 学習データ以外のデータに対する 性能((汎化性能))を評価して、モデ ルを調整((モデル選択))します 機械学習の流れ 〜 AAmmaazzoonn MMLLの準備体操 〜 21
  10. •  分類 –  22クラス分類 :二項ロジスティック回帰 •  正常 // 異常、買う //

    買わない eettcc.. –  多クラス分類 :多項ロジスティック回帰 •  顧客タイプAA // …� // ZZ、疾患AA // …� // ZZ eettcc.. •  回帰 –  線�形回帰 •  株価、ユーザ登録数変化 eettcc.. 今のところ、実装済みの機械学習手法は上の33つっぽい((今後に期待?)) AAmmaazzoonn MMLLで出来ること 27
  11. AAmmaazzoonn MMLLによる機械学習 ʙ ①データ整備 ʙ •  SS33からデータを読み込むと内容を表形式で表示してくれる •  DDaattaa TTyyppeeも数値とかカテゴリカルとか決めてくれる

    •  コンボボックスでそのへんいじくれる •  ラジオボタンでTTaarrggeett((目的変数))を 選択すると、分析手法を決めてくれる •  今回は「BBiinnaarryy CCllaassssiiffiiccaattiioonn」 29
  12. AAmmaazzoonn MMLLによる機械学習 ʙ ②モデル学習 ʙ 30 •  手法は決まってるので、「DDeeffaauulltt」を選択すれ ば、勝手に学習してくれます • 

    ついでに評価用エンティティも作ってくれます •  「CCuussttoomm」を選ぶと、特徴選択 // 特徴抽出とか 正則化法とかも選べます •  玄人向�け
  13. バッチ予測の出力ファイル AAPPIIを使えばリアルタイム予測もできるらしい AAmmaazzoonn MMLLによる機械学習 ʙ ④予測     ʙ 予測に使ったモデル、予測対象データ、

    予測結果ファイルの出力先が確認できる •  予測結果ファイルはSS33とかに出力 •  ロジスティック回帰のスコアとモデ ル評価のところで設定した閾値を基 準とした判定結果が記載される 32
  14. AAmmaazzoonn MMLLによる機械学習 ʙ まとめ  ʙ 下から •  元データ pp.. 2299

    •  学習データ((元データのサブセット)) 同上 •  評価データ((元データのサブセット)) 同上 •  学習されたモデル pp.. 3300 •  モデル評価用エンティティ pp.. 3311 •  テストデータ((予測対象データ)) pp.. 3322 •  予測結果((結果そのものはSS33に存在)) 同上 •  データやらモデルやらは「ダッシュボード」 に一覧で表示される •  迷子にならなくていい 33
  15. とはいっても・・・ 試行錯誤的なデータ分析は AAmmaazzoonn MMLLだけでは不十分 ((そもそも、そういう使い方は想定してない?)) •  特徴選択 // 特徴抽出 – 

    トリッキーなデータ処理 •  学習手法 –  たくさんある手法のどれがいいか •  モデル選択 –  CCrroossss VVaalliiddaattiioonnとかなんやかんや 35