簡単な機械学習 / Python 14

1 簡単な機械学習プログラミング基礎同演習慶應義塾大学理工学部物理情報工学科渡辺 2019/1/14

2 機械学習・機械学習の基礎・過学習・GAN

3 惑星の動きを観測する (大量のデータ) Ԧ = Ԧ モデル化法則の抽出 (情報圧縮)

4 彗星の動きを予測できる (モデルが正しければ) Ԧ = Ԧ モデル計算法則からスタート

5 惑星の動きを観測する (大量のデータ) なんらかのモデルを作る彗星の動きを予測できる (モデルが正しければ) 情報圧縮

6 教師あり学習 (Supervised Learning) 教師なし学習 (Unsupervised Learning) 強化学習(Reinforcement Learning) 「問題と解答のセット」を与えて学習させる方法
・画像認識、家賃推定などデータだけ与えて、データの分類を行う方法・売上データを解析し、一緒に売れそうな商品を推薦する等エージェントの行動に適切に報酬を与えることで最適な行動を学習させる方法・チェスや囲碁の思考ルーチンなどネコイヌ

7 分類問題入力に対して「ラベル」を推定する問題ネコイヌ回帰問題入力に対して「値」を推定する問題 16万円写真に写るものがネコかイヌか判定する
築年数、駅までの距離、周辺施設などから家賃を推定する築年数: X年駅から: 徒歩Y分広さ: Z平米近所にコンビニあり

8 荷重 x 伸び y バネの伸びと荷重の関係とりあえずいろんな荷重に対して、伸びを測定してみるデータセット伸び荷重

9 0 荷重伸び観測値先程のデータセットをグラフにしてみるの関係が予想される最小二乗法でaを決める

10 何が起きたか？多数のデータセットから、モデルが決まった情報が圧縮されたこのモデルは正しいか？どうすれば正しいと検証できるか？

11 データセット訓練データテストデータモデルを決めるモデルの予測性能を確認するデータを2つのグループに分ける

12 0 入力出力訓練誤差 0 入力出力汎化誤差訓練誤差
汎化誤差訓練データとモデルとの誤差テストデータとモデルとの誤差訓練誤差が小さい＝学習できている汎化誤差が小さい＝モデルが予測能力を持つ

13 0 出力入力 0 出力入力訓練データテストデータ訓練データは完璧に再現するが…
テストデータが全然合わない 0 出力入力実はこんな関数だった訓練データに最適化され過ぎ、予測性能を失うことを過学習(Over fitting)と呼ぶ

14 • 機械学習とは一種の情報圧縮 • 学習とは「訓練誤差」を減らす作業 • 過学習とは「訓練データ」に最適化され過ぎ、未知のデータへの予測能力を失うこと

15 偽造者 (Generator) 博物館 (Real Dataset) 鑑定者 (Discriminator) 提供されたデータが本物か偽物か見分ける
ニセのデータを生成本物のデータを提供

簡単な機械学習 / Python 14

簡単な機械学習 / Python 14

kaityo256 PRO

More Decks by kaityo256

Other Decks in Education

Featured

Transcript

1 簡単な機械学習プログラミング基礎同演習慶應義塾大学理工学部物理情報工学科渡辺 2019/1/14

2 機械学習・機械学習の基礎・過学習・GAN

3 惑星の動きを観測する (大量のデータ) Ԧ = Ԧ モデル化法則の抽出 (情報圧縮)

4 彗星の動きを予測できる (モデルが正しければ) Ԧ = Ԧ モデル計算法則からスタート

5 惑星の動きを観測する (大量のデータ) なんらかのモデルを作る彗星の動きを予測できる (モデルが正しければ) 情報圧縮

6 教師あり学習 (Supervised Learning) 教師なし学習 (Unsupervised Learning) 強化学習(Reinforcement Learning) 「問題と解答のセット」を与えて学習させる方法

7 分類問題入力に対して「ラベル」を推定する問題ネコイヌ回帰問題入力に対して「値」を推定する問題 16万円写真に写るものがネコかイヌか判定する

8 荷重 x 伸び y バネの伸びと荷重の関係とりあえずいろんな荷重に対して、伸びを測定してみるデータセット伸び荷重

9 0 荷重伸び観測値先程のデータセットをグラフにしてみるの関係が予想される最小二乗法でaを決める

10 何が起きたか？多数のデータセットから、モデルが決まった情報が圧縮されたこのモデルは正しいか？どうすれば正しいと検証できるか？

11 データセット訓練データテストデータモデルを決めるモデルの予測性能を確認するデータを2つのグループに分ける

12 0 入力出力訓練誤差 0 入力出力汎化誤差訓練誤差

13 0 出力入力 0 出力入力訓練データテストデータ訓練データは完璧に再現するが…

14 • 機械学習とは一種の情報圧縮 • 学習とは「訓練誤差」を減らす作業 • 過学習とは「訓練データ」に最適化され過ぎ、未知のデータへの予測能力を失うこと

15 偽造者 (Generator) 博物館 (Real Dataset) 鑑定者 (Discriminator) 提供されたデータが本物か偽物か見分ける