簡単な機械学習 / Python ML

Slide 1

Slide 1 text

1 簡単な機械学習プログラミング基礎同演習慶應義塾大学理工学部物理情報工学科渡辺 2020/12/22

Slide 2

Slide 2 text

2 機械学習 • 機械学習とは • 過学習 • 回帰 • GAN

Slide 3

Slide 3 text

3 惑星の動きを観測する (大量のデータ) Ԧ = Ԧ モデル化法則の抽出 (情報圧縮)

Slide 4

Slide 4 text

4 彗星の動きを予測できる (モデルが正しければ) Ԧ = Ԧ モデル計算法則からスタート

Slide 5

Slide 5 text

5 惑星の動きを観測する (大量のデータ) なんらかのモデルを作る彗星の動きを予測できる (モデルが正しければ) 情報圧縮

Slide 6

Slide 6 text

6 教師あり学習 (Supervised Learning) 教師なし学習 (Unsupervised Learning) 強化学習 (Reinforcement Learning) 「問題と解答のセット」を与えて学習させる方法・画像認識、家賃推定などデータだけ与えて、データの分類を行う方法・売上データを解析し、一緒に売れそうな商品を推薦する等エージェントの行動に適切に報酬を与えることで最適な行動を学習させる方法・チェスや囲碁の思考ルーチンなどネコイヌ

Slide 7

Slide 7 text

7 分類問題 (classification) 入力に対して「ラベル」を推定する問題ネコイヌ回帰問題 (regression) 入力に対して「値」を推定する問題 16万円写真に写るものがネコかイヌか判定する築年数、駅までの距離、周辺施設などから家賃を推定する築年数: X年駅から: 徒歩Y分広さ: Z平米近所にコンビニあり

Slide 8

Slide 8 text

8 荷重 x 伸び y バネの伸びと荷重の関係とりあえずいろんな荷重に対して、伸びを測定してみるデータセット伸び荷重

Slide 9

Slide 9 text

9 荷重xとバネの伸びyの関係をたくさん測定するなんらかのモデルを作る未知の荷重x’に対して、正しい伸びy’を予測できる情報圧縮荷重 x 伸び y 荷重 x’ 伸び y’

Slide 10

Slide 10 text

10 0 荷重伸び観測値先程のデータセットをグラフにしてみるの関係が予想される最小二乗法でaを決めるモデルパラメータ

Slide 11

Slide 11 text

11 何が起きたか？多数のデータセットから、モデルが決まった情報が圧縮されたこのモデルは正しいか？どうすれば正しいと検証できるか？

Slide 12

Slide 12 text

12 データセット訓練データテストデータモデルを決めるモデルの予測性能を確認するデータを2つのグループに分ける

Slide 13

Slide 13 text

13 0 入力出力訓練誤差 0 入力出力汎化誤差訓練誤差汎化誤差訓練データとモデルとの誤差テストデータとモデルとの誤差訓練誤差が小さい＝うまく学習できている汎化誤差が小さい＝モデルが予測能力を持つ

Slide 14

Slide 14 text

14 0 出力入力 0 出力入力訓練データは完璧に再現するが… 訓練データテストデータテストデータが全然合わない 0 出力入力訓練データに最適化され過ぎ、予測性能を失うことを過学習(Over fitting)と呼ぶ実はこんな関数だった

Slide 15

Slide 15 text

15 荷重 x 伸び y モデルデータ荷重 x’ 伸び y’ 予測データネコイヌモデルモデルパラメータ：少数最適化：最小二乗法モデルパラメータ：多数最適化：SGD, Adam, AdaGrad, etc. ネコ予測

Slide 16

Slide 16 text

16 • 機械学習とは一種の情報圧縮 • 具体的にはパラメータの最適化 • 学習とは「訓練誤差」を減らす作業 • 目的は「汎化誤差」を減らす事 • 過学習とは「訓練データ」に最適化され過ぎ、未知のデータへの予測能力を失うこと

Slide 17

Slide 17 text

17 ※データは厚生労働省の平成30年賃金構造基本統計調査による「年齢・学歴・企業規模」から「給与」を推定したい学歴中卒高卒高専・短大卒大学・大学院卒企業規模小企業(従業員数〜99人) 中企業(従業員数〜999人) 大企業(従業員数1000人〜) 年齢給与「年齢・学歴・企業規模」を説明変数、「給与」を目的変数と呼ぶ

Slide 18

Slide 18 text

18 年齢と給与は強く相関していそう「学歴」や「企業規模」はどのように取り込むか？ = age age + age 係数の意味毎年円だけ給与があがる

Slide 19

Slide 19 text

19 →ラベルの変数化企業規模が大きくなるほど給与が上がりそう size= 0 (小企業) 1 (中企業) 2 (大企業) = age age + size size + 企業規模が給与に与える影響

Slide 20

Slide 20 text

20 = age age + size size + size= 0 (小企業) 1 (中企業) 2 (大企業) 係数の意味小企業勤務に比べ、中企業勤務は size 円だけ給与が多い小企業勤務に比べ、大企業勤務は 2size 円だけ給与が多い中企業勤務による給与増分は、大企業と小企業の中間であると仮定していることに小→中→大の給与の増分は独立に扱いたい

Slide 21

Slide 21 text

21 「小規模かどうか？」「中規模かどうか？」の変数を作る小 = 1 (小企業勤務) 0 (それ以外) 中 = 1 (中企業勤務) 0 (それ以外) 大 = 1 (大企業勤務) 0 (それ以外) 小中大 ( ) , , このようなベクトルを作ると小企業勤務= (1, 0, 0) 中企業勤務= (0, 1, 0) 大企業勤務= (0, 0, 1) ベクトルのうち、要素一つだけ1、それ以外は0 これをone-hot 表現と呼ぶ

Slide 22

Slide 22 text

22 = age age + + + + 小小中中大大 One-hot表現による回帰係数の意味中中企業勤務の人は、小企業勤務の人より − 小円だけ給与が高い大大企業勤務の人は、小企業勤務の人より − 小円だけ給与が高い差しか意味を持たないが、ラベルの数だけ変数を作るのが楽学歴も同様にone-hot表現を作る

Slide 23

Slide 23 text

23 課題の手順 • Pandasを使ってデータを読み込む • 大企業に務める人の給与を学歴別にプロット • ラベル変数からone-hot表現を作る • 年齢・企業規模・学歴について回帰分析結果の解析 = age age + + + + 小小中中大大 company_size_small company_size_middle company_size_large age 係数が上記のような名前で得られるので、その値について考察学歴は education_[middle/high/tech/university]という名前に

Slide 24

Slide 24 text

24 偽造者 (Generator) 博物館 (Real Dataset) 鑑定者 (Discriminator) 提供されたデータが本物か偽物か見分けるニセのデータを生成本物のデータを提供

Slide 25

Slide 25 text

25 ランタイムのタイプから「ハードウェアアクセラレータ」としてGPUを選ぶ