Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習・超入門・An introduction to Machine Learning

Ringa_hyj
November 15, 2019

機械学習・超入門・An introduction to Machine Learning

Ringa_hyj

November 15, 2019
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. 2 第1回 概要理解 背景理解 ビッグデータ データマイニング・IoT 第2回 もう少し概要について アルゴリズムへの橋わたし AI・機械学習

    第3回 機械学習の入り口 アルゴリズムの入り口 機械学習のはじめ 第4回 一番基本的な例で理解する機械学習 アルゴリズムの中身 最適化って何か感覚的に 第5回 いよいよディープラーニング(深層学習)へ アルゴリズムの後半 深層学習の入り口 第6回 画像の認識 アルゴリズムの後半2 深層学習から画像認識 画像認識からOCRや自動運転まで
  2. 9

  3. 10

  4. 17 ビッグデータの性質3V Volume Variety Velocity 蓄積量 国・企業ごとの蓄積意識 クラウドの発達・オープンデータ 多様性 画像・動画・SNS・生体

    生成速度 Wi-Fi Bluetooth 5G スマホ・SNS Walmart 2.5ペタ ebay 6ペタ ウェアラブルデバイス ソーシャルネット センサー、GPS、監視カメラ ツイッター 一日5千万 FB 一秒に13万写真 google 一日50億回検索
  5. 20 age sex bmi children smoker region charges 19female 27.9

    0yes southwest 16884.92 18male 33.77 1no southeast 1725.552 28male 33 3no southeast 4449.462 33male 22.705 0no northwest 21984.47 32male 28.88 0no northwest 3866.855 31female 25.74 0no southeast 3756.622 46female 33.44 1no southeast 8240.59 37female 27.74 3no northwest 7281.506 37male 29.83 2no northeast 6406.411 60female 25.84 0no northwest 28923.14 25male 26.22 0no northeast 2721.321 美味しかった保険の顧客データを例に データをマイニングすることで、 新規顧客に課す保険料が計算できる
  6. 23 age sex bmi children smoker region charges 19female 27.9

    0yes southwest 16884.92 18male 33.77 1no southeast 1725.552 28male 33 3no southeast 4449.462 33male 22.705 0no northwest 21984.47 32male 28.88 0no northwest 3866.855 31female 25.74 0no southeast 3756.622 46female 33.44 1no southeast 8240.59 37female 27.74 3no northwest 7281.506 37male 29.83 2no northeast 6406.411 60female 25.84 0no northwest 28923.14 25male 26.22 0no northeast 2721.321 美味しかった保険の顧客データを例に 優良 顧客 非優良 顧客 機械学習はパターンを見つけるのが得意 優良顧客の”パターン”を見つけて、 新しいデータも分類する
  7. 24 age sex bmi children smoker region charges 19female 27.9

    0yes southwest 16884.92 18male 33.77 1no southeast 1725.552 28male 33 3no southeast 4449.462 33male 22.705 0no northwest 21984.47 32male 28.88 0no northwest 3866.855 31female 25.74 0no southeast 3756.622 46female 33.44 1no southeast 8240.59 37female 27.74 3no northwest 7281.506 37male 29.83 2no northeast 6406.411 60female 25.84 0no northwest 28923.14 25male 26.22 0no northeast 2721.321 美味しかった保険の顧客データを例に 機械学習はパターンを見つけるのが得意 顧客データと値段を数式にして、 現状の料金を計算
  8. 30 第1回 背景理解 マイニング・IoT 第2回 アルゴリズムへの橋わたし AI・機械学習 第3回 アルゴリズムの入り口 機械学習のはじめ

    第4回 アルゴリズムの中身 最適化って何か感覚的に 第5回 アルゴリズムの後半 深層学習の入り口 第6回 アルゴリズムの後半2 深層学習から画像認識 画像認識からOCRや自動運転まで
  9. 1・単語の説明 32 AIとは: ・artificial (人工的な, 人造の) intelligence (知性,理解力) ・「人間と同じ様なことを機械にさせたい」 ・厳密な定義はない

    ~感じること~ ・作業を効率的・効果的にしたいから とりあえず「AI」と言っておく ~提案~ ・大体、機械学習が絡んだ ”何か”
  10. 51 第1回 背景理解 マイニング・IoT 第2回 アルゴリズムへの橋わたし AI・機械学習 第3回 アルゴリズムの入り口 機械学習のはじめ

    第4回 アルゴリズムの中身 最適化って何か感覚的に 第5回 アルゴリズムの後半 深層学習の入り口 第6回 アルゴリズムの後半2 深層学習から画像認識 画像認識からOCRや自動運転まで
  11. 54 データ 判別 回帰 分類 教師あり 訓 練 ・ 学

    習 推論・予測モデル (AI = 最適化された数式) 教師なし 教師あり 分類
  12. 59 データ 判別 回帰 分類 教師あり 訓 練 ・ 学

    習 推論・予測モデル (AI = 最適化された数式) 教師なし 教師あり 分類
  13. 68 ◆教師あり学習 ・線形回帰(Generalized Linear Models) ・線形判別分析(Linear and Quadratic Discriminant Analysis)

    ・リッジ回帰(Kernel ridge regression) ・SVM(Support Vector Machines) ・最近傍・k近傍法(Nearest Neighbors) ・ガウス過程(Gaussian Processes) ・十字型分解(Cross decomposition) ・ナイーブベイズ(Naive Bayes) ・決定木(Decision Trees) ・アンサンブル学習(Ensemble methods) ・マルチクラス・マルチラベルアルゴリズム(Multiclass and multilabel algorithms) ・半教師あり学習(Semi-Supervised) ・アイソトニック回帰(Isotonic regression) ・ニューラルネットワークモデル(Neural network models (supervised)) ◆教師なし学習 ・混合ガウスモデル(Gaussian mixture models) ・多様体学習(Manifold learning) ・クラスタリング(Clustering) ・バイクラスタリング(Biclustering) ・主成分分析(Principal component analysis) ・共分散推定(Covariance estimation) ・異常検知(Novelty and Outlier Detection) ・密度推定(Density Estimation) ・ニューラルネットワークモデル(Neural network models (unsupervised) まだまだあります。 今この瞬間にも、出続けています。 時間があれば知ってるものについて雑談
  14. 79 x = 1 , y= 2 のデータがあり、 データのxからyを予測するモデル式は 「y’

    = 2x」 が妥当ではないだろうか? と仮定している (y – y’)2 = (y – ax)2 今回は勝手に a = 2 としているので、2を代入して展開すると (y2 – 4xy + 4x2) (x,y)=(1,2)を入れて誤差を確認してみると 4 – 8 + 4 = 0 誤差0の完全にデータを表現できている式であることが確認できた こんな理想的でない場合から、修正して理想に近づくパターンを確認
  15. 80 本当はy = 2x にノイズを足しただけ step 1 勝手にy’ = 3x

    くらい と仮定 データは (1,2.5) (2,3) (3,6) (y – y’)2 = (y – ax)2 y2 – 2axy + a2x2 今回も仮定したa=3を代入して、 データも代入して、 合計を計算すると誤差は45となった 勝手に決めたa=3が悪かった。 誤差を減らすようなaを探索したい。
  16. 81 y2 – 2axy + a2x2 という式について見ると、x,yには実データが入る。 例えば(1,2)なら 4 –

    4a + a2 というaに関する関数に変換できる。 4 – 4a + a2を最も小さくするaを決めたい。 グラフを見たら a = 2のとき, 誤差が0になることが分かる。 このような底(変曲点)を探す方法には微分がある 4 – 4a + a2を微分し、 2a – 4 = 0 になるような a を求めたらいい。 a = 2 つまり傾きはa = 2 が最適である。 a 誤差 (y-y’)2
  17. 82 微分すると何が嬉しいか? 微分とは「傾き」を教えてくれるので、 本当は y = 2xで表したほうがいいのに、 「y = 5xだろうな」と仮定してしまったとき、

    傾きが0ではないことで判断できる。 解である2よりも大きい時は 正の傾き 解である2よりも小さい時は 負の値 となるので、アルゴリズムが「学習」 するときの進む方向の目安になる。 傾きが正の値なので、aは大きすぎる a はもっと小さい値にして試行してみよう
  18. 110

  19. 118

  20. 119 線形回帰 y = ax + b 重回帰 y =

    ax + bz + c 単純パーセプトロン ロジスティック回帰(判別)