第一章-AIブームとAI【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第一章第一章日本一の数学嫌いと学ぶデータサイエンス ~第一章:AIブームとAI~ @Ringa_hyj

第一章第一章対象視聴者: 数式や記号を見ただけで教科書を閉じたくなるレベル 2

第一章第一章 AIブームをふりかえる 3

第一章第一章 AI : artificial intelligence 人工知能 - コンピュータによって知能を研究する分野のこと -
知能を持った機構そのもの - (明確な定義はない) e.g. ヒトはどうやって物を認識しているのか? 視 → 脳 → 認識機械ではどうやって認識させられるのか? ヒトの認識機構研究をコンピュータにさせてみよう 4

第一章第一章 AIの歴史今のブームはここから（出典）総務省「ICTの進化が雇用と働き方に及ぼす影響に関する調査研究」（平成28年） 5

第一章第一章なぜブームになったのか? 通信技術記憶媒体データ収集インターネットクラウド技術端末メモリ容量
マーケティングレコメンド自動運転病気診断創薬データを価値につなげたいデータマイニング膨大な量 SNS(画像) EC(通信販売) 車載医療データ実験データ計量経済保険数理 6

第一章第一章なぜブームになったのか? 通信技術記憶媒体データ収集インターネットクラウド技術メモリ容量 SNS(画像)
EC(通信販売) 車載医療データ実験データマーケティングレコメンド自動運転病気診断創薬データを価値につなげたいデータマイニング計量経済保険数理膨大な量 7

第一章第一章なぜブームになったのか? 膨大な量マーケティングレコメンド自動運転病気診断創薬データマイニング
・データのパターンを抽出する・現象を定式化する抽出・定式化するアルゴリズム(手順)が必要アルゴリズムをコンピュータに組み込む = プログラム統計・数学による特徴発見 = 深層学習 (機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる 8

第一章第一章故に「Python」や「深層学習」が人気の的となる（出典）ian goodfellow 「deep learning」 ch9 fig9.3 「深層学習」は何者?
9

第一章第一章 AI・機械学習・深層学習の違い 10

第一章第一章 AI : - コンピュータによって知能を研究する分野のこと - 知能を持った機構そのもの - (明確な定義はない)
機械学習(machine learning:ML) : - パターン認識・推論を行うアルゴリズムや統計モデルのこと (クラスタリング・線形回帰) 深層学習(deep learning:DL) : - 機械学習の一つ、いくつかの層構造を持つアルゴリズムのこと特に深層学習は「データからの自動的な特徴抽出」と「(質の良いデータであれば)データ量に比例して精度が今までのアルゴリズムより向上しやすい」という点からビックデータと相性が良い深層学習ブームの発端となったのは、今まで困難だった画像認識の分野で効果を発揮した事 11

第一章第一章「データサイエンティスト」とは何者か? 12

第一章第一章データサイエンティストに必要な3つのスキル（出典）2019年データサイエンティスト協会スキル委員会資料より 13

第一章第一章データサイエンティストに必要な3つのスキルビジネススキルサイエンススキルエンジニアリングスキル AI(アルゴリズム・統計モデル)を適応して、
価値判断と価値につなげたい分野に精通していること AI(アルゴリズム・統計モデル)の理論を知り、手法を選択・使用・説明できること AI(アルゴリズム・統計モデル)を使ったシステムを作り、価値 14

第一章第一章（出典）2019年データサイエンティスト協会スキルチェックリストver3よりデータサイエンス力は数学が必要統計 (確率分布・時系列) 微積分 (最適化・学習・更新)
線形代数 (並列計算・次元削減) 15

第一章第一章機械学習に数学が使われている以上「データサイエンティスト」は数学と関係深い 16

第一章第一章数学アレルギーでも親しみやすい「すうがく」を! そんな気持ちでデータサイエンスの理論理解につなげていきます 17

第一章第一章機械学習とは、データマイニングなどで使われているアルゴリズムのこととして説明を進める 18

第一章第一章なぜブームになったのか? 膨大な量マーケティングレコメンド自動運転病気診断創薬データマイニング
・データのパターンを抽出する・現象を定式化する抽出・定式化するアルゴリズム(手順)が必要アルゴリズムをコンピュータに組み込む = プログラム統計・数学による特徴発見 = 深層学習 (機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる 19

第一章第一章なぜブームになったのか? 抽出・定式化するアルゴリズム(手順)が必要アルゴリズムをコンピュータに組み込む = プログラム統計・数学による特徴発見 = 深層学習
(機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる膨大な量マーケティングレコメンド自動運転病気診断創薬データマイニング・データのパターンを抽出する・現象を定式化する 20

第一章第一章・データからパターンを抽出・現象を定式化簡単な例で説明 21

第一章第一章・データからパターンを抽出・現象を定式化 No Speed dist 1 4 2
2 4 10 3 7 4 ・・・・・・・・・ 48 24 93 49 24 120 50 25 85 テーブルデータ行・列になっている行(row) 列(column)…変数 2変数(2次元(dimension)…二つの軸) 22

第一章第一章・データからパターンを抽出・現象を定式化散布図(scatter plot) No1の点は2軸の値によって表現される二次元データ右上がりの傾向
23

第一章第一章・データからパターンを抽出・現象を定式化前の車との距離と自分の車の速度を見て緊急ブレーキを作動させたい課題:速度から距離を予測したい速度から距離を計算する式を作るモデル化
24

第一章第一章・データからパターンを抽出・現象を定式化停止距離 = 速度 + ? もしくは
停止距離 = 速度×A という式を見つけたい多項項変数(valiable)・特徴量(feature)・変項係数単項 25

第一章第一章・データからパターンを抽出・現象を定式化停止距離 = 速度 + ? No
Speed dist 1 4 2 2 4 10 3 7 4 ・・・・・・・・・ 48 24 93 49 24 120 50 25 85 予測に使う変数従属変数目的変数被説明変数予測したい変数説明変数独立変数入力変数 26

第一章第一章・データからパターンを抽出・現象を定式化すごく適当に速度の3倍ほど距離が必要という仮説で線を引く停止距離 =
3×速度停止距離の予測モデル経験的・適当では説得力がないデータを数値的に解析して求めよう経験が使えない場合でも通じる方法を 27

第一章第一章・データからパターンを抽出・現象を定式化 y = 2X という法則から生まれた点 (x座標, y座標)
= (1, 2) という点がある適当に y = 3X という法則を仮定する本当はXの2倍が正解点(1,2)を通っていないモデルとして出来が悪い修正したい 28

第一章第一章・データからパターンを抽出・現象を定式化修正案: 出来の悪いモデルが予測が真の値を”どれだけ外したか?” 実際の値と比較できれば、修正方向が判断できそう実際(1,
2) 実際のy 予測(x, 3x) 予測のy (yハット) 29

第一章第一章・データからパターンを抽出・現象を定式化予測のはずれ具合上振れの時は負下振れの時は正予測が実測から “どれだけ外れているか” この予測と実際のズレが
小さくなる、叶うなら 0であれば正しい式 30

第一章第一章・データからパターンを抽出・現象を定式化「二次関数」と「微分」の復習次元とは別何乗であるか?を次数(degree,order)という Xに対して何か変換を行っているこのような表現を”関数(function)”という Yはxの関数である…xが決まれば変形されてyの値が決まる
31

第一章第一章・データからパターンを抽出・現象を定式化 hが極めて小さい値とする「微分」の定義は、微小区間(1点)の時の関数の変化量 = 点の傾き問:x=2の時、f(x)=x2
はどれだけ傾いているか? 32

第一章第一章問:x=2の時、f(x)=x2 はどれだけ傾いているか? 計算ページ 33

第一章第一章・データからパターンを抽出・現象を定式化「微分」の定義は、微小区間(1点)の時の関数の変化量 = 点の傾き問:x=2の時 f(x)=x2
はどれだけ傾いているか? 関数全体での微分した値を求めるための関数を「導関数」と呼ぶまた、Xについて微分すると呼ぶ 34

第一章第一章問:傾き(微分した値)が0の時、二次関数x2はどうなっている? 上記を解くとx=0の時、傾きが0の時、x2は最小になるが0、もしくは小さいとき、予測モデルは真の法則に近づくこの式を微分して0と置いたとき、最も予測の外れ具合が小さくなる yハットを書き直し、微分する
35

第一章第一章本当のモデルを求めたいので、傾きは適当でなく、未知の変数Aとする真のモデルから得られている点(x=1,y=2)というデータを与える Aについての二次関数の最小を求めるためには、微分して0とおく Aについて解くと、A=2となる。 36

第一章第一章・データからパターンを抽出・現象を定式化適当ではない方法で真のモデルを求められた。点が1点でなく複数ある時は? Y = Ax
だけでなくもっと複雑な時は? 「偏微分」や「行列の計算」を使う 37

第一章第一章・データからパターンを抽出・現象を定式化「最小二乗法」を使って「(回帰)係数」を求めた微分して L が最小になるよう求めた方法は「勾配降下法」
と広く呼ばれている (勾配・学習率などもかかわってくる) 38

第一章第一章なんでここにスライドが? 39

第一章第一章回帰(regression) 教師あり・なし簡単な線形代数パラメトリック・ノンパラメトリックモデルのバイアス、バリアンスモデル評価評価できない問題 40

第一章-AIブームとAI【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第一章-AIブームとAI【数学嫌いと学ぶデータサイエンス・統計的学習入門】

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript