Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第一章-AIブームとAI【数学嫌いと学ぶデータサイエンス・統計的学習入門】
Search
Ringa_hyj
June 15, 2020
Technology
0
140
第一章-AIブームとAI【数学嫌いと学ぶデータサイエンス・統計的学習入門】
第一章【数学嫌いと学ぶデータサイエンス・統計的学習入門】
Ringa_hyj
June 15, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
29
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
26
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
36
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
25
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
810
多次元尺度法MDS
ringa_hyj
0
260
因子分析(仮)
ringa_hyj
0
130
階層、非階層クラスタリング
ringa_hyj
0
99
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
410
Other Decks in Technology
See All in Technology
What's new in Go 1.24?
ciarana
1
110
手を動かしてレベルアップしよう!
maruto
0
240
事業モメンタムを生み出すプロダクト開発
macchiitaka
0
100
データベースの負荷を紐解く/untangle-the-database-load
emiki
2
540
エンジニアリング価値を黒字化する バリューベース戦略を用いた 技術戦略策定の道のり
kzkmaeda
7
3.2k
事業を差別化する技術を生み出す技術
pyama86
2
440
サイト信頼性エンジニアリングとAmazon Web Services / SRE and AWS
ymotongpoo
7
1.7k
ウォンテッドリーのデータパイプラインを支える ETL のための analytics, rds-exporter / analytics, rds-exporter for ETL to support Wantedly's data pipeline
unblee
0
140
【詳説】コンテンツ配信 システムの複数機能 基盤への拡張
hatena
0
280
IoTシステム開発の複雑さを低減するための統合的アーキテクチャ
kentaro
1
120
Snowflake ML モデルを dbt データパイプラインに組み込む
estie
0
110
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
540
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
It's Worth the Effort
3n
184
28k
GraphQLの誤解/rethinking-graphql
sonatard
69
10k
Optimizing for Happiness
mojombo
377
70k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7k
Writing Fast Ruby
sferik
628
61k
Transcript
第一章 第一章 日本一の数学嫌いと学ぶ データサイエンス ~第一章:AIブームとAI~ @Ringa_hyj
第一章 第一章 対象視聴者: 数式や記号を見ただけで 教科書を閉じたくなるレベル 2
第一章 第一章 AIブームをふりかえる 3
第一章 第一章 AI : artificial intelligence 人工知能 - コンピュータによって知能を研究する分野のこと -
知能を持った機構そのもの - (明確な定義はない) e.g. ヒトはどうやって物を認識しているのか? 視 → 脳 → 認識 機械ではどうやって認識させられるのか? ヒトの認識機構研究をコンピュータにさせてみよう 4
第一章 第一章 AIの歴史 今のブームはここから (出典)総務省「ICTの進化が雇用と働き方に及ぼす影響に関する調査研究」(平成28年) 5
第一章 第一章 なぜブームになったのか? 通信技術 記憶媒体 データ収集 インターネット クラウド技術 端末 メモリ容量
マーケティング レコメンド 自動運転 病気診断 創薬 データを価値につなげたい データマイニング 膨大な量 SNS(画像) EC(通信販売) 車載 医療データ 実験データ 計量経済 保険数理 6
第一章 第一章 なぜブームになったのか? 通信技術 記憶媒体 データ収集 インターネット クラウド技術 メモリ容量 SNS(画像)
EC(通信販売) 車載 医療データ 実験データ マーケティング レコメンド 自動運転 病気診断 創薬 データを価値につなげたい データマイニング 計量経済 保険数理 膨大な量 7
第一章 第一章 なぜブームになったのか? 膨大な量 マーケティング レコメンド 自動運転 病気診断 創薬 データマイニング
・データのパターンを抽出する ・現象を定式化する 抽出・定式化するアルゴリズム(手順)が必要 アルゴリズムをコンピュータに組み込む = プログラム 統計・数学による特徴発見 = 深層学習 (機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる 8
第一章 第一章 故に「Python」や「深層学習」が人気の的となる (出典)ian goodfellow 「deep learning」 ch9 fig9.3 「深層学習」は何者?
9
第一章 第一章 AI・機械学習・ 深層学習 の違い 10
第一章 第一章 AI : - コンピュータによって知能を研究する分野のこと - 知能を持った機構そのもの - (明確な定義はない)
機械学習(machine learning:ML) : - パターン認識・推論を行うアルゴリズムや統計モデルのこと (クラスタリング・線形回帰) 深層学習(deep learning:DL) : - 機械学習の一つ、いくつかの層構造を持つアルゴリズムのこと 特に深層学習は 「データからの自動的な特徴抽出」と 「(質の良いデータであれば)データ量に比例して精度が今までのアルゴリズムより向上しやすい」 という点からビックデータと相性が良い 深層学習ブームの発端となったのは、今まで困難だった画像認識の分野で効果を発揮した事 11
第一章 第一章 「データサイエンティスト」 とは何者か? 12
第一章 第一章 データサイエンティストに必要な3つのスキル (出典)2019年 データサイエンティスト協会 スキル委員会資料より 13
第一章 第一章 データサイエンティストに必要な3つのスキル ビジネス スキル サイエンス スキル エンジニアリング スキル AI(アルゴリズム・統計モデル)を適応して、
価値判断と価値につなげたい分野に精通していること AI(アルゴリズム・統計モデル)の理論を知り、 手法を選択・使用・説明できること AI(アルゴリズム・統計モデル)を使ったシステムを作り、 価値 14
第一章 第一章 (出典)2019年 データサイエンティスト協会 スキルチェックリストver3より データサイエンス力は数学が必要 統計 (確率分布・時系列) 微積分 (最適化・学習・更新)
線形代数 (並列計算・次元削減) 15
第一章 第一章 機械学習に数学が使われている以上 「データサイエンティスト」 は数学と関係深い 16
第一章 第一章 数学アレルギーでも 親しみやすい「すうがく」を! そんな気持ちでデータサイエンスの理論理解 につなげていきます 17
第一章 第一章 機械学習とは、 データマイニングなどで使われている アルゴリズムのこと として説明を進める 18
第一章 第一章 なぜブームになったのか? 膨大な量 マーケティング レコメンド 自動運転 病気診断 創薬 データマイニング
・データのパターンを抽出する ・現象を定式化する 抽出・定式化するアルゴリズム(手順)が必要 アルゴリズムをコンピュータに組み込む = プログラム 統計・数学による特徴発見 = 深層学習 (機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる 19
第一章 第一章 なぜブームになったのか? 抽出・定式化するアルゴリズム(手順)が必要 アルゴリズムをコンピュータに組み込む = プログラム 統計・数学による特徴発見 = 深層学習
(機械学習) 扱いやすいオープンソースの言語 (Python, R) 論文の内容が公開(arXiv) プログラムで使えるように実装(github) 簡単にインストールできる 膨大な量 マーケティング レコメンド 自動運転 病気診断 創薬 データマイニング ・データのパターンを抽出する ・現象を定式化する 20
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 簡単な例で説明 21
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 No Speed dist 1 4 2
2 4 10 3 7 4 ・・・ ・・・ ・・・ 48 24 93 49 24 120 50 25 85 テーブルデータ 行・列になっている 行(row) 列(column)…変数 2変数(2次元(dimension)…二つの軸) 22
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 散布図(scatter plot) No1の点は2軸の値によって 表現される 二次元データ 右上がりの傾向
23
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 前の車との距離と 自分の車の速度を見て 緊急ブレーキを作動させたい 課題:速度から距離を予測したい 速度から距離を計算する式を作る モデル化
24
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 停止距離 = 速度 + ? もしくは
停止距離 = 速度×A という式を見つけたい 多項 項 変数(valiable)・特徴量(feature)・変項 係数 単項 25
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 停止距離 = 速度 + ? No
Speed dist 1 4 2 2 4 10 3 7 4 ・・・ ・・・ ・・・ 48 24 93 49 24 120 50 25 85 予測に使う変数 従属変数 目的変数 被説明変数 予測したい変数 説明変数 独立変数 入力変数 26
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 すごく適当に 速度の3倍 ほど距離が必要 という仮説で線を引く 停止距離 =
3×速度 停止距離の予測モデル 経験的・適当では説得力がない データを数値的に解析して求めよう 経験が使えない場合でも通じる方法を 27
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 y = 2X という法則から生まれた点 (x座標, y座標)
= (1, 2) という点がある 適当に y = 3X という法則を仮定する 本当はXの2倍が正解 点(1,2)を通っていない モデルとして出来が悪い 修正したい 28
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 修正案: 出来の悪いモデルが 予測が真の値を”どれだけ外したか?” 実際の値と比較できれば、 修正方向が判断できそう 実際(1,
2) 実際のy 予測(x, 3x) 予測のy (yハット) 29
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 予測のはずれ具合 上振れの時は負 下振れの時は正 予測が実測から “どれだけ外れているか” この予測と実際のズレが
小さくなる、叶うなら 0であれば正しい式 30
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 「二次関数」と「微分」の復習 次元とは別 何乗であるか?を次数(degree,order)という Xに対して何か変換を行っている このような表現を”関数(function)”という Yはxの関数である…xが決まれば変形されてyの値が決まる
31
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 hが極めて小さい値とする 「微分」の定義は、 微小区間(1点)の時の関数の変化量 = 点の傾き 問:x=2の時、f(x)=x2
はどれだけ傾いているか? 32
第一章 第一章 問:x=2の時、f(x)=x2 はどれだけ傾いているか? 計算ページ 33
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 「微分」の定義は、 微小区間(1点)の時の関数の変化量 = 点の傾き 問:x=2の時 f(x)=x2
はどれだけ傾いているか? 関数全体での微分した値を求めるための関数を 「導関数」と呼ぶ また、Xについて微分する と呼ぶ 34
第一章 第一章 問:傾き(微分した値)が0の時、二次関数x2はどうなっている? 上記を解くとx=0の時、 傾きが0の時、x2は最小になる が0、もしくは小さいとき、 予測モデルは真の法則に近づく この式を微分して0と置いたとき、 最も予測の外れ具合が小さくなる yハットを書き直し、微分する
35
第一章 第一章 本当のモデルを求めたいので、 傾きは適当でなく、未知の変数Aとする 真のモデルから得られている点(x=1,y=2)というデータを与える Aについての二次関数の最小を求めるためには、微分して0とおく Aについて解くと、A=2となる。 36
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 適当ではない方法で 真のモデルを求められた。 点が1点でなく複数ある時は? Y = Ax
だけでなくもっと複雑な時は? 「偏微分」や「行列の計算」を使う 37
第一章 第一章 ・データからパターンを抽出 ・現象を定式化 「最小二乗法」を使って 「(回帰)係数」を求めた 微分して L が最小になるよう求めた方法は 「勾配降下法」
と広く呼ばれている (勾配・学習率などもかかわってくる) 38
第一章 第一章 なんでここにスライドが? 39
第一章 第一章 回帰(regression) 教師あり・なし 簡単な線形代数 パラメトリック・ノンパラメトリック モデルのバイアス、バリアンス モデル評価 評価できない問題 40