Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
正則化とロジスティック回帰/machine-learning-lecture-regulari...
Search
Hiroka Zaitsu
July 16, 2020
Technology
0
8.2k
正則化とロジスティック回帰/machine-learning-lecture-regularization-and-logistic-regression
GMOペパボ新卒研修2020 機械学習入門 補足資料#04 #05
Hiroka Zaitsu
July 16, 2020
Tweet
Share
More Decks by Hiroka Zaitsu
See All by Hiroka Zaitsu
Vertex AI Matching Engine と CLIP を使って EC サービスの類似画像検索機能を作る / Development of similar image search function for EC services using Vertex AI Matching Engine and CLIP
zaimy
0
600
BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
zaimy
1
5.2k
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
zaimy
1
530
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 / Inside Story of Data Infrastructure Supporting GMO Pepabo's Services and R&D
zaimy
1
1.6k
ECサイトにおける閲覧履歴を用いた購買に繋がる行動の変化検出 / Change Detection in Behavior Followed by Possible Purchase Using Electronic Commerce Site Browsing History
zaimy
1
830
trinity で Cloud Composer に ワークフローを簡単デプロイ / Easy workflow deployment to Cloud Composer with trinity
zaimy
0
810
ハンドメイド作品を対象としたECサイトにおける大量生産品の検出 / Detection of Mass-produced Goods at EC Site to Trade Handmade Goods
zaimy
3
4.6k
キャリアキーノート2018 / Career Keynote 2018
zaimy
1
2.1k
ウェブサービスにおける行動ログ活用基盤を通したデータ駆動マーケティングの実践 / Practice of data driven marketing using behavior log foundation system on web service
zaimy
8
2.6k
Other Decks in Technology
See All in Technology
rootlessコンテナのすゝめ - 研究室サーバーでもできる安全なコンテナ管理
kitsuya0828
3
380
CysharpのOSS群から見るModern C#の現在地
neuecc
1
3.1k
いざ、BSC討伐の旅
nikinusu
2
780
AIチャットボット開発への生成AI活用
ryomrt
0
170
Amazon CloudWatch Network Monitor のススメ
yuki_ink
1
200
これまでの計測・開発・デプロイ方法全部見せます! / Findy ISUCON 2024-11-14
tohutohu
3
360
Shopifyアプリ開発における Shopifyの機能活用
sonatard
4
250
安心してください、日本語使えますよ―Ubuntu日本語Remix提供休止に寄せて― 2024-11-17
nobutomurata
0
980
OCI Vault 概要
oracle4engineer
PRO
0
9.7k
Lambdaと地方とコミュニティ
miu_crescent
2
370
Why does continuous profiling matter to developers? #appdevelopercon
salaboy
0
180
データプロダクトの定義からはじめる、データコントラクト駆動なデータ基盤
chanyou0311
2
280
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
65
4.4k
How to Ace a Technical Interview
jacobian
276
23k
Navigating Team Friction
lara
183
14k
A better future with KSS
kneath
238
17k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Facilitating Awesome Meetings
lara
50
6.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Designing for Performance
lara
604
68k
Transcript
1 正則化と ロジスティック回帰 ペパボ研究所 財津大夏 新卒研修 機械学習入門 補足資料 #04 #05
2 2 正則化 ロジスティック回帰
3 正則化 Section 1 3 Regularization
4 Machine Learning Crash Course says... 4 > this generalization
curve shows that the model is overfitting to the data in the training set. > we could prevent overfitting by penalizing complex models, a principle called regularization. Regularization for Simplicity - Machine Learning Crash Course
5 回帰におけるモデルの複雑度 5 特徴量が1次元のデータセット - モデル(線形関数)は直線 - 既知のデータをそこそこ説明出来る - 未知のデータに頑健
- モデルの複雑度が低い
6 回帰におけるモデルの複雑度 6 特徴量が多次元のデータセット - データ数 < 特徴量の次元数の場合既 知のデータを完全に説明できる -
未知のデータに脆弱 - モデルの複雑度が高い Overfitted Data.png - Wikimedia Commons
7 特徴量が多次元のデータセットの回帰 7 Boston Housing データセット - データポイント506個 - 特徴量13個
- Feature Crossで103個に - training loss が下がっている - 既知のデータを推論できる - validation loss が上がっている - 未知のデータを推論できない パラメータが過剰適合(過学習)した 汎化性能が低いモデル
8 正則化 8
9 過学習を防ぐためのアプローチ 9 - 過学習したモデルはトレーニングデータに過剰適合したパラメータを持つ - 誤差関数にトレーニングデータ以外の制約を加えて過学習を防ぐ - 特徴量のパラメータ自体を小さくするように学習させる -
パラメータの大きさはノルムで表現できる w1 w2 L1ノルム L2ノルム n=2 のとき
10 誤差関数にパラメータのノルムを加える 10 - 誤差関数に制約条件を加える a. トレーニングデータに対する推論の誤差を小さくする(既存の条件) b. パラメータのノルムを小さくする -
個別の特徴量が出力に与える影響が小さくなる - トレーニングデータに対する性能が下がるが汎化性能が上がる - L2ノルムで正則化するとリッジ回帰(Ridge Regression) - L1ノルムで正則化するとラッソ回帰(Lasso Regression) 制約条件a 制約条件b
11 L2正則化した誤差関数の導関数 11
12 L2正則化による誤差とパラメータの分布の変化 12
13 L1正則化による誤差とパラメータの分布の変化 13
14 まとめ - 正則化によりモデルの複雑度を下げて汎化性能を上げる - L2正則化とL1正則化 - L2正則化 - パラメータの絶対値が小さくなる
- 解析的に解ける(微分可能) - L1正則化 - パラメータの一部が0になる - 特徴量選択に利用できる - 解析的に解けないので推定で求める - L2正則化とL1正則化を組み合わせた ElasticNet もある - いずれかの正則化が常に優れているということはない 14
15 ロジスティック回帰 Section 2 15 Logistic Regression
16 - y' と x の間に線形関係を仮定 - 数値データから数値データを 推論するのが線形回帰 線形回帰のおさらい
16
17 線形回帰の拡張 17 現実にはカテゴリデータの y が存在 - 犬が吠える/吠えない - 都道府県
機械学習ではカテゴリデータを マッピングした数値データを扱う - 犬が吠える/吠えない = 1/0 - 都道府県 = 0 ~ 46
18 カテゴリデータをマッピングした y を線形回帰すると... 18 都道府県 { y ∈ N
| 0 ≦ y ≦ 46 } の場合 x の値によって y' ≧ 47 になる - カテゴリデータ y の値は x の値により 線形に変化しない - カテゴリデータをマッピングした 数値に数値としての意味はない - カテゴリデータは線形回帰できない
19 やりたいこと 19 カテゴリデータで表現される y を推論したい ロジスティック回帰の方針 1. 事象が起きる確率
p を出力する 2. p を任意の閾値と比較することで y' を推論する
20 やりたいこと 20 線形回帰の出力である実数を確率にしたい ロジスティック関数 g(x) を使って実数 x を
0 < g(x) < 1 に押し込める
21 シグモイド関数 21 - ロジスティック回帰の出力である確率 - 0から1の範囲を取る値 - ロジスティック関数の x
に線形回帰の y' をとったもの - 閾値と比較して分類に用いる - 閾値0.5, p=0.8のときの推論は 「犬が吠える」 Logistic-curve.png - Wikimedia Commons
22 ロジスティック回帰の誤差関数(1) 22 - ロジスティック回帰の y はカテゴリデータ - y の変化量が定まらないので最小二乗法が使えない
- 数値 x が1変化した時のカテゴリ y の変化量? - 二値のカテゴリ変数は確率変数 k をとるベルヌーイ分布に従う - 「ある事象が起きる」/「起きない」 - 多値分類の場合はある値とそれ以外の値の二値分類の組み合わせ
23 ロジスティック回帰の誤差関数(2) 23 - 最小二乗法ではなく最尤法を使う - 最も尤もらしい確率分布を求める - パラメータθに従う確率分布にデータが従っている度合いが尤度 -
尤度関数 L(θ) の対数を取って和の形にする(対数尤度関数)
24 まとめ 24 - ロジスティック回帰ではカテゴリデータを扱うために線形回帰を拡張する - 線形回帰の出力をロジスティック関数で変換して確率として扱う - ロジスティック関数の x
に線形回帰の出力を取るシグモイド関数 - 出力される確率に閾値を定めて分類問題に利用する - ロジスティック回帰のパラメータθは最尤法により求める - 数値 x が1変化した時のカテゴリ y の変化量を求めづらいため - 機械学習では負の対数尤度を誤差として利用する