ふんわり理解するロジスティック回帰

ロジスティック回帰総合理⼯学研究科エレクトロニクス系⼯学研究室⼤規模情報処理システム研究室⼭本瑛悟

話すことロジスティック回帰についてシグモイド関数についてパラメータの最適化について

ロジスティック回帰とはロジスティック回帰について • ロジスティック回帰は基本的にはニ値分類に使⽤される • 「回帰」と呼ばれているが実際は「分類」である。回帰と分類 • 分類：離散値を出⼒する（クラスとかカテゴリとか） •
回帰：連続値を出⼒する（テストの点数とか売り上げとか）

線形回帰とロジスティック回帰線形回帰とロジスティック回帰の⼤きな違い • 線形回帰：(連続値である)予測値を出⼒する • ロジスティック回帰：発⽣確率を出⼒する例）線形回帰：Aさんのテストの点数を予測ロジスティック回帰：Aさんがテストに合格するかを予測

重回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦
= 𝑓(𝑥) 𝑥! : ⼊⼒ 𝑏! : ⼊⼒に対する重み 𝑦: 出⼒ 𝑧 = 𝑏 + * !"# $ 𝑤! 𝑥! 𝑥 𝑦 𝑓(𝑥)

ロジスティック回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦
= 𝑓(𝑥) 𝑥! : ⼊⼒ 𝑏! : ⼊⼒に対する重み 𝑓(𝑥): 出⼒ 𝑓(𝑧): (標準)シグモイド関数 𝑧 = 𝑏 + * !"# $ 𝑏! 𝑤! 𝑓(𝑧) 活性化関数

シグモイド関数 • シグモイド関数の出⼒は 0~1の間に収まる → 確率として解釈例) • ある学⽣のテストの得点𝑥に対して線型結合を⾏う。 •
シグモイド関数を適⽤して、合格する確率を計算する。 𝑓(𝑧) = 1 1 + 𝑒"#

シグモイド関数の理解オッズ • ある事象が起こる確率と起こらない確率の⽐ → ある事象の起こりやすさ • 事象が起こる確率を𝑝とした場合以下の式で表される 𝑝 1
− 𝑝

シグモイド関数の理解試験の合否のオッズを考える。試験に合格：𝑝 試験に不合格：1 − 𝑝 𝑝 1 − 𝑝
合格数 1 8 不合格数 8 1 オッズ 0.125 𝟏 𝟖 8

シグモイド関数の理解試験の合否のオッズを考える。試験に合格：𝑝 試験に不合格：1 − 𝑝 𝑝 1 − 𝑝
合格数 1 8 不合格数 8 1 オッズ 0.125 𝟏 𝟖 8 1 2 < 𝑝 0 ≤ 𝑝 ≤ 1 2 ：(1, +∞) ： [0, 1]

シグモイド関数の理解ロジット変換(ロジット関数） 𝑦 = log 𝑝 1 − 𝑝 •
対数関数を使うと尺度を合わせることができる → 対数を取ると対称性が出るので⽐較しやすくなる勝利数 1 8 敗北数 8 1 ロジット関数 -2.0794 2.0794

線形回帰とロジスティック回帰線形回帰とロジスティック回帰の⼤きな違い • 線形回帰：(連続値である)予測値を出⼒する • ロジスティック回帰：発⽣確率を出⼒する例）線形回帰：Aさんのテストの点数を予測ロジスティック回帰：Aさんがテストに合格するかを予測

(標準)シグモイド関数の理解ロジット関数の逆関数を取る 𝑦 = log 𝑝 1 − 𝑝 𝑒%
= 𝑝 1 − 𝑝 (1 − 𝑝)𝑒% = 𝑝

(標準)シグモイド関数の理解 𝑦 = log 𝑝 1 − 𝑝 𝑒$ =
𝑝 1 − 𝑝 (1 − 𝑝)𝑒$ = 𝑝 𝑒% = 𝑝(1＋𝑒%) 𝑝 = 𝑒% 1 + 𝑒% 𝑝 = 𝑒% 3 𝑒&% 1 3 𝑒&% + 𝑒% 3 𝑒&% 𝑝 = 1 𝑒&% + 1

ロジスティック回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦
= 𝑓(𝑥) 𝑥! : ⼊⼒ 𝑏! : ⼊⼒に対する重み 𝑓(𝑥): 出⼒ 𝑓(𝑧): (標準)シグモイド関数 𝑧 = 𝑏 + * !"# $ 𝑤! 𝑥! 𝑓(𝑧) 活性化関数 𝑓(𝑧) = 1 1 + 𝑒"#

パラメータの最適化 • ロジスティック回帰では最尤推定法を⽤いる。 • 最尤推定法は確率論的モデルのパラメータを変化させて、観測データにもっともよくあてはまるところを探索する⼿法。例） • 1~100の実数の⽬が出る不思議なサイコロを10回降る •
正規分布に従うと仮定 • このサイコロはどんな⽬を出しやすい？出しにくい？

パラメータの最適化 𝑓 𝑥 = 1 2𝜋𝜎! 𝑒𝑥𝑝 − 𝑥 −
𝜇 ! 2𝜎! 正規分布の確率密度関数 𝑥! : ⼊⼒ 𝜇: 平均 𝜎$: 標準偏差 𝐿 𝜇, 𝜎! = 9 %&" "' 1 2𝜋𝜎! 𝑒𝑥𝑝 − 𝑥% − 𝜇 ! 2𝜎! 尤度関数

パラメータの最適化 𝑥! : ⼊⼒ 𝜇: 平均 𝜎": 標準偏差 𝐿 𝜇,
𝜎" = . !#$ $% 1 2𝜋𝜎" 𝑒𝑥𝑝 − 𝑥 − 𝜇 " 2𝜎" 尤度関数 𝜇と𝜎$を調整して最も尤度が⾼くなるものを選ぶ！

シグモイド関数の理解オッズ • ある事象が起こる確率と起こらない確率の⽐ → ある事象の起こりやすさ • 事象が起こる確率を𝑝とした場合以下の式で表される 𝑝 1
− 𝑝

(標準)シグモイド関数の理解 𝑦 = log 𝑝 1 − 𝑝 𝑒$ =
𝑝 1 − 𝑝 (1 − 𝑝)𝑒$ = 𝑝 𝑒% = 𝑝(1＋𝑒%) 𝑝 = 𝑒% 1 + 𝑒% 𝑝 = 𝑒% 3 𝑒&% 1 3 𝑒&% + 𝑒% 3 𝑒&% 𝑝 = 1 𝑒&% + 1

最尤推定法 𝐿 𝑤, 𝑏 = & !"# $ 𝑝 !
%% 1 − 𝑝! #&%% 尤度関数 𝑥! : ⼊⼒ 𝑦! : ⼊⼒{0, 1} 𝑝! : シグモイド関数の出⼒ log 𝐿 𝑤, 𝑏 = log & !"# $ 𝑝 ! %% 1 − 𝑝! #&%% log 𝐿 𝑤, 𝑏 = - !"# $ 𝑦! log 𝑝! − 1 − 𝑦! log 1 − 𝑝! （ロジスティック回帰はベルヌーイ分布を仮定）

最尤推定法 • パラメータがどれだけモデルを説明できているか → モデルの予測が実際のラベルからどれだけ離れているか • クロスエントロピー誤差と呼ばれる。 • 解析的に解くことができない 𝐽
𝑤, 𝑏 = − log 𝐿 𝑤, 𝑏 = − - !"# $ 𝑦! log 𝑝! − 1 − 𝑦! log 1 − 𝑝!

パラメータの最適化前スライドの式は解析的に解けない → 勾配降下法などの数値解析的なアプローチ勾配降下法 • ⽬的関数の勾配（微分）を利⽤して、関数が最も急速に減少する⽅向を探索するアプローチ • 最急降下法
• SGD • Adam

パラメータの最適化最適化したいパラメータは 𝑤, 𝑏の⼆つなのでそれぞれについて微分する。 𝐽 𝑤, 𝑏 = − <
%&" # 𝑦% log 𝑝% − 1 − 𝑦% log 1 − 𝑝% 𝑤 ≔ 𝑤 − 𝜂 𝜕𝐽 𝜕𝑤 𝑏 ≔ 𝑏 − 𝜂 𝜕𝐽 𝜕𝑏 𝜂: 学習率

パラメータの最適化 𝑓 𝑥 = 𝑥 − 2 ! + 1
𝜕𝑓 𝜕𝑥 = 2(𝑥 − 2) 初期値 𝑥 = 5, 𝜂 = 0.8 𝑥5 = 𝑥 − 𝜂 A 2(𝑥 − 2) 𝑥5 = 5 − 0.8 A 2 5 − 2 𝑥5 = 0.2

パラメータの最適化 𝜂 = 0.8 𝜂 = 0.2

おわりおさらい • ロジスティック回帰は確率を出⼒する。 → シグモイド関数によって0~1の実数値を出⼒ • 最尤推定法、勾配降下法を⽤いてパラメータを最適化

ふんわり理解するロジスティック回帰

ふんわり理解するロジスティック回帰

Yamamoto

More Decks by Yamamoto

Other Decks in Technology

Featured

Transcript

ロジスティック回帰総合理⼯学研究科エレクトロニクス系⼯学研究室⼤規模情報処理システム研究室⼭本瑛悟

話すことロジスティック回帰についてシグモイド関数についてパラメータの最適化について

話すことロジスティック回帰についてシグモイド関数についてパラメータの最適化について

重回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦

ロジスティック回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦

話すことロジスティック回帰についてシグモイド関数についてパラメータの最適化について

シグモイド関数 • シグモイド関数の出⼒は 0~1の間に収まる → 確率として解釈例) • ある学⽣のテストの得点𝑥に対して線型結合を⾏う。 •

シグモイド関数の理解オッズ • ある事象が起こる確率と起こらない確率の⽐ → ある事象の起こりやすさ • 事象が起こる確率を𝑝とした場合以下の式で表される 𝑝 1

シグモイド関数の理解試験の合否のオッズを考える。試験に合格：𝑝 試験に不合格：1 − 𝑝 𝑝 1 − 𝑝

シグモイド関数の理解試験の合否のオッズを考える。試験に合格：𝑝 試験に不合格：1 − 𝑝 𝑝 1 − 𝑝

シグモイド関数の理解ロジット変換(ロジット関数） 𝑦 = log 𝑝 1 − 𝑝 •

(標準)シグモイド関数の理解ロジット関数の逆関数を取る 𝑦 = log 𝑝 1 − 𝑝 𝑒%

(標準)シグモイド関数の理解 𝑦 = log 𝑝 1 − 𝑝 𝑒$ =

話すことロジスティック回帰についてシグモイド関数についてパラメータの最適化について

ロジスティック回帰 ⋯ 𝑥! 𝑥" 𝑥# ∑ 𝑤" 𝑤! 𝑤# 𝑦

パラメータの最適化 𝑓 𝑥 = 1 2𝜋𝜎! 𝑒𝑥𝑝 − 𝑥 −

パラメータの最適化 𝑥! : ⼊⼒ 𝜇: 平均 𝜎": 標準偏差 𝐿 𝜇,

シグモイド関数の理解オッズ • ある事象が起こる確率と起こらない確率の⽐ → ある事象の起こりやすさ • 事象が起こる確率を𝑝とした場合以下の式で表される 𝑝 1

(標準)シグモイド関数の理解 𝑦 = log 𝑝 1 − 𝑝 𝑒$ =

最尤推定法 𝐿 𝑤, 𝑏 = & !"# $ 𝑝 !

最尤推定法 • パラメータがどれだけモデルを説明できているか → モデルの予測が実際のラベルからどれだけ離れているか • クロスエントロピー誤差と呼ばれる。 • 解析的に解くことができない 𝐽

パラメータの最適化前スライドの式は解析的に解けない → 勾配降下法などの数値解析的なアプローチ勾配降下法 • ⽬的関数の勾配（微分）を利⽤して、関数が最も急速に減少する⽅向を探索するアプローチ • 最急降下法

パラメータの最適化最適化したいパラメータは 𝑤, 𝑏の⼆つなのでそれぞれについて微分する。 𝐽 𝑤, 𝑏 = − <

パラメータの最適化 𝑓 𝑥 = 𝑥 − 2 ! + 1

パラメータの最適化 𝜂 = 0.8 𝜂 = 0.2

おわりおさらい • ロジスティック回帰は確率を出⼒する。 → シグモイド関数によって0~1の実数値を出⼒ • 最尤推定法、勾配降下法を⽤いてパラメータを最適化