線形回帰の実装

線形回帰の実装 ssklearnPJ [B1]Takahashi Kaisei @kai_ds04

Index 1. 改めて「学習」について 2. 線形回帰による単回帰 3. 線形回帰による重回帰 4. 多項式回帰

1.1 「学習」について学習：データから知識を抽出し，数理モデルにその知識を蓄積する作業．帰納的な手法．パラメータを最適化することとも言える．数理モデル：ある現象を数式で記述したもの．とりあえず関数と捉えてもいい．機械学習モデル：数理モデルの中で，パラメータを学習によって自動で求めるもの．知識：情報から規則性や見解などを導出したもの．
パラメータ：モデルの振る舞いや出力を決定づける調整可能な数値．例：数理モデルの係数など．

2.1 単回帰とは単回帰(simple linear regression)とは， 1つの説明変数から1つの連続値を予測すること．今回は単回帰を線形回帰で解く． (非線形な単回帰もある)

2.2 線形回帰(単回帰) 線形回帰とは，ある二つの変数の関係を一次式で表したもの． ※統計において，頭に^(hat)がつく記号は予測値を表す． xは説明変数で，yは目的変数である．

2.2 線形回帰(単回帰) ここで，aとbはパラメータである．これらを機械学習によって求めたい． Q：では，どんなa, bが良いだろうか？

2.3 学習の目標 A：モデルの出力(予測)が適切になるようなa, bがいい．適切とは？→ 「正解」に近いこと．正解との差(残差，損失)をできる限り小さくしたい．{それが近いということそのような状態をまず図で理解しよう．

2.3 学習の目標例として，気温とアイスの売り上げという二つの変数について考える．データを集めたところ，図のようになった．この二つには線形な関係(直線, 一次式)があると言えそう． →線形回帰でモデル化しよう．

2.3 学習の目標線形回帰を学習させることは，この図に一本の直線を引くことを意味する．さて，どのような直線が良いだろう．

2.3 学習の目標何となくこんなのがいいんじゃないかと思う．この何となくを明確にすると，「残差が小さい」となる．

正解との差（の合計）グラフの点線が残差( )を表す．点線の長さの合計(残差)を小さくすることでモデルの出力(予測)が適切になる． 2.4 残差とはは入力と実測値のペアを表す．は入力と予測値のペアを表す．

実際に残差を最小にするとこうなる． 2.4 残差とは

残差を最小にするという目的を数学的に記述する． 2.5 数学的に表す

と，その前に...

2.5.1 平均の表し方数式の記述の前に，これから登場する平均の表記法について解説する．例：のようにデータがある．（xの集合を表す）これは「i が1〜Nまでのを合計する」→ これは「の合計を
の個数で割る」→ 要は平均と全く同じなのだ．今後全く同じ式が出てきたら，平均を表しているのだと瞬時に理解しよう.

残差をとして表す． e = じゃあこれを最小化しよう！といきたいのだけれど，これだとちょっと数学的に扱いづらいので，変更を加える． 2.5 数学的に表す

2.6 二乗残差和って？残差の最小化に欠かせないのが二乗残差和である．これが二乗残差和の式文字通り残差の二乗の和を表す，二乗することで扱いやすくなる．このような残差を計測する関数を損失関数と言う．

一旦整理する 1. 我々は，モデルの出力(予測)が適切になるa, bが欲しい． 2. 適切である状態とは残差が最小である状態である． 3. 残差を最小にするa, bを求めよう．←イマココ ex
ここまでのまとめ

ということで，残差を最小化しよう．今回の二乗残差和を最小化する方法は，特別に最小二乗法と言ったりする． 2.7 最小二乗法

二乗残差和を最小化しよう．二乗残差和の式，これをグラフに表す．二乗残差和には二乗がついているので aについてもbについても二次式(下に凸) この点のときのa, bがわかれば良さそう. 2.7 最小二乗法グラフで最小の点は一番下のところを代入すると…

求めたいのはaとb．グラフの下の地点は接線の傾きが０になるからから式をaとbそれぞれについて偏微分して＝０で解けば求まりそう． ※微分すると，グラフの接線の傾きの式になる．それを＝０で解くと，接線の傾き＝０のときのパラメータがわかる． 2.7 最小二乗法

2.7 最小二乗法を代入代bについて微分，=0で解く． Nで割る次はaについて求めていこう．

2.7 最小二乗法代入後の式 aについて偏微分，=0で解く Nで割る得られた式にbを代入しよう．

2.7 最小二乗法さっき得られた式を代入 aについての式 ※

パラメータについての式がもとまったということは，これでもう単回帰を実装できるはず． 2.8 実装してみようモデルパラメータ (次スライドに答え)

答え． 2.8 実装してみよう class SimpleLinearRegression(): def fit(self, x, y): var_x,
cov = np.cov(x, y)[0] bar_x = x.mean() bar_y = y.mean() self.a = cov / var_x self.b = bar_y - self.a * bar_x def predict(self, x): y = self.a * x + self.b return y

3.1 重回帰とは重回帰(mlutiple linear regression)とは，複数の説明変数から1つの連続値を予測すること．単回帰との違い今回は重回帰を線形回帰で解く．

3.2 説明変数, 目的変数の確認複数の説明変数とはどういうことか．そして複数の説明変数を行列に表し，目的変数をベクトルでおく．これもどういうことか確認しよう．

3.2.1 説明変数の確認説明変数について赤枠のような対応をイメージ． ※Xは行列である． ※今回id列は無視する．

3.2.2 目的変数の確認目的変数について赤枠のような対応をイメージ． ※yはベクトルである．

3.3 線形回帰(重回帰) 重回帰では，複数の変数の関係を以下のようにモデル化する．説明変数がd次元に増えたのでそれに応じてパラメータも増えている．では，これをもっと美しく表記しよう．

bが一個だけ飛び出しているようで邪魔である，そして実はbがあるとこの後の操作がやりづらい．よってbをのなかに納める． ※ 式の意味は変えることなく綺麗に表記できた． aは重み(weight)と呼ばれることが多いのでwに置き換えておく． 3.3 線形回帰(重回帰)

3.3 線形回帰(重回帰) さて，式がある程度綺麗になってきたが，できればもっと簡単に表記したい．の式をwとxを分けて考える. ※wもxもそれぞれd+１次元のベクトル．( を追加したので１次元増えている) このように分けて考えることができる．二つのベクトルをを用いて表すとと表記できる．
※ は内積を表す．分けると

3.4 最小二乗法予測値が決まったので，単回帰のときと同様に残差を最小化することを考える. 重回帰でも最小二乗法で適切なを求めることができる．

3.4 最小二乗法二乗残差和をと表す．に先ほどのを代入これもよいが，行列を用いるともっと簡潔に書くことができる．

3.5 って何者？おっと，ってなんだ？まず，この式全体の説明の前にについて説明する．

まず，予測値を並べたベクトルとしてを考える．と定義できる． 3.5 って何者？ ※０列目の要素は全て１である．

はもう確認済み．この式は，サンプル一個ずつについて表している．もう一度確認しよう． 3.5 って何者？ ※０列目の要素は全て１である．

二個目のサンプルに対しても同じ． 3.5 って何者？ ※０列目の要素は全て１である．

3.5 って何者？ N個目のサンプルに対しても同じ．いま各サンプルについて確認したが，サンプル全体を表そうとするとになる． ※０列目の要素は全て１である．

求めたい二乗残差和は，の各要素の二乗和である． 3.5 って何者？

ここで，ベクトルの各要素の二乗和はL２ノルムの二乗として表せる． L２ノルムはしたがって，これを二乗することで二乗和となる. よって，のL２ノルムの二乗が二乗残差和となる．予測値を並べたベクトル. はで表せるため, となる．
3.5 って何者？例：

3.6 最小二乗法が最小になるを求める．単回帰同様，各について二次式なので微分して０になる点を求めることで最小値が求められる．単回帰同様，と各要素について偏微分してそれぞれを＝０で解く．では解いていく．

3.6 最小二乗法さっきの式をまず展開する．このように変形できる．そしてこの式をについて偏微分していく．

3.6 最小二乗法偏微分すると，以下のような式になる．この式を＝０で解く．この式は正規方程式と呼んだりする．

解くための材料は揃った．解けるはず．モデルパラメータ 3.7 実装してみよう (次スライドに答え)

3.7 実装してみよう答え． class LinearRegression(): def fit(self, X, y): X
= np.insert(X, 0, 1, axis=1) self.w = np.linalg.inv(X.T @ X) @ X.T @ y def predict(self, X): X = np.insert(X, 0, 1, axis=1) return X @ self.w

4.1 多項式回帰とは多項式回帰とは直線では表現しきれない変数の関係を多項式で表現する線形回帰モデルである．

4.2 多項式での表現説明変数一つの状況でも，累乗した項を新たな説明変数として加えて重回帰として解くことで以下のように表現できる． ↓説明変数を二乗した項を加えた ↓説明変数を三乗した項も加えた

どのようにしてこれを実現しているのだろうか？

4.3 式での多項式の表現二次関数で表現するには説明変数を二乗したものを加えるだけでいい．同様にして，三次関数で表現するには三乗した項も加える．もっと表現を広げたいなら以下のようにする．シグマを使うとこう

参考文献岡崎直観, 機械学習帳, https://chokkan.github.io/mlnote/regression/01sra.html, ( ２０２４/４/２６)

線形回帰の実装

線形回帰の実装

More Decks by kaise

Featured

Transcript