「カーネル法入門」の1章入門

福水健次(2010). カーネル法入門―正定値カーネルによるデータ解析 (シリーズ多変量データの統計科学). 朝倉書店. Chihiro Mihara 「カーネル法入門」の1章入門テキスト
https://www.amazon.co.jp/exec/obidos/ASIN/4254128088/ ※ 上のテキストの1章の流れに沿っていますが付け足している話もあります。テキストの解釈の誤りや付け足した話の変なところは自分に帰属します。

カーネル法って何 2 正定値カーネルの定める再生核ヒルベルト空間を用いたデータ解析の方法論（テキストのまえがきより） • 正定値カーネル → わからない • の定める再生核ヒルベルト空間
→ わからない • データ解析 → わからない＿人人人人人人人＿＞わからない＜￣Y^Y^Y^Y^Y^Y￣

データを解析（分析）するって何 3 https://en.wikipedia.org/wiki/Data_analysis → 「有用な情報を発見したり、何か結論付けたり、何かの判断材料にしたりすることを目的に、データを調べて、きれいにして、変換して、モデリングすること。」 → わからない →
具体例をみる。 → テキスト1章の最初に載っているデータ解析の具体例は、 1. 主成分分析 2. 線形回帰

4 = 1 1 1 2 ⋯ 1 ⋮ 1
⋮ 2 ⋱ ⋯ ⋮ 変数1 変数2 … 変数m レコード1 何か実数値何か実数値 … 何か実数値レコード2 何か実数値何か実数値 … 何か実数値 … … … … … レコードN 何か実数値何か実数値 … 何か実数値 ※ これ以降、データはこれくらいにはきれいにしてあることにする。 ※ また、これを以下のような行列で表してデータ行列とよぶことにする。さらに、i 番目のレコードを以下のようなベクトルで表すことにする。 = 1 ⋮ ∈ ℝ 具体例の前に

例1. 主成分分析（絵でいうと） 5 Var ≈ 0.229 Var ≈ 0.209 Var
≈ 0.160 元データ • 元データがある。 • どこかを向いたベクトルに元データを垂直にべちゃっとくっつける。 • くっつけて1次元に生まれ変わったデータが一番分散しているようなベクトルの向きを求める。これ

例1. 主成分分析（日本語でいうと） 6 • データの空間に以下のような順序付き基底（第1主軸、第2主軸、 …とよぶ）を取り直したい。この順序付き基底を求めること。 ‐ 第1主軸は、各データをその軸に正射影した1次元データ（第1主成分）の分散が最大になるような方向にとる。 ‐
第2主軸は、各データから「第1主成分×第1主軸方向単位ベクトル」を取り除いた上で、同じようにデータの分散が最大になるような方向に取る（ので第1主軸と直交する）。 ‐ 第3主軸以降も同様（それまでの軸と直交する）。 • 何を目的にこんなことをするのかというと、 ‐ 「変数が m 個だと多いので m’個に減らしたい。でも減らした後もなるべくデータのばらつきを損なわないようにしたい」というときに第1～m’主成分を新たな変数とする。 • だからなぜ変数を減らしたいのかというと、計算資源の都合とか、データの生成メカニズムについて理解を得るために主成分を取りたいとか。多分。

例1. 主成分分析（数式でいうと） 7 max Var s. t. = 1 ⇔
max 1 ෍ =1 − 1 ෍ =1 2 s. t. = 1 ⇔ max 1 ෍ =1 − 1 ෍ =1 − 1 ෍ =1 s. t. = 1 ⇔ max 1 ෍ =1 − 1 ෍ =1 2 s. t. = 1 第1主軸方向を表す単位ベクトルは、さっきの要請からするとこう。 ⇔ max s. t. = 1 標本分散共分散行列 V u に正射影したデータの分散が最大になるような u が知りたい

例1. 主成分分析（数式でいうと） 8 max s. t. = 1 後はラグランジュ未定乗数法で解く。ラグランジュ関数を以下とする。 ,
= − − 1 ⟹ , = − ⇔ , = 2 − 2 , = 0 ⟺ = より、最大化問題の解はを満たす。またこのとき、で、これを最大化したいので、 = = つまり、はの固有ベクトルである。はの最大固有値に対応する固有ベクトルである。

例2. 線形回帰（絵でいうと） 9

例2. 線形回帰（日本語でいうと） 10 • データ X とレコード数が同じで1変数のみからなるデータ Y があるとする。X i
を入れたら Y i が出てくる箱がなんかほしい。そんな箱を得る方針として、Y i = aTX i +ε i が成り立つようなパラメータベクトル a を求めること。 ‐ ただし、誤差ε i の2乗和が最小になるような a を求めることにする（本当は線形回帰とだけいったとき、誤差2乗和を最小化するとは限らないが、誤差2乗和を最小化することが多い。多分）。 • 何を目的にこんなことをするのかというと、未知データ X N +1 に対応する Y N +1 を予測したいときにこんなことをするはず。もちろん予測でなくても回帰分析を通してデータの生成メカニズムへの知見を得たいとかもあると思う。

例2. 線形回帰（数式でいうと） 11 min ෍ =1 − 2 ෍ =1
− 2 = 2 ෍ =1 − = 2 ෍ =1 − 2 ෍ =1 = 2 − 2 2 − 2 = 0 ⇒ = −1 を達成するが知りたい。これが0だから、 ※ 逆行列があるとは限らない • データの次元数＞レコード数のとき • データが線型従属なときは a を特定できないのでなんか制約を追加してね！

ここまででわかったこと 12 データ解析とは、「データ中のある変数がどう変化したら別のある変数がどう変化するか」を明らかにする（あるいは明らかにした上でそれを利用して次元削減など別の目的を達成する）活動のような気がする（個人的に）。どう変化したらどう変化するどう変化したら
どう変化するかのまとめ（分散共分散行列）最大固有値に対応する固有ベクトル

ここまででわかったこと 13 特に、ここまででみた基礎的なデータ解析の方法では、 ① 「ある変数がどう変化したら別のある変数がどう変化するか」は線形な関係のみ扱う。 • 主成分分析は変数間の共分散（線形な依存関係）に基づく。 • 線形回帰のモデルは線形である。
② 最終出力を得るために、データ行列 X に対して X TX の固有値分解をしたり逆行列を求めたりする。 • 主成分分析は V を固有値分解したものが求める解。 • データの平均がゼロベクトルだったらV = X TX 。 • 線形回帰のパラメータベクトルの解には (X TX )-1 が必要。 ※ 無論非線形な関係を扱うデータ解析の方法（ニューラルネットワークや決定木など）もあるが、いまは脇に置いておく。

線形な関係のみだと困るケース 14 1 , 2 = 0 + 1 1
+ 2 2 というモデルで、図の青い点が0、赤い点が1になるよう回帰したい。 → このモデルでは原点付近だけ小さくすることができない。変数 1 と変数 2 が独立かそうでないかを相関係数（線形な依存関係）で測りたい。 → 相関係数はとても小さいが、 2変数が無関係にはみえない。相関係数 -0.012

解決策 15 変数間の線形な関係しか扱えないなら、元の変数に非線形な写像を適用したのを新しい変数たちとして採用すればいいのでは？変数1 変数2 … 変数m レコード1
＊＊ … ＊レコード2 ＊＊ … ＊ … … … … … レコードN ＊＊ … ＊変数12 変数22 … 変数1×変数2 … レコード1 ＊＊ … ＊ … レコード2 ＊＊ … ＊ … … … … … … … レコードN ＊＊ … ＊ … 適当な非線形変換特徴空間こっちをデータ解析元データ

実際解決する 16 相関係数 0.977 1 , 2 = መ Φ
1 , 2 = መ 1 2 + 2 2 のように新しい変数 Φ 1 , 2 = 1 2 + 2 2 の空間（特徴空間）にもっていけば መ は線形で足りる。新しい変数 Φ 1 = 1 2 と 2 との相関を取れば強い依存関係があることがわかる。

解決策の問題点 17 あらゆる高次項を考慮したいとなると特徴空間の次元数がどんどん大きくなる。データ解析では次元数×次元数のサイズの行列を固有値分解したり逆行列を求めたりしないといけないのでこれはきつい。

とにかく特徴空間を考える 18 不安な点はあるがとにかく特徴空間と特徴空間への写像（特徴写像） Φ: Ω → を考えて特徴空間でのデータ解析を考えていく。
• はベクトル空間とする。 • には何か内積 ∙,∙ が入っているとする。で主軸ベクトルに正射影したりパラメータベクトルに正射影したりすることになると思うのでないと困ると思う。 • Φ はデータの非線形な特徴をいい感じに引き出すものであってほしいけどよくわからないしいまは考えたくない。 • Φ は考えたくないが、での内積 ∙,∙ は求まらないと困りそうなので、これが , ′ = Φ(), Φ(′) なる関数で求まることにする。

特徴空間で主成分分析してみる 19 max Var s. t. = 1 max Var
, Φ s. t. = 1 データ空間のベクトル u が知りたい。特徴空間のベクトル f が知りたい。 Var , Φ = 1 ෍ =1 , Φ − 1 ෍ =1 Φ 2 ≡ 1 ෍ =1 , ෩ Φ 2 max 1 ෍ =1 , ෩ Φ 2 s. t. = 1 = ෍ =1 ෩ Φ 実はこの解は以下の形で探せばじゅうぶん。言い換えると、特徴空間の ෩ Φ =1 の張る部分空間の中で探せばじゅうぶん。 = ෍ =1 ෩ Φ + ⊥ もしそうでなく以下の形（⊥ ≠ 0）だったとすると、 ⊥ は内積に寄与しない上にノルムを食うのでじゃま。

特徴空間で主成分分析してみる 20 max 1 ෍ =1 , ෩ Φ 2
s. t. = 1 = ෍ =1 ෩ Φ max 1 ෍ =1 ෍ =1 ෩ Φ , ෩ Φ 2 s. t. ෍ =1 ෩ Φ = 1 max ෩ 2 s. t. ෩ = 1 f が知りたい。 → a が知りたい。 ෩ の中にデータは , = Φ( ), Φ( ) の形でしか出てこない。→ , さえ求まれば解ける。

特徴空間で線形回帰してみる 21

ここまででわかったこと 22 データ空間内の2点の、特徴空間における内積の値さえ評価できれば、特徴空間で主成分分析や線形回帰ができる。

まだわからないこと 23 ＞データ空間内の2点の特徴空間における内積の値さえ評価できれば、 k () として許されるのはどんな関数か？＞特徴空間で主成分分析や線形回帰ができる。
もっと一般に何ができるのか？ねたばれ： 55ページの（3.23）式。＿人人人人人人人人人人人人人人人＿＞つづきは2章以降を読んでね！＜￣Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y￣

「カーネル法入門」の1章入門

「カーネル法入門」の1章入門

CookieBox26

More Decks by CookieBox26

Other Decks in Science

Featured

Transcript

福水健次(2010). カーネル法入門―正定値カーネルによるデータ解析 (シリーズ多変量データの統計科学). 朝倉書店. Chihiro Mihara 「カーネル法入門」の1章入門テキスト

カーネル法って何 2 正定値カーネルの定める再生核ヒルベルト空間を用いたデータ解析の方法論（テキストのまえがきより） • 正定値カーネル → わからない • の定める再生核ヒルベルト空間

4 = 1 1 1 2 ⋯ 1 ⋮ 1

例1. 主成分分析（絵でいうと） 5 Var ≈ 0.229 Var ≈ 0.209 Var

例1. 主成分分析（数式でいうと） 7 max Var s. t. = 1 ⇔

例1. 主成分分析（数式でいうと） 8 max s. t. = 1 後はラグランジュ未定乗数法で解く。ラグランジュ関数を以下とする。 ,

例2. 線形回帰（絵でいうと） 9

例2. 線形回帰（日本語でいうと） 10 • データ X とレコード数が同じで1変数のみからなるデータ Y があるとする。X i

例2. 線形回帰（数式でいうと） 11 min ෍ =1 − 2 ෍ =1

線形な関係のみだと困るケース 14 1 , 2 = 0 + 1 1

解決策 15 変数間の線形な関係しか扱えないなら、元の変数に非線形な写像を適用したのを新しい変数たちとして採用すればいいのでは？変数1 変数2 … 変数m レコード1

実際解決する 16 相関係数 0.977 1 , 2 = መ Φ

解決策の問題点 17 あらゆる高次項を考慮したいとなると特徴空間の次元数がどんどん大きくなる。データ解析では次元数×次元数のサイズの行列を固有値分解したり逆行列を求めたりしないといけないのでこれはきつい。

とにかく特徴空間を考える 18 不安な点はあるがとにかく特徴空間と特徴空間への写像（特徴写像） Φ: Ω → を考えて特徴空間でのデータ解析を考えていく。

特徴空間で主成分分析してみる 19 max Var s. t. = 1 max Var

特徴空間で主成分分析してみる 20 max 1 ෍ =1 , ෩ Φ 2

特徴空間で線形回帰してみる 21

ここまででわかったこと 22 データ空間内の2点の、特徴空間における内積の値さえ評価できれば、特徴空間で主成分分析や線形回帰ができる。

まだわからないこと 23 ＞データ空間内の2点の特徴空間における内積の値さえ評価できれば、 k () として許されるのはどんな関数か？＞特徴空間で主成分分析や線形回帰ができる。