「カーネル法入門」の1章入門

68f09427f1f07e782003aff23700ec3b?s=47 CookieBox26
April 05, 2019

 「カーネル法入門」の1章入門

68f09427f1f07e782003aff23700ec3b?s=128

CookieBox26

April 05, 2019
Tweet

Transcript

  1. 1.

    福水健次(2010). カーネル法入門―正定値カーネルによるデータ 解析 (シリーズ 多変量データの統計科学). 朝倉書店. Chihiro Mihara 「カーネル法入門」の1章入門 テキスト

    https://www.amazon.co.jp/exec/obidos/ASIN/4254128088/ ※ 上のテキストの1章の流れに沿っていますが付け足している話もあります。テキスト の解釈の誤りや付け足した話の変なところは自分に帰属します。
  2. 4.

    4 = 1 1 1 2 ⋯ 1 ⋮ 1

    ⋮ 2 ⋱ ⋯ ⋮ 変数1 変数2 … 変数m レコード1 何か実数値 何か実数値 … 何か実数値 レコード2 何か実数値 何か実数値 … 何か実数値 … … … … … レコードN 何か実数値 何か実数値 … 何か実数値 ※ これ以降、データはこれくらいにはきれいにしてあることにする。 ※ また、これを以下のような行列で表してデータ行列とよぶことにす る。さらに、i 番目のレコードを以下のようなベクトルで表すこと にする。 = 1 ⋮ ∈ ℝ 具体例の前に
  3. 5.

    例1. 主成分分析(絵でいうと) 5 Var ≈ 0.229 Var ≈ 0.209 Var

    ≈ 0.160 元データ • 元データがある。 • どこかを向いたベクトル に元データを垂直にべ ちゃっとくっつける。 • くっつけて1次元に生まれ 変わったデータが一番分 散しているようなベクト ルの向きを求める。 これ
  4. 6.

    例1. 主成分分析(日本語でいうと) 6 • データの空間に以下のような順序付き基底(第1主軸、第2主軸、 …とよぶ)を取り直したい。この順序付き基底を求めること。 ‐ 第1主軸は、各データをその軸に正射影した1次元データ (第1主成分)の分散が最大になるような方向にとる。 ‐

    第2主軸は、各データから「第1主成分×第1主軸方向単位 ベクトル」を取り除いた上で、同じようにデータの分散が 最大になるような方向に取る(ので第1主軸と直交する)。 ‐ 第3主軸以降も同様(それまでの軸と直交する)。 • 何を目的にこんなことをするのかというと、 ‐ 「変数が m 個だと多いので m’個に減らしたい。でも減 らした後もなるべくデータのばらつきを損なわないように したい」というときに第1~m’主成分を新たな変数とする。 • だからなぜ変数を減らしたいのかというと、計算資源の都合とか、データ の生成メカニズムについて理解を得るために主成分を取りたいとか。多分。
  5. 7.

    例1. 主成分分析(数式でいうと) 7 max Var s. t. = 1 ⇔

    max 1 ෍ =1 − 1 ෍ =1 2 s. t. = 1 ⇔ max 1 ෍ =1 − 1 ෍ =1 − 1 ෍ =1 s. t. = 1 ⇔ max 1 ෍ =1 − 1 ෍ =1 2 s. t. = 1 第1主軸方向を表す単位ベクトル は、さっきの要請からするとこう。 ⇔ max s. t. = 1 標本分散共分散行列 V u に正射影したデータの分散が 最大になるような u が知りたい
  6. 8.

    例1. 主成分分析(数式でいうと) 8 max s. t. = 1 後はラグランジュ未定乗数法で解く。ラグランジュ関数を以下とする。 ,

    = − − 1 ⟹ , = − ⇔ , = 2 − 2 , = 0 ⟺ = より、最大化問題の解 は を満たす。 またこのとき、 で、これを最大化したいので、 = = つまり、 は の固有ベクトルである。 は の最大固有値に対応する固有ベクトルである。
  7. 10.

    例2. 線形回帰(日本語でいうと) 10 • データ X とレコード数が同じで1変数のみからなるデータ Y があるとする。X i

    を入れたら Y i が出てくる箱がなんかほし い。そんな箱を得る方針として、Y i = aTX i +ε i が成り立つよ うなパラメータベクトル a を求めること。 ‐ ただし、誤差ε i の2乗和が最小になるような a を求めるこ とにする(本当は線形回帰とだけいったとき、誤差2乗和を最小化す るとは限らないが、誤差2乗和を最小化することが多い。多分)。 • 何を目的にこんなことをするのかというと、未知データ X N +1 に対応する Y N +1 を予測したいときにこんなことをするはず。 もちろん予測でなくても回帰分析を通してデータの生成メカニズムへの知見 を得たいとかもあると思う。
  8. 11.

    例2. 線形回帰(数式でいうと) 11 min ෍ =1 − 2 ෍ =1

    − 2 = 2 ෍ =1 − = 2 ෍ =1 − 2 ෍ =1 = 2 − 2 2 − 2 = 0 ⇒ = −1 を達成する が知りたい。 これが0だから、 ※ 逆行列があるとは限らない • データの次元数 > レコード数のとき • データが線型従属なとき は a を特定できないのでなんか制約を追加してね!
  9. 13.

    ここまででわかったこと 13 特に、ここまででみた基礎的なデータ解析の方法では、 ① 「ある変数がどう変化したら別のある変数がどう変化 するか」は線形な関係のみ扱う。 • 主成分分析は変数間の共分散(線形な依存関係)に基づく。 • 線形回帰のモデルは線形である。

    ② 最終出力を得るために、データ行列 X に対して X TX の固有値分解をしたり逆行列を求めたりする。 • 主成分分析は V を固有値分解したものが求める解。 • データの平均がゼロベクトルだったらV = X TX 。 • 線形回帰のパラメータベクトルの解には (X TX )-1 が必要。 ※ 無論非線形な関係を扱うデータ解析の方法(ニューラルネットワークや決 定木など)もあるが、いまは脇に置いておく。
  10. 14.

    線形な関係のみだと困るケース 14 1 , 2 = 0 + 1 1

    + 2 2 というモデルで、図の青い点が0、 赤い点が1になるよう回帰したい。 → このモデルでは原点付近だけ 小さくすることができない。 変数 1 と変数 2 が独立かそう でないかを相関係数(線形な依存 関係)で測りたい。 → 相関係数はとても小さいが、 2変数が無関係にはみえない。 相関係数 -0.012
  11. 15.

    解決策 15 変数間の線形な関係しか扱えないなら、元の変数に非線形 な写像を適用したのを新しい変数たちとして採用すればい いのでは? 変数1 変数2 … 変数m レコード1

    * * … * レコード2 * * … * … … … … … レコードN * * … * 変数12 変数22 … 変数1×変数2 … レコード1 * * … * … レコード2 * * … * … … … … … … … レコードN * * … * … 適当な 非線形変換 特徴空間 こっちを データ解析 元データ
  12. 16.

    実際解決する 16 相関係数 0.977 1 , 2 = መ Φ

    1 , 2 = መ 1 2 + 2 2 のように新しい変数 Φ 1 , 2 = 1 2 + 2 2 の空間(特徴空間)に もっていけば መ は線形で足りる。 新しい変数 Φ 1 = 1 2 と 2 と の相関を取れば強い依存関係が あることがわかる。
  13. 18.

    とにかく特徴空間を考える 18 不安な点はあるがとにかく特徴空間 と特徴空間への写像 (特徴写像) Φ: Ω → を考えて特徴空間でのデータ解析 を考えていく。

    • はベクトル空間とする。 • には何か内積 ∙,∙ が入っているとする。 で主軸ベ クトルに正射影したりパラメータベクトルに正射影した りすることになると思うのでないと困ると思う。 • Φ はデータの非線形な特徴をいい感じに引き出すもので あってほしいけどよくわからないしいまは考えたくない。 • Φ は考えたくないが、 での内積 ∙,∙ は求まらないと 困りそうなので、これが , ′ = Φ(), Φ(′) な る関数で求まることにする。
  14. 19.

    特徴空間で主成分分析してみる 19 max Var s. t. = 1 max Var

    , Φ s. t. = 1 データ空間のベクトル u が知りたい。 特徴空間のベクトル f が知りたい。 Var , Φ = 1 ෍ =1 , Φ − 1 ෍ =1 Φ 2 ≡ 1 ෍ =1 , ෩ Φ 2 max 1 ෍ =1 , ෩ Φ 2 s. t. = 1 = ෍ =1 ෩ Φ 実はこの解は以下の形で探せばじゅうぶん。言い換えると、特徴空間 の ෩ Φ =1 の張る部分空間の中で探せばじゅうぶん。 = ෍ =1 ෩ Φ + ⊥ もしそうでなく以下の形(⊥ ≠ 0)だったとすると、 ⊥ は内積に寄与しない上にノルムを食うのでじゃま。
  15. 20.

    特徴空間で主成分分析してみる 20 max 1 ෍ =1 , ෩ Φ 2

    s. t. = 1 = ෍ =1 ෩ Φ max 1 ෍ =1 ෍ =1 ෩ Φ , ෩ Φ 2 s. t. ෍ =1 ෩ Φ = 1 max ෩ 2 s. t. ෩ = 1 f が知りたい。 → a が知りたい。 ෩ の中にデータ は , = Φ( ), Φ( ) の形 でしか出てこない。→ , さえ求まれば解ける。
  16. 23.

    まだわからないこと 23 > データ空間内の2点の特徴空間における内積の値さえ評 価できれば、 k () として許されるのはどんな関数か? > 特徴空間で主成分分析や線形回帰ができる。

    もっと一般に何ができるのか? ねたばれ: 55ページの(3.23)式。 _人人人人人人人人人人人人人人人_ > つづきは2章以降を読んでね! <  ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y ̄