第八章-決定木モデル【数学嫌いと学ぶデータサイエンス・統計的学習入門】

日本一の数学嫌いと学ぶデータサイエンス ~入門~ @Ringa_hyj

@Ringa_hyj 日本一の数学嫌いと学ぶデータサイエンス ~第八章：決定木モデル~

対象視聴者：数式や記号を見ただけで教科書を閉じたくなるレベル , , C , ,

決定木モデル・回帰木・分類木・バギング・ランダムフォレスト・ブースティング

回帰木

予測したい変数を周辺の説明変数から予測する。周辺の説明変数を単純な層に分ける(セグメント化)、予測変数空間もセグメント化され、そのセグメントの平均や最頻(多数決)を使って予測とｓるセグメント分けの過程が分岐していく木のようなので決定木と呼ばれる単純な決定木はロジスティックやスプラインには敵わないそこでバギングやランダムフォレストにより複数の単純な決定木を作ることで複雑・非線形に予測ができる

R1 年収200 年収400 年収600 経験年数打数打数経験年数経験年数や打数によって、ある値で層を分割する予測変数が分割される点を
内部ノードと呼ぶ経験年数によって二つの領域R1,R2に分割された。一方は分割されたデータ領域 x∉R1 に紐づく Y=年収の平均である200が出力される R2 R3 ・回帰木

R1 打数経験年数 R2 R3 領域、内部ノードの閾値を決めるかという話 ා =1 ෎
∈ − ො 2 上式(RSS)を最小化するように学習する y^Rjは j番目の箱の予測対象の値の平均である最大J領域まで分けていることを考えるしかし、とりうるJの上限を毎回計算していては計算コストが持たない・回帰木

再帰的な2分割法ある状態のデータを最も綺麗に分割する変数を探し、2つに分割するというシンプルな方法(全体のJがいくつになるか関係ない) 分割した後のデータが綺麗に分割できるかは気にしていない予測につかう変数と、分割点をRSSが最も小さくなるようにもとめる各変数で分割点を動かしていけばわかるが、数式では各変数に対して以下を最小とするようなsを求め、その中で最小の変数Xjとsの組を採用する ෍ ∈1 ,
− ො 1 2 ෍ ∈2 , − ො 2 2 + ・回帰木

刈り込み訓練データには当てはまりやすいものの、汎化性が得られにくいより分岐を少なくするにはどうするか RSSの減少に閾値をもうけて、減少量が小さければ分岐をつくらないという方法しかしこの方法では欠点があり、役に立たないような変数が早いうちに分岐に使われた場合あとに残った重要な変数の分岐が生じなくなってしまうそこで考えられたのが、一度細かい分岐の大きな木をつくりいらない分岐を消していく方法・回帰木

木の複雑さをコストとして考えた刈り込み法は最弱リンク刈り込み法とよばれる 2分割を行う領域内の観測値(変数?)がある値よりも下回るまで分割を続ける以下を木のコストとして考える |T|は終端のノード数 Rmはm番目のノードで分けられた領域 YRmはその領域の平均値 αはチューニングパラメタ 0の時はなにも制約なく木を作った場合に同じとなる
αを増加させると、終端ノード数に罰を加えていくことになる訓練データと交差検証データを使いながらバランスのいいαを決めるつまりαを変化させながら、テスト誤差、交差検証誤差の一番小さくなるように分岐をさせていく。 ා =1 ෍ ∈ − ො 2 + ・回帰木

分類木

・分類木質的変数を予測したいときは平均値を出力というわけにもいかない分割点を考えるために不純度を考える RSSも使えないので誤分類率（分類誤差）を採用する分類木の出力は終端の領域内の予測対象の変数(クラス)のうち最も頻度の多いものである対して誤分類率は、それ以外の割合を考えると、
mという分類後の領域で一番多いクラスがkだとする p^mkは領域内の合計数でクラスkの合計数を割った kの面積である k以外の面積を誤分類率として考えるあまり感度が良くないため、不純度としてジニ指数やエントロピーが有名である = 1 − max ෠

・分類木ジニ指数(ジニ不純度) 全Kクラスの総分散を表すすべてのpmkが0 or 1であると、ジニ係数が小さくなる 0 or 1ということは、特定のクラスのみである、不純なクラスが混ざっていない
ということになる = ෍ =1 ෠ 1 − Ƹ

・分類木エントロピー pmkは0から1の間であるので、-pmk log pmk に変形すると必ず0以上になる pmkが0か1に近ければ、エントロピーは0に近くなるジニ不純度と似た挙動をする = −
෍ =1 ෠ log ෠

・分類木分類木の作成にはジニ係数やエントロピーを使って分類するといいジニ係数やエントロピーでも刈り込みはできるが、精度良く木を刈り込むには誤分類率をつかうのが好ましい

・分類木今までの線形回帰は = 0 + ෍ =1 = ෍ =1
∗ 1 ∈ 回帰木は問題によってどちらを採用するかを決めるのがいい。二次元plotで線形の場合は線形回帰階段状や、より複雑な関係性、場合分けで予測が複雑に変化するような関係になっている場合は回帰木で予測することが望ましい分析の中には説明の簡単、解釈性や視覚的インパクトを得るために決定木を採用することもすくなくない

・決定木のメリットデメリットメリット・木は説明しやすい・人間らしい意思決定と似ている・ダミー変数を使わずに質的データを扱えるデメリット・単純な決定木では線形・非線形回帰の精度を超えることは難しい・データの変化によって木の構造が変化するため作ったモデルが崩れやすい

バギング

・バギング単純な決定木ではバリアンスが大きくなる難点がある (汎化がない) たとえば訓練データを二つに区切って決定木を作ると全く別のものができることもあるバリアンスが小さいモデル(決定木)と言われれば、どんなデータでも似たようなモデルができることと考えることができる線形回帰は変数の数に対してデータ数nが増えることでバリアンスの小さいモデルが得られるバギングとはbootstrap aggregation
のことで、ブートストラップ法(交差検証の項参照) と関係を持つ同じシステムから得られた独立な訓練データが nセットあるとする同じシステムなので、出てくるデータの分散はσ^2である訓練データの平均も同じくμであるはず。すると標本平均の分散から、分散はσ^2/n つまり、観測値の平均を取るということは、分散を小さくするということである

・バギングこの標本平均の分散の考え方を、モデルに関して考えてみる複数の訓練データを得るそれぞれの訓練データに各々のモデルを当てはめるモデルの出力の平均値を求めるすると、全データを使って1つのモデルを作り、出力は平均値をとるよりも別々のモデルに別々の訓練データを入れて、その出力平均を取った方がいいという考えになるこうすることで分散の小さいモデルが得られる
መ = 1 ෍ =1 መ

・バギングただし、複数の訓練データが得られない場合もあるそのため1つの訓練データをブートストラップ法によって重複を許す再標本化を行うこうしてB組の訓練データを作り出すこうして得られたfの平均化モデルが、バギングのモデルである B個のモデルは刈り込みのされてない過学習モデルであるこのモデルを別データで数千つくり平均化することで、精度が向上する (集合知みたいな) モデル数Bは100から良い性能を示す傾向がある分類の場合は平均よりも
1モデルは終端ノードの領域で多数決を取る B個のモデルの予測の多数決を取る

・バギング out of bag OOB バギングで得たモデルは交差検証せずとも評価できる方法がある (交差検証のために数百のモデルに当てはめなくともいい) ブートストラップ標本で各木が作られているということは、重複が許されているということである平均的に1つの木には訓練(観測)データのだいたい2/3が使われている。残りの訓練(観測)データをOOB観測値という
つまり、 i番目のデータが学習に使われていない木のグループA(i番目のデータがOOB)があるとするグループAの木の個数は1/3*B個ということになる回帰ならこのグループの出力平均を取る、分類なら多数決をとるこうして得られたOOBによる予測値を実データと比較する回帰ならOOB平均2乗誤差分類ならOOB誤分類率で評価するこうすることで交差検証の計算付加が軽減する (別のデータセットを数百モデルに適応せずとも、一部のOOBを1/3*B個のモデルに当てはめるだけで済む)

・バギング変数の重要度複数の木を使うことで解釈性は複雑になる RSSやジニ指数を使うことで重要度を得ることができるある変数がOOBによって平均的にどれだけRSSが減少するかを確認できる

ランダムフォレスト

・ランダムフォレストバギングと同じくブートストラップ標本を使って複数の木を作るところまでは同じ少し改良を加える決定木を作るときp個の変数からm個の変数をランダムサンプリングするそのうち1つが分割に使われるまた次の分割でm個の変数がサンプリングされといった方法を使うここで採用するmは多くの場合pの平方根が採用されるこの方法によって複数の木を作るときに、類似していない木を作ることができる予測変数のうち有用なものが1つあり、その他はほどほどに有用なとき
すべての変数をつかった場合は有用なものが最初の分割に使われることになる。こうして複数の木が類似してしまう

・ランダムフォレスト分割は一部のm個の変数で予測される平均的に分割点の p-m/p 個は一番有用な変数を含まないことになる多くの変数に相関がある場合mを小さくとる木の本数Bを調節する等の調節を行う

ブースティング

・ブースティング決定木に対するブースティングを説明するバギングは複数の木をブートストラップ標本から作るブースティングはブートストラップ標本を用いないで、一つの木を成長させていく大きく成長させることで過学習が起こるブースティングは過学習を抑えながら木を成長させる出力に対してモデルを当てはめ、出力でなく残差に対してさらに決定木をあてはめる分類のブースティングは多少複雑である

・ブースティング木の数BはブースティングはBが大きすぎると過学習になるので注意。交差検証で Bを決める縮小パラメタλ は小さな正の値(0.01~0.001) ブースティングの学習速度を調節する λを小さくするならBは大きくすると性能が良くなる分割数
d は複雑さを調節するたいていd=1を使う 1の時は1つの変数のみを1分割する dはブースティングモデルの交互作用の次数を調整するものである

・ブースティング訓練データの予測対象yi を ri に格納する予測のための変数と応答変数を(X,ri)とする f(X)=0として空のモデルを置く b=1 1本目のモデルを立てる d個の分割(終端ノードは
d+1 個)として制限した木 f1をつくる f(X) = f(X) + λ f1 出力の残差を計算し、riに更新する残差ri = ri – λ f1(Xi) これをb=Bまでくり返す最終的なモデルはb個の決定木の合計となる = ෍ =1

第八章-決定木モデル【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第八章-決定木モデル【数学嫌いと学ぶデータサイエンス・統計的学習入門】

Ringa_hyj

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript

日本一の数学嫌いと学ぶデータサイエンス ~入門~ @Ringa_hyj

@Ringa_hyj 日本一の数学嫌いと学ぶデータサイエンス ~第八章：決定木モデル~

対象視聴者：数式や記号を見ただけで教科書を閉じたくなるレベル , , C , ,

決定木モデル・回帰木・分類木・バギング・ランダムフォレスト・ブースティング

回帰木

R1 年収200 年収400 年収600 経験年数打数打数経験年数経験年数や打数によって、ある値で層を分割する予測変数が分割される点を

R1 打数経験年数 R2 R3 領域、内部ノードの閾値を決めるかという話 ා =1 ෎

分類木

・分類木ジニ指数(ジニ不純度) 全Kクラスの総分散を表すすべてのpmkが0 or 1であると、ジニ係数が小さくなる 0 or 1ということは、特定のクラスのみである、不純なクラスが混ざっていない

・分類木エントロピー pmkは0から1の間であるので、-pmk log pmk に変形すると必ず0以上になる pmkが0か1に近ければ、エントロピーは0に近くなるジニ不純度と似た挙動をする = −

・分類木分類木の作成にはジニ係数やエントロピーを使って分類するといいジニ係数やエントロピーでも刈り込みはできるが、精度良く木を刈り込むには誤分類率をつかうのが好ましい

・分類木今までの線形回帰は = 0 + ෍ =1 = ෍ =1

バギング

・バギング変数の重要度複数の木を使うことで解釈性は複雑になる RSSやジニ指数を使うことで重要度を得ることができるある変数がOOBによって平均的にどれだけRSSが減少するかを確認できる

ランダムフォレスト

・ランダムフォレスト分割は一部のm個の変数で予測される平均的に分割点の p-m/p 個は一番有用な変数を含まないことになる多くの変数に相関がある場合mを小さくとる木の本数Bを調節する等の調節を行う

ブースティング

・ブースティング訓練データの予測対象yi を ri に格納する予測のための変数と応答変数を(X,ri)とする f(X)=0として空のモデルを置く b=1 1本目のモデルを立てる d個の分割(終端ノードは