決定木に含まれるパラメタによる事前剪定と事後剪定

木構造３木構造３ IUUQTXXXZPVUVCFDPNDIBOOFM6$'Z7#W;#F&C/'TY'SH 過学習　の対策過学習　の対策

決定木の各部分の名称条件分岐を組合せて結論を導く木構造の予測モデル根(root node/the root) 気温は25℃超えてますか？夏湿度は50%超えてますか？ No Yes
気温は15℃超えてますか？クーラーをつけてますか？夏春春春 No Yes No Yes No Yes 枝(branch) ノード(node) 葉(leaves/leaf nodes) 深さ(depth) 前回までのおさらい

決定木を用いた回帰特徴量の空間を複数の領域に区切る境界を作り、各領域の平均値を出力する Scikit-learn と https://github.com/parrt/dtreeviz を使用して可視化していますコードは概要欄のリンクから参照してください前回までのおさらい

今回の内容 •モデルの複雑さと関係があるパラメータ •回帰木のpruning •コスト・複雑さ剪定(cost-complexity pruning) 木が過学習しないようにするためのパラメータについて過学習した決定木の決定境界の例

モデル複雑さと関係するパラメタ

max_depth 木の最大深さを指定するパラメータ max_depth = 5 max_depth = 10

min_samples_split 分岐を作るときに必要な最小データ数を指定するパラメタ min_samples_split = 2 min_samples_split = 50

max_leaf_nodes 葉の数を制限する max_leaf_nodes = None max_leaf_nodes = 5

criterion 誤差の計算方法を指定する criterion =′ squared_error′ このページのみ、差を示すためにデータの一部を加工しました。全体の１％のデータの正解を５倍にして外れ値を作成しています。 criterion
=′ absolute_error′ 外れ値に対応するための分岐が作成されている分岐は作成されていない ▼『線形回帰３：ロバストな回帰』より二乗誤差は外れ値の影響を大きく受ける

ccp_alpha コスト・複雑さによって木を枝刈りする ccp_alpha = 0 ccp_alpha = 0.4 Cost-Complexity Pruning

回帰木のpruning

事前剪定(pre-pruning)の事後剪定(post-pruning) 木を作る前に制約をつけるか、木を作った後で情報の少ない枝を削除するか max_depthを予め制限する = pre-pruning ccp_alphaの値をもとに木を作った後で情報量が少ない箇所を削除 = post-pruning

Cost-complexity pruning 葉の数を考慮して木に点数をつけ、それが最小になる木を選択する |T| Cα (T) = Σ|T| m=1
Nm Qm (T) + α|T| 気温は10℃超えてる？ 50 気温は20℃超えてる？ No Yes 気温は0℃超えてる？ 25 3 10 No Yes No Yes 葉の数葉ごとの葉の平均値と各データの二乗誤差＝葉ｍに該当するデータ数 =葉ｍに該当するデータの平均値 =決定木のｍ番目の葉が表現している領域 Nm ̂ cm Rm Qm (T) = 1 Nm Σxi ∈Rm (yi − ̂ cm ) |T| = 4 が大きいほどシンプルな木が選ばれる α ※ ࣜ͸ Trevor Hastie ɾRobert Tibshirani ɾJerome Friedman ஶ ”౷ܭతֶशͷجૅ: σʔλϚΠχϯάɾਪ࿦ɾ༧ଌ”. ڞཱग़൛, 2014. 9ষ ͷ΋ͷΛࢀর͍ͯ͠·͢

Cost-complexity pruning 葉の数を考慮して木に点数をつけ、それが最小になる木を選択する |T| Cα (T) = Σ|T| m=1
Nm Qm (T) + α|T| 気温は気温は気温は気温は気温は気温は気温は気温は気温は … Cα (T) = 10000 Cα (T) = 7000 Cα (T) = 17000 Cα (T) = 35000 の増加が最小の葉をまとめる (最弱リンク刈り:weakest link pruning) Σm Nm Qm (T)

まとめ決定木における過学習の抑制方法について説明しました •事前剪定(pre-pruning)とは、木を作る前に制約をつけて過学習を抑える方法 •max_depthは木の深さを制限する •min_samples_splitは分岐を作る時のデータ数の下限を指定する •事後剪定(post-pruning)とは、木を作った後に葉をまとめていく •ccp_alphaは葉の数に対してペナルティをつけるためのパラメタであり、値が大きいほどシンプルな木になる

参考文献 •Post pruning decision trees with cost complexity pruning •sklearn.tree.DecisionTreeRegressor
•Trevor Hastie ・Robert Tibshirani ・Jerome Friedman 著・杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳・井尻善久・井手剛・岩田具治・金森敬文・兼村厚範・烏山昌幸・河原吉伸・木村昭悟・小西嘉典・酒井智弥・鈴木大慈・竹内一郎・玉木徹・出口大輔・冨岡亮太・波部斉・前田新一・持橋大地・山田誠訳 ”統計的学習の基礎: データマイニング・推論・予測”. 共立出版, 2014.

決定木に含まれるパラメタによる事前剪定と事後剪定

決定木に含まれるパラメタによる事前剪定と事後剪定

K_DM

More Decks by K_DM

Other Decks in Technology

Featured

Transcript

木構造３木構造３ IUUQTXXXZPVUVCFDPNDIBOOFM6$'Z7#W;#F&C/'TY'SH 過学習　の対策過学習　の対策

決定木の各部分の名称条件分岐を組合せて結論を導く木構造の予測モデル根(root node/the root) 気温は25℃超えてますか？夏湿度は50%超えてますか？ No Yes

今回の内容 •モデルの複雑さと関係があるパラメータ •回帰木のpruning •コスト・複雑さ剪定(cost-complexity pruning) 木が過学習しないようにするためのパラメータについて過学習した決定木の決定境界の例

モデル複雑さと関係するパラメタ

max_depth 木の最大深さを指定するパラメータ max_depth = 5 max_depth = 10

min_samples_split 分岐を作るときに必要な最小データ数を指定するパラメタ min_samples_split = 2 min_samples_split = 50

max_leaf_nodes 葉の数を制限する max_leaf_nodes = None max_leaf_nodes = 5

criterion 誤差の計算方法を指定する criterion =′ squared_error′ このページのみ、差を示すためにデータの一部を加工しました。全体の１％のデータの正解を５倍にして外れ値を作成しています。 criterion

ccp_alpha コスト・複雑さによって木を枝刈りする ccp_alpha = 0 ccp_alpha = 0.4 Cost-Complexity Pruning

回帰木のpruning

Cost-complexity pruning 葉の数を考慮して木に点数をつけ、それが最小になる木を選択する |T| Cα (T) = Σ|T| m=1

Cost-complexity pruning 葉の数を考慮して木に点数をつけ、それが最小になる木を選択する |T| Cα (T) = Σ|T| m=1

参考文献 •Post pruning decision trees with cost complexity pruning •sklearn.tree.DecisionTreeRegressor