決定木(Decision Tree, TD)

0 決定木 Decision Tree DT 明治大学理⼯学部応用化学科データ化学⼯学研究室⾦⼦
弘昌

決定木 (Decision Tree, DT) とは︖ 回帰分析にもクラス分類にも使える回帰モデル・クラス分類モデルが、木のような構造で与えられるため、モデルを直感的に理解しやすい理解しやすい反⾯、モデルの精度は他の⼿法と⽐べて低くなってしまうことが多い
今回説明するのは CART (Classification and Regression Tree) 1

決定木でできることのイメージ (回帰分析) 2 説明変数1 (x1 ) n 3.3 ・・・目的変数
y の値が n のサンプル説明変数2 (x2 ) 3 5 1 4 1.1 1.3 1.4 1.7 2.1 2.2 推定値 yP は、サンプルの平均値 2.25 2.5 2.4 2.7 2.5 2.8 2.1 2.0 2.3 2.6 3.0 3.5 yP = 1.2 yP = 1.85 yP = 2.58 yP = 3.27

決定木のでできることのイメージ (クラス分類) 3 説明変数1 (x1 ) 説明変数2 (x2 ) 3
5 1 4 推定されたクラスは、多数決でクラス 2 クラス 2 クラス 1 クラス 2 クラス 1 ・・・クラスが 1 のサンプル・・・クラスが 2 のサンプル

決定木モデルの木構造 (回帰分析) 4 根ノードノード葉ノード x1 > 3 x1
≤ 3 x2 ≤ 1 x2 > 1 yP = 1.2 yP = 1.85 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 yP = 2.58 yP = 2.25 yP = 3.27 枝

決定木モデルの木構造 (クラス分類) 5 根ノード x1 > 3 x1 ≤ 3
x2 ≤ 1 x2 > 1 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 枝クラス 2 クラス 1 クラス 2 クラス 2 クラス 1 ノード葉ノード

決定木のアルゴリズムどのように木を作るか︖ • 根ノードから、２つずつ葉ノードを追加していき、木を成⻑させるどのように２つの葉ノードを追加するか︖ つまり、どのように説明変数を選んで、どのようにしきい値を選ぶか︖ • 説明変数としきい値とのすべての組み合わせにおいて、評価関数 E
の値を計算し、それが最も小さい組み合わせにする 6

回帰分析における評価関数 E 目的変数の誤差の二乗和 • それぞれの葉ノードにおける目的変数の推定値は、同じ葉ノードにあるサンプルの平均値で与えられる 7 1 n i
i E E = = ∑ ( )2 ( ) P 1 i m j i i i j E y y = = − ∑ ( ) P 1 1 i m j i i j i y y m = = ∑ n : 葉ノードの数 Ei : 葉ノード i の評価関数 mi : 葉ノード i におけるサンプル数 yj (i) : 葉ノード i における、 j 番目のサンプルの目的変数の値 yPi : 葉ノード i における目的変数の推定値

クラス分類における評価関数 E 交差エントロピー誤差関数ジニ係数 8 1 n i i E
E = = ∑ 1 ln K i ik ik k E p p = = −∑ ( ) 1 1 K i ik ik k E p p = = − ∑ いずれも、 K : クラスの数 pik : 葉ノード i における、クラス k のサンプルの割合 (ジニ係数のほうがよく使われるかな・・・)

いつ木の成⻑を⽌めるか︖ クロスバリデーションの誤差が最小になるように深さを決める１つの葉ノードにおける最小サンプル数を決め ( 3 とか)、とりあえずすべて木を生成させる葉ノードを２つずつ枝刈りしていく • 下の基準
C が大きくなったら枝刈りストップ • λ はクロスバリデーションで決める 9 C E n λ = + E : 評価関数 n : 葉ノードの数 λ : 木の精度と複雑度との間のトレードオフを決める重み

決定木(Decision Tree, TD)

決定木(Decision Tree, TD)

Hiromasa Kaneko

More Decks by Hiromasa Kaneko

Other Decks in Science

Featured

Transcript

0 決定木 Decision Tree DT 明治大学理⼯学部応用化学科データ化学⼯学研究室⾦⼦

決定木でできることのイメージ (回帰分析) 2 説明変数1 (x1 ) n 3.3 ・・・目的変数

決定木のでできることのイメージ (クラス分類) 3 説明変数1 (x1 ) 説明変数2 (x2 ) 3

決定木モデルの木構造 (回帰分析) 4 根ノードノード葉ノード x1 > 3 x1

決定木モデルの木構造 (クラス分類) 5 根ノード x1 > 3 x1 ≤ 3

回帰分析における評価関数 E 目的変数の誤差の二乗和 • それぞれの葉ノードにおける目的変数の推定値は、同じ葉ノードにあるサンプルの平均値で与えられる 7 1 n i

クラス分類における評価関数 E 交差エントロピー誤差関数ジニ係数 8 1 n i i E