Upgrade to Pro — share decks privately, control downloads, hide ads and more …

決定木(Decision Tree, TD)

決定木(Decision Tree, TD)

決定木 (Decision Tree, DT) とは?
決定木でできることのイメージ (回帰分析)
決定木のでできることのイメージ (クラス分類)
決定木モデルの木構造 (回帰分析)
決定木モデルの木構造 (クラス分類)
決定木のアルゴリズム
回帰分析における評価関数 E
クラス分類における評価関数 E
いつ木の成長を止めるか?

Hiromasa Kaneko

August 04, 2017
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Science

Transcript

  1. 決定木でできることのイメージ (回帰分析) 2 説明変数1 (x1 ) n 3.3 ・・・ 目的変数

    y の値が n のサンプル 説明変数2 (x2 ) 3 5 1 4 1.1 1.3 1.4 1.7 2.1 2.2 推定値 yP は、サンプル の平均値 2.25 2.5 2.4 2.7 2.5 2.8 2.1 2.0 2.3 2.6 3.0 3.5 yP = 1.2 yP = 1.85 yP = 2.58 yP = 3.27
  2. 決定木のでできることのイメージ (クラス分類) 3 説明変数1 (x1 ) 説明変数2 (x2 ) 3

    5 1 4 推定されたクラスは、 多数決で クラス 2 クラス 2 クラス 1 クラス 2 クラス 1 ・・・ クラスが 1 のサンプル ・・・ クラスが 2 のサンプル
  3. 決定木モデルの木構造 (回帰分析) 4 根ノード ノード 葉ノード x1 > 3 x1

    ≤ 3 x2 ≤ 1 x2 > 1 yP = 1.2 yP = 1.85 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 yP = 2.58 yP = 2.25 yP = 3.27 枝
  4. 決定木モデルの木構造 (クラス分類) 5 根ノード x1 > 3 x1 ≤ 3

    x2 ≤ 1 x2 > 1 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 枝 クラス 2 クラス 1 クラス 2 クラス 2 クラス 1 ノード 葉ノード
  5. 回帰分析における評価関数 E 目的変数の誤差の二乗和 • それぞれの葉ノードにおける目的変数の推定値は、 同じ葉ノードにあるサンプルの平均値で与えられる 7 1 n i

    i E E = = ∑ ( )2 ( ) P 1 i m j i i i j E y y = = − ∑ ( ) P 1 1 i m j i i j i y y m = = ∑ n : 葉ノードの数 Ei : 葉ノード i の評価関数 mi : 葉ノード i におけるサンプル数 yj (i) : 葉ノード i における、 j 番目の サンプルの目的変数の値 yPi : 葉ノード i における目的変数の 推定値
  6. クラス分類における評価関数 E 交差エントロピー誤差関数 ジニ係数 8 1 n i i E

    E = = ∑ 1 ln K i ik ik k E p p = = −∑ ( ) 1 1 K i ik ik k E p p = = − ∑ いずれも、 K : クラスの数 pik : 葉ノード i における、クラス k の サンプルの割合 (ジニ係数のほうが よく使われるかな・・・)
  7. いつ木の成⻑を⽌めるか︖ クロスバリデーションの誤差が最小になるように深さを決める 1つの葉ノードにおける最小サンプル数を決め ( 3 とか)、 とりあえずすべて木を生成させる 葉ノードを2つずつ枝刈りしていく • 下の基準

    C が大きくなったら枝刈りストップ • λ はクロスバリデーションで決める 9 C E n λ = + E : 評価関数 n : 葉ノードの数 λ : 木の精度と複雑度との間の トレードオフを決める重み