Upgrade to Pro — share decks privately, control downloads, hide ads and more …

決定木(Decision Tree, TD)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

決定木(Decision Tree, TD)

決定木 (Decision Tree, DT) とは?
決定木でできることのイメージ (回帰分析)
決定木のでできることのイメージ (クラス分類)
決定木モデルの木構造 (回帰分析)
決定木モデルの木構造 (クラス分類)
決定木のアルゴリズム
回帰分析における評価関数 E
クラス分類における評価関数 E
いつ木の成長を止めるか?

Avatar for Hiromasa Kaneko

Hiromasa Kaneko

August 04, 2017
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Science

Transcript

  1. 決定木でできることのイメージ (回帰分析) 2 説明変数1 (x1 ) n 3.3 ・・・ 目的変数

    y の値が n のサンプル 説明変数2 (x2 ) 3 5 1 4 1.1 1.3 1.4 1.7 2.1 2.2 推定値 yP は、サンプル の平均値 2.25 2.5 2.4 2.7 2.5 2.8 2.1 2.0 2.3 2.6 3.0 3.5 yP = 1.2 yP = 1.85 yP = 2.58 yP = 3.27
  2. 決定木のでできることのイメージ (クラス分類) 3 説明変数1 (x1 ) 説明変数2 (x2 ) 3

    5 1 4 推定されたクラスは、 多数決で クラス 2 クラス 2 クラス 1 クラス 2 クラス 1 ・・・ クラスが 1 のサンプル ・・・ クラスが 2 のサンプル
  3. 決定木モデルの木構造 (回帰分析) 4 根ノード ノード 葉ノード x1 > 3 x1

    ≤ 3 x2 ≤ 1 x2 > 1 yP = 1.2 yP = 1.85 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 yP = 2.58 yP = 2.25 yP = 3.27 枝
  4. 決定木モデルの木構造 (クラス分類) 5 根ノード x1 > 3 x1 ≤ 3

    x2 ≤ 1 x2 > 1 x2 > 4 x2 ≤ 4 x1 ≤ 5 x1 > 5 枝 クラス 2 クラス 1 クラス 2 クラス 2 クラス 1 ノード 葉ノード
  5. 回帰分析における評価関数 E 目的変数の誤差の二乗和 • それぞれの葉ノードにおける目的変数の推定値は、 同じ葉ノードにあるサンプルの平均値で与えられる 7 1 n i

    i E E = = ∑ ( )2 ( ) P 1 i m j i i i j E y y = = − ∑ ( ) P 1 1 i m j i i j i y y m = = ∑ n : 葉ノードの数 Ei : 葉ノード i の評価関数 mi : 葉ノード i におけるサンプル数 yj (i) : 葉ノード i における、 j 番目の サンプルの目的変数の値 yPi : 葉ノード i における目的変数の 推定値
  6. クラス分類における評価関数 E 交差エントロピー誤差関数 ジニ係数 8 1 n i i E

    E = = ∑ 1 ln K i ik ik k E p p = = −∑ ( ) 1 1 K i ik ik k E p p = = − ∑ いずれも、 K : クラスの数 pik : 葉ノード i における、クラス k の サンプルの割合 (ジニ係数のほうが よく使われるかな・・・)
  7. いつ木の成⻑を⽌めるか︖ クロスバリデーションの誤差が最小になるように深さを決める 1つの葉ノードにおける最小サンプル数を決め ( 3 とか)、 とりあえずすべて木を生成させる 葉ノードを2つずつ枝刈りしていく • 下の基準

    C が大きくなったら枝刈りストップ • λ はクロスバリデーションで決める 9 C E n λ = + E : 評価関数 n : 葉ノードの数 λ : 木の精度と複雑度との間の トレードオフを決める重み