Upgrade to Pro — share decks privately, control downloads, hide ads and more …

了解决策树和C4.5算法

yafei002
January 08, 2017

 了解决策树和C4.5算法

yafei002

January 08, 2017
Tweet

More Decks by yafei002

Other Decks in Technology

Transcript

  1. 决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该

    子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
  2. 决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2

    (X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
  3. PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &

    VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料