Upgrade to Pro — share decks privately, control downloads, hide ads and more …

了解决策树和C4.5算法

Avatar for yafei002 yafei002
January 08, 2017

 了解决策树和C4.5算法

Avatar for yafei002

yafei002

January 08, 2017
Tweet

More Decks by yafei002

Other Decks in Technology

Transcript

  1. 决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该

    子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
  2. 决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2

    (X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
  3. PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &

    VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料