Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
了解决策树和C4.5算法
Search
yafei002
January 08, 2017
Technology
270
1
Share
了解决策树和C4.5算法
yafei002
January 08, 2017
More Decks by yafei002
See All by yafei002
了解人工神经网络
yafei002
1
220
了解朴素贝叶斯
yafei002
1
240
了解K-Means算法
yafei002
1
220
了解KNN算法
yafei002
0
170
数据可视化之视觉感知与认知
yafei002
1
400
数据可视化之地理信息可视化
yafei002
1
400
数据可视化之层次和网络数据可视化(上)
yafei002
1
700
数据可视化之复杂高维多元数据的可视化(上)
yafei002
1
290
Data Visualization Introduction and History
yafei002
1
320
Other Decks in Technology
See All in Technology
Java正規表現エンジン(NFA)の仕組みと パフォーマンスを維持するための最適化手法
takeuchi_132917
0
180
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
100
Databricks における 生成AIガバナンスの実践
taka_aki
1
260
大学生が本気でDatabricksを活用してDiscordサークルをデータ駆動させてみた
phantomjuju
1
330
Spring Boot における AOT Cache 活用テクニックと 起動時間改善事例
ntt_dsol_java
0
200
はじめてのDatadog
kairim0
0
260
価格.comをAI駆動で全面刷新する ー 30年分の技術的負債を返し、次の30年の土台をつくる ー / AI Engineering Summit Tokyo 2026
tkyowa
26
25k
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.8k
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
0
370
インフラが苦手でも大丈夫! 紙芝居 Kubernetes -WWGT 10周年編-
aoi1
1
330
JJUG CCC 2026 Spring AI時代の開発こそ標準化を武器に! ― 方式・プロセス・プラットフォームの標準化
s27watanabe
2
680
Claude code Orchestra
ozakiomumkj
3
910
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
380
Code Review Best Practice
trishagee
74
20k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Building an army of robots
kneath
306
46k
A Tale of Four Properties
chriscoyier
163
24k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Darren the Foodie - Storyboard
khoart
PRO
3
3.4k
The Curse of the Amulet
leimatthew05
1
13k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
190
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
240
Transcript
了解决策树与 C4.5算法 yafei002
决策树工作原理
如何选择节点 熵(entropy):信息的期望值
如何选择节点 决策树算法选择最大增益作为最佳划分 增益:
如何选择节点 增益偏向于取值多的属性 增益率(Gain ration)将输出节点的个数纳入考量 C4.5
决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该
子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2
(X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &
VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料