Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
了解决策树和C4.5算法
Search
yafei002
January 08, 2017
Technology
270
1
Share
了解决策树和C4.5算法
yafei002
January 08, 2017
More Decks by yafei002
See All by yafei002
了解人工神经网络
yafei002
1
220
了解朴素贝叶斯
yafei002
1
240
了解K-Means算法
yafei002
1
220
了解KNN算法
yafei002
0
170
数据可视化之视觉感知与认知
yafei002
1
400
数据可视化之地理信息可视化
yafei002
1
400
数据可视化之层次和网络数据可视化(上)
yafei002
1
700
数据可视化之复杂高维多元数据的可视化(上)
yafei002
1
290
Data Visualization Introduction and History
yafei002
1
320
Other Decks in Technology
See All in Technology
Databricks 月刊サービスアップデート 2026年05月号
tyosi1212
0
200
Java正規表現エンジン(NFA)の仕組みと パフォーマンスを維持するための最適化手法
takeuchi_132917
0
180
実装は速くなった、レビューはどうする? ― 自身のレビューをAIで再現させるサーヴァントエンジニアリングのすゝめ / Implementation got faster. So what about reviews? — An invitation to Servant Engineering: Recreating your own code reviews with AI
nrslib
6
2.6k
Dynamic Workersについて
yusukebe
2
570
サプライチェーンセキュリティの空白地帯 - 信頼できる”依存性”の未来を考える
rung
PRO
2
640
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
280
速さだけじゃない! VoidZero ツールが移行先に選ばれる理由
mizdra
PRO
6
730
運用を見据えたAIエージェント設計実践
amacbee
0
2.1k
エンジニアは生成AIと どのように向き合うべきか? ことばの意味という観点から
verypluming
3
330
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
840
TROCCOで始めるクラウドコストを民主化するためのFinOps
tk3fftk
3
550
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.8k
Featured
See All Featured
The Mindset for Success: Future Career Progression
greggifford
PRO
0
350
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
720
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
260
Being A Developer After 40
akosma
91
590k
Crafting Experiences
bethany
1
160
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
We Have a Design System, Now What?
morganepeng
55
8.2k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
320
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
240
Transcript
了解决策树与 C4.5算法 yafei002
决策树工作原理
如何选择节点 熵(entropy):信息的期望值
如何选择节点 决策树算法选择最大增益作为最佳划分 增益:
如何选择节点 增益偏向于取值多的属性 增益率(Gain ration)将输出节点的个数纳入考量 C4.5
决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该
子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2
(X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &
VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料