Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
了解决策树和C4.5算法
Search
yafei002
January 08, 2017
Technology
1
260
了解决策树和C4.5算法
yafei002
January 08, 2017
Tweet
Share
More Decks by yafei002
See All by yafei002
了解人工神经网络
yafei002
1
210
了解朴素贝叶斯
yafei002
1
230
了解K-Means算法
yafei002
1
210
了解KNN算法
yafei002
0
170
数据可视化之视觉感知与认知
yafei002
1
390
数据可视化之地理信息可视化
yafei002
1
390
数据可视化之层次和网络数据可视化(上)
yafei002
1
670
数据可视化之复杂高维多元数据的可视化(上)
yafei002
1
290
Data Visualization Introduction and History
yafei002
1
320
Other Decks in Technology
See All in Technology
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
93k
22nd ACRi Webinar - NTT Kawahara-san's slide
nao_sumikawa
0
120
SREチームをどう作り、どう育てるか ― Findy横断SREのマネジメント
rvirus0817
0
360
Oracle Cloud Observability and Management Platform - OCI 運用監視サービス概要 -
oracle4engineer
PRO
2
14k
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
220
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
850
私たち準委任PdEは2つのプロダクトに挑戦する ~ソフトウェア、開発支援という”二重”のプロダクトエンジニアリングの実践~ / 20260212 Naoki Takahashi
shift_evolve
PRO
2
210
Kiro IDEのドキュメントを全部読んだので地味だけどちょっと嬉しい機能を紹介する
khmoryz
0
210
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1.1k
1,000 にも届く AWS Organizations 組織のポリシー運用をちゃんとしたい、という話
kazzpapa3
0
190
pool.ntp.orgに ⾃宅サーバーで 参加してみたら...
tanyorg
0
1.4k
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
What does AI have to do with Human Rights?
axbom
PRO
0
2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
For a Future-Friendly Web
brad_frost
182
10k
The SEO Collaboration Effect
kristinabergwall1
0
360
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
Mind Mapping
helmedeiros
PRO
0
90
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
230
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Evolving SEO for Evolving Search Engines
ryanjones
0
130
Rails Girls Zürich Keynote
gr2m
96
14k
Transcript
了解决策树与 C4.5算法 yafei002
决策树工作原理
如何选择节点 熵(entropy):信息的期望值
如何选择节点 决策树算法选择最大增益作为最佳划分 增益:
如何选择节点 增益偏向于取值多的属性 增益率(Gain ration)将输出节点的个数纳入考量 C4.5
决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该
子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2
(X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &
VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料