Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
了解决策树和C4.5算法
Search
yafei002
January 08, 2017
Technology
270
1
Share
了解决策树和C4.5算法
yafei002
January 08, 2017
More Decks by yafei002
See All by yafei002
了解人工神经网络
yafei002
1
220
了解朴素贝叶斯
yafei002
1
240
了解K-Means算法
yafei002
1
220
了解KNN算法
yafei002
0
170
数据可视化之视觉感知与认知
yafei002
1
400
数据可视化之地理信息可视化
yafei002
1
400
数据可视化之层次和网络数据可视化(上)
yafei002
1
690
数据可视化之复杂高维多元数据的可视化(上)
yafei002
1
290
Data Visualization Introduction and History
yafei002
1
320
Other Decks in Technology
See All in Technology
[Scram Fest Niigata2026]Quality as Code〜AIにQAの思考を再現させる試み〜
masamiyajiri
1
250
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
850
Forget technical debt
ufried
0
170
AIエージェントの支払い基盤 AgentCore Payments概要
kmiya84377
1
120
QAエンジニアはどうやって プロダクト議論の場に入れるのか?
moritamasami
2
400
もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!
morinota
0
190
需要創出(Chatwork)×供給(BPaaS) フライホイールとMoat 実行能力の最適配置とAI戦略
kubell_hr
0
2k
小さいVue.jsを30分で作る
hal_spidernight
0
140
『生成AI時代のクレデンシャルとパーミッション設計 — Claude Code を起点に』の執筆企画
takuros
3
2.2k
MySQL 9.7がやってきた ~これまでのあらすじと基本情報~ @ 日本MySQLユーザ会会2026年04月 / mysql97-yattekita
sakaik
0
170
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
2
140
フロントエンドの相手が変わった - AIが加わったWebの新しいインターフェース設計
azukiazusa1
33
10k
Featured
See All Featured
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
A Soul's Torment
seathinner
6
2.8k
Facilitating Awesome Meetings
lara
57
6.8k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
820
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.5k
Bash Introduction
62gerente
615
210k
What does AI have to do with Human Rights?
axbom
PRO
1
2.1k
A better future with KSS
kneath
240
18k
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Agile that works and the tools we love
rasmusluckow
331
21k
Transcript
了解决策树与 C4.5算法 yafei002
决策树工作原理
如何选择节点 熵(entropy):信息的期望值
如何选择节点 决策树算法选择最大增益作为最佳划分 增益:
如何选择节点 增益偏向于取值多的属性 增益率(Gain ration)将输出节点的个数纳入考量 C4.5
决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该
子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2
(X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &
VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料