Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
了解决策树和C4.5算法
Search
yafei002
January 08, 2017
Technology
1
230
了解决策树和C4.5算法
yafei002
January 08, 2017
Tweet
Share
More Decks by yafei002
See All by yafei002
了解人工神经网络
yafei002
1
190
了解朴素贝叶斯
yafei002
1
210
了解K-Means算法
yafei002
1
190
了解KNN算法
yafei002
0
160
数据可视化之视觉感知与认知
yafei002
1
330
数据可视化之地理信息可视化
yafei002
1
310
数据可视化之层次和网络数据可视化(上)
yafei002
1
320
数据可视化之复杂高维多元数据的可视化(上)
yafei002
1
270
Data Visualization Introduction and History
yafei002
1
300
Other Decks in Technology
See All in Technology
Amplify 🩷 Bedrock 〜生成AI入門〜
minorun365
PRO
8
720
require(ESM)とECMAScript仕様
uhyo
4
970
いいたいことちゃんという
tkengo
0
230
DMM.com アルファ室採用案内資料
hsugita
1
230
エンジニア候補者向け資料2024.04.24.pdf
macloud
0
3.4k
競技としてのKaggle、役に立つKaggle
yu4u
6
2.3k
IaCジェネレーターとBedrockで詳細設計書を生成してみた
tsukasa_ishimaru
4
890
ルーターでプレゼンする
puhitaku
1
3.3k
止まらないLinuxシステムを構築する_高信頼性クラスタ入門
koedoyoshida
2
430
Autonomous Database Cloud 技術詳細 / adb-s_technical_detail_jp
oracle4engineer
PRO
15
35k
認知症フレンドリーテックとスタックチャン
naokiuc
0
250
非同期推論システムによるコスト削減と信頼性向上
koki_nishihara
1
360
Featured
See All Featured
Atom: Resistance is Futile
akmur
260
25k
From Idea to $5000 a Month in 5 Months
shpigford
378
45k
How to Ace a Technical Interview
jacobian
273
22k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
242
1.2M
Clear Off the Table
cherdarchuk
85
310k
Fireside Chat
paigeccino
22
2.6k
How GitHub (no longer) Works
holman
305
140k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
22
1.6k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
14
1.5k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Cost Of JavaScript in 2023
addyosmani
20
3.9k
Transcript
了解决策树与 C4.5算法 yafei002
决策树工作原理
如何选择节点 熵(entropy):信息的期望值
如何选择节点 决策树算法选择最大增益作为最佳划分 增益:
如何选择节点 增益偏向于取值多的属性 增益率(Gain ration)将输出节点的个数纳入考量 C4.5
决策树剪枝 为了避免生成的树过多从而过度拟合训练数据,需要对生成的决策树进行剪枝。 C4.5算法引入了悲观剪枝的方法。 悲观剪枝: 1. 一个节点对应N个实例和E个错误,则该 节点的经验错误率=(E+罚项)/ N 2. 一个子树有L个叶子节点,这些叶子节点共包含∑N个实例和∑E个错误,则该
子树的经验错误率=( ∑ E+L*罚项)/ ∑N 3. 假设子树被它的最佳叶节点替换后,在训练数据集的错误为J,如果 J+罚项<= ∑E+罚项*L + ( ∑ E+罚项)的一倍的标准差 则决定用该最佳节点替换子树
决策树剪枝 X T1 T2 T3 X T1 T2 T3 T2
(X输出最大) (最佳叶节点) 剪枝是单一的自底向上的遍历的过程 图:一个剪枝的中间步骤
PANG-NINGTAN, MICHAELSTEINBACH, & VIPINKUMAR. (2011). 数据挖掘导 论:完整版. 人民邮电出版社. 吴信东, &
VipinKumar. (2013). 数据挖掘十大算法. 清华大学出版社. 参考资料