十大经典数据挖掘算法——CART

2018-07-17
2430
0
0
0
Treant

算法 CART 属性

1. 前言

分类与回归树（Classification and Regression Trees, CART）是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出，既可用于分类也可用于回归。本文将主要介绍用于分类的CART。CART被称为数据挖掘领域内里程碑式的算法。

不同于C4.5，CART本质是对特征空间进行二元划分（即CART生成的决策树是一棵二叉树），并能够对标量属性（nominal attribute）与连续属性（continuous attribute）进行分裂。

2. CART生成

特征选择

CART对特征属性进行二元分裂。特别地，当特征属性为标量或连续时，可选择如下方式分裂：

An instance goes left if CONDITION, and goes right otherwise

即样本记录满足CONDITION则分裂给左子树，否则则分裂给右子树。

标量属性

进行分裂的CONDITION可置为不等于属性的某值；比如，标量属性Car Type取值空间为{Sports, Family, Luxury}，二元分裂与多路分裂如下：

连续属性

CONDITION可置为不大于εε；比如，连续属性Annual Income，εε取属性相邻值的平均值，其二元分裂结果如下：

CART算法

CART算法流程与C4.5算法相类似：

若满足停止分裂条件（样本个数小于预定阈值，或Gini指数小于预定阈值（样本基本属于同一类，或没有特征可供分裂），则停止分裂；
否则，选择最小Gini指数进行分裂；
递归执行1-2步骤，直至停止分裂。

3. CART剪枝

CART剪枝与C4.5的剪枝策略相似，均以极小化整体损失函数实现。同理，定义决策树TT的损失函数为：

L_α(T)=C(T)+α|T| (3)

其中，C(T)表示决策树的训练误差，αα为调节参数，|T|为模型的复杂度。

CART算法采用递归的方法进行剪枝，具体办法：

免责声明：信息仅供参考，不构成投资及交易建议。投资者据此操作，风险自担。

如果觉得文章对你有用，请随意赞赏收藏

收藏点赞

十大经典数据挖掘算法——CART

2. CART生成

特征选择

CART算法

3. CART剪枝

相关推荐

抛物线转向在商品期货择时策略中的应用

经典机器学习十大算法

机器学习：决策树算法原理及应用实例

从零开始，创建自己的区块链

相关下载

登录后评论

宽客在线

关于我们

联系我们

十大经典数据挖掘算法——CART

2. CART生成

特征选择

CART算法

3. CART剪枝

相关推荐

抛物线转向在商品期货择时策略中的应用

经典机器学习十大算法

机器学习：决策树算法原理及应用实例

从零开始，创建自己的区块链

相关下载

分享文章:

登录后评论

宽客在线

关于我们

联系我们