十大经典数据挖掘算法——Apriori

2018-07-17
2704
0
0
0
Treant

Apriori 数据挖掘机器学习

1. 关联分析

关联分析是一类非常有用的数据挖掘方法，能从数据中挖掘出潜在的关联关系。比如，在著名的购物篮事务（market basket transactions）问题中，

关联分析则被用来找出此类规则：顾客在买了某种商品时也会买另一种商品。在上述例子中，大部分都知道关联规则：{Diapers} → {Beer}；即顾客在买完尿布之后通常会买啤酒。后来通过调查分析，原来妻子嘱咐丈夫给孩子买尿布时，丈夫在买完尿布后通常会买自己喜欢的啤酒。但是，如何衡量这种关联规则是否靠谱呢？下面给出了度量标准。

支持度与置信度

暴力方法

若（对于所有事务集合）项的个数为dd，则所有关联规则的数量：

如果采用暴力方法，穷举所有的关联规则，找出符合要求的规则，其时间复杂度将达到指数级。因此，我们需要找出复杂度更低的算法用于关联分析。

2. Apriori算法

Agrawal与Srikant提出Apriori算法，用于做快速的关联规则分析。

频繁项集生成

根据支持度的定义，得到如下的先验定理：

定理1：如果一个项集是频繁的，那么其所有的子集（subsets）也一定是频繁的。

这个比较容易证明，因为某项集的子集的支持度一定不小于该项集。

定理2：如果一个项集是非频繁的，那么其所有的超集（supersets）也一定是非频繁的。

定理2是上一条定理的逆反定理。根据定理2，可以对项集树进行如下剪枝：

项集树共有项集数：。显然，用穷举的办法会导致计算复杂度太高。对于大小为k−1的频繁项集F_k−1，如何计算大小为k的频繁项集F_k呢？Apriori算法给出了两种策略：

1.F_k=F_k−1×F₁方法。之所以没有选择F_k−1与（所有）1项集生成F_k，是因为为了满足定理2。下图给出由频繁项集F₂与F₁生成候选项集C₃：

2.F_k=F_k−1×F_k−1方法。选择前k−2项均相同的f_k−1进行合并，生成F_k−1。当然，F_k−1的所有f_k−1都是有序排列的。之所以要求前k−2项均相同，是因为为了确保F_k的k−2项都是频繁的。下图给出由两个频繁项集F₂生成候选项集C_3：

生成频繁项集F_k的算法如下：

关联规则生成

关联规则是由频繁项集生成的，即对于F_k，找出项集h_m，使得规则f_k−h_m⟶h_m的置信度大于置信度阈值。同样地，根据置信度定义得到如下定理：

定理3：如果规则X⟶Y−X不满足置信度阈值，则对于X的子集X′，规则X′⟶Y−X′也不满足置信度阈值。

根据定理3，可对规则树进行如下剪枝：

关联规则的生成算法如下：

免责声明：信息仅供参考，不构成投资及交易建议。投资者据此操作，风险自担。

如果觉得文章对你有用，请随意赞赏收藏

最新文章

周排行

套利新玩法：海力士套利狂热之后，还有机会藏在 EWY 里

月排行

相关推荐

十大经典数据挖掘算法——k-means

十大经典数据挖掘算法——SVM

十大经典数据挖掘算法——EM

Python数据挖掘与机器学习，快速掌握聚类算法和关联分析

相关下载

宽客在线

为宽客量身打造的资讯和在线工具平台

hi@quantinfo.com

开始量化交易

关于我们

联系我们

订阅我们以获得重要的新闻和服务

微信二维码

Copyright © 2019 宽客在线

隐私条款