Matlab机器学习——用Matlab编写的文本分类程序

2018-07-10
3427
0
0
1
量化投资与机器学习

Matlab 频率文档

特征提取步骤

1. 卡方检验

1.1 统计样本集中文档总数（N）。

1.2 统计每个词的正文档出现频率（A）、负文档出现频率（B）、正文档不出现频率）、负文档不出现频率。

1.3 计算每个词的卡方值，公式如下：

1.4 将每个词按卡方值从大到小排序，选取前k个词作为特征，k即特征维数。

1.5 进一步化简，注意如果给定了一个文档集合（例如我们的训练集）和一个类别，则N，M，N-M（即A+C和B+D）对同一类别文档中的所有词来说都是一样的，而我们只关心一堆词对某个类别的开方值的大小顺序，而并不关心具体的值，因此把它们去掉是完全可以的，故实际计算的时候我们都使用

2. 信息增益

2.1 统计正负分类的文档数:N1、N2。

2.2 统计每个词的正文档出现频率（A）、负文档出现频率（B）、正文档不出现频率）、负文档不出现频率。

2.3 计算信息熵

2.4 计算每个词的信息增益

2.5 将每个词按信息增益值从大到小排序，选取前k个词作为特征，k即特征维数。

例子

10月23日十佳球：亨利快攻隔人扣，九指扣将占两席(篮球)
欧冠第三轮全进球：阿扎尔&科斯塔60米奔袭(足球)
C罗皇马生涯50大经典进球(足球)
2013中网女单第三轮：李娜2-0淘汰利斯基集锦 (网球)
13韩国站排位赛集锦 (赛车)
10月 23日十佳球亨利快攻隔人扣九指扣将占两席
欧冠第三轮全进球阿扎尔科斯塔 60 米奔袭
C 罗皇马生涯 50 大经典进球
2013 中网女单第三轮李娜 2-0 淘汰利斯基集锦
13 韩国站排位赛集锦

部分代码展示

文件预览

免责声明：信息仅供参考，不构成投资及交易建议。投资者据此操作，风险自担。

如果觉得文章对你有用，请随意赞赏收藏

收藏点赞

1人赞赏收藏

Matlab机器学习——用Matlab编写的文本分类程序

1. 卡方检验

2. 信息增益

例子

相关推荐

掌握超级账本开发后，总结出 7 条学习心得

随机数生成及其在统计模拟中的应用

深度学习Matlab工具箱代码详解概览

Matlab的内存问题讨论

相关下载

商品期货多空博弈增强版Matlab

股指期货Adapt Escalator策略Matlab

商品期货BIAS指标策略Matlab

商品期货以小博大策略Matlab

登录后评论

宽客在线

关于我们

联系我们

Matlab机器学习——用Matlab编写的文本分类程序

1. 卡方检验

2. 信息增益

例子

相关推荐

相关下载

分享文章:

登录后评论

宽客在线

关于我们

联系我们