Matlab机器学习——用Matlab编写的文本分类程序

 

特征提取步骤

1. 卡方检验

1.1  统计样本集中文档总数(N)。

1.2  统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。

1.3 计算每个词的卡方值,公式如下:

 

1.4  将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。

1.5 进一步化简,注意如果给定了一个文档集合(例如我们的训练集)和一个类别,则N,M,N-M(即A+C和B+D)对同一类别文档中的所有词来说都是一样的,而我们只关心一堆词对某个类别的开方值的大小顺序,而并不关心具体的值,因此把它们去掉是完全可以的,故实际计算的时候我们都使用

2. 信息增益

2.1  统计正负分类的文档数:N1、N2。

2.2  统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。

2.3  计算信息熵

2.4  计算每个词的信息增益

2.5  将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。

 

例子

  • 10月23日十佳球:亨利快攻隔人扣,九指扣将占两席(篮球)
  • 欧冠第三轮全进球:阿扎尔&科斯塔60米奔袭(足球)
  • C罗皇马生涯50大经典进球(足球)
  • 2013中网女单第三轮:李娜2-0淘汰利斯基集锦 (网球)
  • 13韩国站排位赛集锦 (赛车)
  • 10月 23日 十佳 球 亨利 快攻 隔 人 扣 九 指 扣 将 占 两 席 
  • 欧 冠 第三 轮 全 进球 阿扎尔科斯塔 60 米 奔袭 
  • C 罗 皇 马 生涯 50 大 经典 进球 
  • 2013 中 网 女单 第三 轮 李娜 2-0 淘汰 利斯基 集锦 
  • 13 韩国 站 排位 赛 集锦

 

部分代码展示

 

文件预览

免责声明:信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。
如果觉得文章对你有用,请随意赞赏收藏
752903659 1人赞赏收藏
相关推荐
相关下载
登录后评论
Copyright © 2019 宽客在线