数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家、哈佛大学终身教授刘军担任主任。日前
1. 前言 分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Ol
1. 朴素贝叶斯算法 朴素贝叶斯分类器的主要思路:通过联合概率P(x,y)=P(x|y)P(y)建模,运用贝叶斯定理求解后验概率P(y|x);将后验概率最大者对应的的类别作为预测类别。 分类方法
本文讨论的kNN算法是监督学习中分类方法的一种。所谓监督学习与非监督学习,是指训练数据是否有标注类别,若有则为监督学习,若否则为非监督学习。监督学习是根据输入数据(训练数据)学习一个模型,能对后来的输
1. 集成学习 集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(
1. 极大似然 极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布θ;那么可以通过最大似然估计方法求得。假如我
1. 关联分析 关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中, 关联分析则被用来找出
SVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(
1. 引言 k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。 聚类是数据挖掘
前段时间刚完成了一个分析网站流程的每个步骤的流失率,并用漏斗模型进行展示的需求,这里跟大家来分享一下。分析过程可以从以下三步展开:确定需要分析的访问路径或操作流程,收集数据并分别统计出该路径中每一步的
1、决策树模型与学习 决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Brei
无论低风险投资还是高风险投资,和长期的收益率没有直接的关系,低风险可能低收益,比如天天存活期,每天资金0回撤,高风险也可能低收益,股民70%都赔钱,低风险可能高收益,每年复利30%多,10年就是20倍
1. 引言 PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题。在衡量一个网页的排名,直觉告诉我们: 当一个网页被更多
所周知,期货价格只有三种运动方向:上涨、下跌和盘整。看起来很简单,但是真正交易起来,涨中有跌,跌中带涨,时不时有震荡加入其中,价格走向错综复杂;再加上恐惧和贪婪心理的存在加深了期货价格的波动幅度,让人
中长线交易 中长线交易要取得稳定良好的收益,必须对中长期的基本面 判断准确,这基于很好地掌握品种的供求关系,以及对产业的相关信息把握到位、及时,同时还必须对政策及经济环境有比较准确的分析。而拥有现货