一、置信区间 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个
现在有一张朱迪的照片,这张照片有500多列的像素点构成,但是大部分地方都是白色的,相互没有什么差别,也就是说图像中有很多列都是相互线性相关的,这些列向量对我们接受图像信息没有更大的帮助。那么我们能不能
这篇文章主要解读什么是信息熵及其相关概念,以及如何进行信息增益的计算和它在decision tree中的运用。 信息熵与热力学熵 学过化学或热力学的同学可能了解热力学熵。 熵的概念由德国物理学家克
1、分形理论简介 一直以来,有效市场假说 ( EMH)作为一种线性、简单的均衡范式主宰着金融经济学的理论研究;然而 , 实证研究表明 , 资本市场的波动具有很多复杂和有趣的特征 , 这些
下面,使用python模块库sklearn自带的iris标准数据集进行简单测试。 获得的分类图为: 此外,尝试在优矿平台上,对股票的涨跌幅进行分类,选取的指标包括PE、KDJ_D,KDJ_J和ARBR
机器学习中的预测问题通常分为2类: 回归 与 分类 。简单的说回归就是预测数值,而分类是给数据打上标签归类。本文讲述如何用Python进行基本的数据拟合,以及如何对拟合结果的误差进行分析。 本例中使用
机器识别手写数字的问题早已经解决,如今机器识别的准确率已经超过99%。事实上,这种问题无法通过一条条规则去hard code式的解决,我们不得不承认机器确实学到了东西。但我们好奇的是机器到底学到了什么
一、套利理论 套利是指期货市场参与者利用不同月份、不同市场、不同商品之间的差价。同时买入和卖出两种不同种类的期货合约以从中获取无风险利润的交易行为。套利一般有三种形式:跨期套利、跨市套利、跨品种套
一、 功能概述 关键词词频&网络图是以股票论坛、 个股新闻、研究报告三个网站作为数据源,以文本数据挖掘作为核心技术,以 Lucene 检索作为系统框架, 以证券分析为目的, 实现的智能文
大数据指的是创建的数据和供分析的数据的数量与速率迅速增加。大数据使分析师和数据专家有机会获得更好的见解,进行更明智的决策,但是它同时也会带来许多的挑战:可用的内存可能无法足以处理大数据集,可能需要花太
1.算法介绍: kNN (k-Nearest Neighbour) 算法是一种用于分类和回归的非参数的方法,可以用目标点周围所观察到的数据得平均值来预测出目标点 x 的值。本文将会介绍kNN的回归和分
今天我们来详细解读一下什么是信息熵及其相关概念,以及如何进行信息增益的计算和它在decision tree中的运用。 信息熵与热力学熵 学过化学或热力学的同学可能了解热力学熵。 熵的概念由德国物理
决策树 决策树方法(decision tree)是一种代表因子值和预测值之间的一种映射关系。从决策树的“根部”往“枝叶”方向走,每路过一个节点,都会将预测值通过因子的值分类。决策树的结构如下所示: 如
特征提取步骤 1. 卡方检验 1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词
引言 发现金融泡沫并预测到其何时破裂是很多从事金融行业的人的梦想。如今中国股市也成为了热门的话题,然而,资本狂欢之后是股灾,多少人因此从千万富翁炒股变成百万富翁,预测泡沫是所有人的梦想