这一篇,我们讨论广义线性回归模型的具体形式的另一种形式,逻辑回归(logistic regression)。 逻辑回归是用来做分类任务的。分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上。学
本章我们要讨论一种简单的非线性模型, 用来解决回归与分类问题, 称为决策树(decision tree)。首先, 我们将用决策树做一个广告屏蔽器, 可以将网页中的广告内容屏蔽掉。之后, 我们介绍集成学
一、置信区间 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个
现在有一张朱迪的照片,这张照片有500多列的像素点构成,但是大部分地方都是白色的,相互没有什么差别,也就是说图像中有很多列都是相互线性相关的,这些列向量对我们接受图像信息没有更大的帮助。那么我们能不能
这篇文章主要解读什么是信息熵及其相关概念,以及如何进行信息增益的计算和它在decision tree中的运用。 信息熵与热力学熵 学过化学或热力学的同学可能了解热力学熵。 熵的概念由德国物理学家克
1、分形理论简介 一直以来,有效市场假说 ( EMH)作为一种线性、简单的均衡范式主宰着金融经济学的理论研究;然而 , 实证研究表明 , 资本市场的波动具有很多复杂和有趣的特征 , 这些
下面,使用python模块库sklearn自带的iris标准数据集进行简单测试。 获得的分类图为: 此外,尝试在优矿平台上,对股票的涨跌幅进行分类,选取的指标包括PE、KDJ_D,KDJ_J和ARBR
机器学习中的预测问题通常分为2类: 回归 与 分类 。简单的说回归就是预测数值,而分类是给数据打上标签归类。本文讲述如何用Python进行基本的数据拟合,以及如何对拟合结果的误差进行分析。 本例中使用
机器识别手写数字的问题早已经解决,如今机器识别的准确率已经超过99%。事实上,这种问题无法通过一条条规则去hard code式的解决,我们不得不承认机器确实学到了东西。但我们好奇的是机器到底学到了什么
1.算法介绍: kNN (k-Nearest Neighbour) 算法是一种用于分类和回归的非参数的方法,可以用目标点周围所观察到的数据得平均值来预测出目标点 x 的值。本文将会介绍kNN的回归和分
特征提取步骤 1. 卡方检验 1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词
在 系列 一 的教程中,我们想继续有关股票价格预测的主题,并赋予在系列1中建立的具有对多个股票做出响应能力的RNN。 为了区分不同价格序列之间相关的模式,我们使用股票信号嵌入向量作为输入的一部分。
K-means clustering To start out we're going to implement and apply K-means to a simple 2-dimensional
概述 我们将解释如何建立一个有LSTM单元的RNN模型来预测S&P500指数的价格。 数据集可以从Yahoo!下载。 在例子中,使用了从1950年1月3日(Yahoo! Finance可以追溯到的最大
In this exercise, we'll be using support vector machines (SVMs) to build a spam classifier. We'll st