本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
方差是衡量源数据和期望值相差的度量值。

方差历史

“方差”(variance)这一词语率先由罗纳德·费雪(Ronald Fisher)在其论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance [1]  中提出。

方差方差的定义

方差在统计描述和概率分布中各有不同的定义,并有不同的公式。
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
为总体方差,
为变量,
为总体均值,
为总体例数。
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
S^2= ∑(X-
) ^2 / (n-1) [2] 
S^2为样本方差,X为变量,
为样本均值,n为样本例数。
在概率分布中,设X是一个离散型随机变量,若E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值 [1]  ,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。 [2]  离散型随机变量方差计算公式:
D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2
当D(X)=E{[X-E(X)]^2}称为变量X的方差,而
称为标准差或均方差。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的统计量 [3] 
对于连续型随机变量X,若其定义域为(a,b),概率密度函数为f(x),连续型随机变量X方差计算公式:
D(X)=(x-μ)^2 f(x) dx [2] 
方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大)
若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。
因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。

方差方差的性质

1、设C是常数,则D(C)=0
2、设X是随机变量,C是常数,则有
3、设 X 与 Y 是两个随机变量,则
其中协方差
特别的,当X,Y是两个不相关的随机变量则
此性质可以推广到有限多个两两不相关的随机变量之和的情况。
4、D(X)=0的充分必要条件是X以概率1取常数E(X),即
(当且仅当X取常数值E(X)时的概率为1时,D(X)=0。)
注:不能得出X恒等于常数,当x是连续的时候X可以在任意有限个点取不等于常数c的值。
5、D(aX+bY)=a2DX+b2DY+2abCov(X,Y)。
证明
1、
2、
3、
上式右端第三项为。
若X,Y相互独立,由数学期望的性质知道上式为0。
4、充分性:
,则有
必要性:用反证法 ,概率不会大于1,只需考虑是否等于1或小于1。
假设
,则对于某一个数
但是由切比雪夫不等式,当D(X)=0,满足
与上式矛盾。
于是
[4] 

方差种类及计算

方差离散型方差

离散型方差的计算式为:
,其中
而将上式展开后可得:

方差连续型方差

连续型方差的计算式为:
,其中
将上式展开后可得:
以上两式是一样的,只是写法不同。
证明:由数学期望的性质得

方差随机变量的期望和方差

方差离散型

X服从两点分布,则
X服从超几何分布,即
,则
X服从二项分布,即
,则
X服从泊松分布,即
,则

方差连续型

X服从均匀分布,即
X服从指数分布,即
, 则
X 服从正态分布,即
, 则
X 服从标准正态分布,即
, 则
求正态分布的数学期望&&方差
,求E(X),D(X).
,由于
,所以
,已知E(Z)=0,D(Z)=1,从而

方差示例

已知某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:
甲仪器测量结果:
乙仪器测量结果:全是a
两台仪器的测量结果的均值都是 a 。但是用上述结果评价一下两台仪器的优劣,很明显,我们会认为乙仪器的性能更好,因为乙仪器的测量结果集中在均值附近。
由此可见,研究随机变量与其均值的偏离程度是十分必要的。那么,用怎样的量去度量这个偏离程度呢?容易看到E[|X-E[X]|]能度量随机变量与其均值E(X)的偏离程度。但由于上式带有绝对值,运算不方便,通常用量E[(X-E[X])2] 这一数字特征就是方差。

方差公式

方差是实际值与期望值之差平方的平均值,而标准差是方差算术平方根。 [5]  在实际计算中,我们用以下公式计算方差。
方差是各个数据与平均数之差的平方的和的平均数,即
,其中,x表示样本的平均数,n表示样本的数量,xi表示个体,而s^2就表示方差。
而当用
作为样本X的方差的估计时,发现其数学期望并不是X的方差,而是X方差的
倍,
的数学期望才是X的方差,用它作为X的方差的估计具有“无偏性”,所以我们总是用
来估计X的方差,并且把它叫做“样本方差”。
方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作S2。 在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
公式可以进一步推导为:
。其中x为这组数据中的数据,n为大于0的整数。

方差统计学意义

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 [6] 
样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

方差最近进展

方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。当然,这个结论目前是在二阶统计矩下成立。 [7] 
参考资料
  • 1.    Ronald Fisher.The correlation between relatives on the supposition of Mendelian Inheritance:Royal Society of Edinburgh,1918
  • 2.    段广才.临床流行病学与统计学.郑州:郑州大学出版社,2002:332-62
  • 3.    盛骤,谢式千等.概率论与数理统计及其应用:高等教育出版社,2004年七月
  • 4.    盛骤 谢式千 潘承毅..概率论与数理统计(第四版):高等教育出版社,2008:103,106
  • 5.    陈晓龙等.概率论与数理统计:东南大学出版社,2011
  • 6.    课程教材研究所中学数学课程教材研究开发中心.《数学八年级下册》:人民教育出版社,2008:139~140
  • 7.    Yuli Zhang,Huaiyu Wu,Lei Cheng.Some new deformation formulas about variance and covariance:ICMIC,2012