平稳即时间序列的行为并不随时间改变,一组平稳的数据意味着它在一段时间内围绕在一个范围内上下浮动,要达到平稳,需要达到三个条件:
平稳分为宽平稳及严平稳,严平稳要求所有统计性质都不随时间t变化,过于严格,一般要求一到二阶的统计性质不随时间变化即可,即宽平稳。差分是使时间序列得以平稳的一个很重要的过程,但是差分的阶数选择不对,或者差分的次数过多,反而会丢失太多时间序列的信息。一般也就一到二阶。差分能够减少时间序列的非平稳性。差分若干次后平稳的时间序列,称为单整的。对于单个非平稳时间序列,可采用差分后平稳序列建立自回归模型。
如果序列波动很大,也就是方差比较大,可以对序列作对数转换以减缓其波动幅度。如果序列存在明显趋势,且呈现近似一条直线的趋势,可以对序列作一阶差分,从而消除趋势性。如果序列存在明显的S期季节性,则可对序列作S阶差分,从而消除季节性
下面给出非平稳序列的四种可能:
时间序列分析最重要的应用是分析和表征观察值之间的相互依赖性与相关性,若对这种相关性进行量化处理,那么就可以方便地从系统的过去值预测将来的值。在数理统计中讨论的线性回归模型,很好地表示了因变量对自变量的相关性,解决了它们之间的相关性问题,但是,对一组随机观测数据,即一个时间序列内部的相关关系它却描述不出来,即它不能描述数据内部之间的相互依赖关系。易见,自回归模型描述了数据序列内部的递推的线性回归关系。自回归模型是描述系统内部的回归关系,故称为自回归,与通常的线性回归性质是不一样的。
残差项为白噪声,白噪声指分布均匀,所有频率具有相同能量密度的随机噪声,统计学中,即是零均值且常方差的随机序列,是个纯随机过程,也即无特征可寻,不存在相关性等性质。在统计学中,建立回归方程,希望提取的信息越多越好,也即希望回归后的残差项信息完全提取完毕,那么残差项即白噪声,通过检验残差项的性质可判断回归方程的优劣。白噪声服从维纳过程。
以AR(1)模型也即随机游走模型,也即DF检验的数据生成模型来举例其平稳性判别准则:
非平稳时间序列的特殊性,使得平稳时间序列的有关统计性质不再成立。及以此为基础构造的各种假设检验不再有效,平稳性是时间序列分析中重要的前提条件。数据非平稳,大样本下的统计推断基础即一致性要求被破坏,各种假设检验不再有效,另外,数据非平稳,往往导致"虚假回归"问题,表现为两个本来没有任何因果关系的变量却有很高的相关性,例如,如果有两列非平稳时间序列数据表现出一致的变化趋势,即使它们没有任何有意义的关系,但进行回归也可表现出较高的可决系数。
为何会出现伪回归即虚假回归呢?序列X与序列Y可能会同时遭到同一个冲击的影响,当X与Y是平稳序列时,这个冲击会在当期或经过几期后消散掉。而当序列X与序列Y是非平稳序列时,这个冲击会持续影响这两个变量,使得两个变量在相当长的时间里,具有相似的走势。理论上,随着样本量的不断增加,本来不相关的两个非平稳序列逐渐显现出越来越显著的相关性,这就是伪回归。
举例AR(1)及AR(2)自相关系数计算的公式,AR(P)模型的自相关系数具有拖尾性和呈指数衰减的两个显著性质。
偏自相关系数的计算公式近似于皮尔逊相关系数,分子是协方差,分母为标准差,但是皮尔逊相关系数的分母是序列X与序列Y的标准差乘积,偏自相关系数仅仅是单个序列的标准差罢了,异曲同工。
首先致敬两位创造该检验方法的美国统计学家:戴维.迪基、韦恩.富勒
注释:模型1不带截距项(漂移项)及时间趋势项;模型2只带截距项(漂移项);模型3带截距项(漂移项)及时间趋势项;零假设是假设存在单位根即是不平稳;备择假设即平稳。对于模型的选择,可做出时序图,若序列并不围绕0值上下波动,那么往往带有漂移项即截距项,若时序明显具有随时间变化的线性趋势,则要带有时间趋势项,当然逐个模型检验也是OK的。
相关推荐: