Time Series Models , 整体是有关未来的预测, 可能是由 Y 自身出发进行
plot 先观察变量的变化趋势
数据处理
滞后 (Lags 即是上一期的数据) L.Y
一阶差分 (First difference) D.Y
ΔYt=Yt−Yt−1⇒ΔYt=Yt−L.Yt=(1−L)Yt
Δ2Yt==(1−L)2Yt
Δ3Yt==(1−L)3Yt
自然对数与增长率
取对数可将指数增长变成线性变化
应对存在的异方差问题
Growth Rate=Yt−1Yt−Yt−1=Yt−1ΔYt≈Δln(Yt)
Δln(Yt)=ln(Yt)−ln(Yt−1)
自协方差
Cov(Yt,Yt−1)
自相关系数
ρ⇒(X and Y)
ρ⇒(X and Y)
jthautocorrelation=ρj=var(Yt)var(Yt−j)cov(Yt,Yt−1)
自协方差及自相关均可以在 stata 做时间序列图
1 2 3
| pwcorr y1 L2.ya,sig corrgram y1,lag(20) ac y1
|
平稳性及其检验
过去的变化及波动应该处于合理的区间, 以保障预测存在合理性;
严平稳性 -yt
{y1,y2,...,yt} 的联合概率分布与{y1+k,y2+k,...,yt+k} 的联合概率分布相同
弱平稳性(常用)
yt的均值、方差不随时间变化, 协方差仅与观测值之间的距离而与所处的时间点无关
E(yt)=μ
var(yt)=E(yt−μ)2=σ2
cov(yt,yt+k)=γk=E[(yt−μ)(yt+k−μ)]=E[(yt+m−μ)(yt+m+k−μ)]
非平稳时, 期望值是依赖时间变化的
常见非平稳随机过程 (stochastic processes)
无漂浮随机游走 (Random Walk without Drift)
Yt=Yt−1+et
其中et 是均值为 0, 方差为σ2 的白噪声 (shock)
Yt=Y0+∑et
then:
E(Yt)=E(Y0+∑et)=Y0
var(Yt)=tσ2
随时间的增加, 方差会增大;
有漂浮随机游走 (Random Walk with Drift)
yt=δ+yt−1+et (漂浮项δ , 使时间序列有时间趋势——非平稳)
伪回归现象 (spurious regression)
时间序列不平稳时, 产生伪回归现象;
Yt=Y0+∑e1t
Xt=X0+∑e2t
e1t 与e2t 弱相关关系, 由此产生的两个随机游走时间序列应同样没有相关关系, 但回归测试后发现存在显著相关关系;
对两个序列做差分, 可能会使序列变得平稳;
回归之前需要先检验, 如果检验不平稳, 需要处理为平稳序列;
平稳性检验
避免伪回归现象;
判断方法:
散点图判断平稳性(看均值或者离散程度);
样本自相关函数判断平稳性:
总体自相关函数(autocorrelation function, ACF)
ρk=γ0γk=var(yt)cov(yt,yt+k)
样本 ACF
ρk=γ0γk=∑(yt−y)2∑(yt−y)(yt+k−y)
白噪声的ACF=0 , 是没有信息可以提取的平稳序列;
非平稳序列的 ACF 衰减比较慢;
White Noise (i.i.d- independent and identically distributed)
Gaussian white noise: 服从 0 均值,σ2方差的正态分布;
All the ACFS are zeros;
Test:
Portmanteau (Q)Statistic:Q∗=T∑l=1mρl2
非平稳时间序列 ACF 特征:当 k 增大时, 衰减比较慢;
平稳时间序列 ACF 特征:当 k 增大时, 衰减比较快;
单位根 (unit root)
yt=ρyt−1+et
yt−ρyt−1=et
yt−ρLyt=et
(1−ρL)yt=et
⇒1−ρz=0
z=ρ1>1 为平稳序列
ρ=1 则该过程为无漂移随机游走随机过程, 该过程非平稳, 称该过程具有单位根;可以做一次差分使序列变得平稳;(一个单位根)
∣ρ∣<1 时, 可以证明yt 是平稳的;
若yt=2yt−1−yt−2+et 可得z1=1,z2=1 存在两个单位根, 做两次差分, 变得平稳;
Dickey-Fuller 单位根检验
yt=ρyt−1+et
两边同时减去yt−1
then:yt−yt−1=(ρ−1)yt−1+et 即Δyt=δyt−1+et
检验原假设:H0:δ=0
Augmented Dickey-Fuller (ADF) test
Δyt=δyt−1+∑j=1LλjΔyt−j+et
Δyt=α+δyt−1+∑j=1LλjΔyt−j+et
Δyt=α+βt+δyt−1+∑j=1LλjΔyt−j+et
带有时间趋势项的非平稳序列, 可以通过去除趋势项使其变的平稳;
AR 模型
时间序列分析是短期预测方法, 时间序列模型不是不同变量间的“因果”关系为基础, 而是寻找时间序列自身的变化规律;
Autoregression Integrated Moving Average model (or Box-Jenkins 方法)
先将非平稳序列处理平稳, 再建模;
依据变量自身的变化规律, 利用外推机制描述时间序列的变化;
AR 模型 (Autoregression Model)
一阶自回归—AR(1)
yt=ϕ0+ϕ1yt−1+et
p 阶自回归—AR(p)
yt=ϕ0+ϕ1yt−1+ϕ2yt−2+ϕ3yt−3+...+ϕpyt−p+et
AR 模型识别
(1) 利用 ACF (Autocorrelation Function) 和 PACF (Partial Autocorrelation Function)
ACF 自相关函数ρk=γ0γk=var(yt)cov(yt,yt+k)
PACF:描述yt 与yt−k之间的条件相关性, 即在消除中间变量yt−1,...,yt−k+1 带来的间接相关性后,yt与yt+k 之间的直接相关性;
PACF 由 Yule-Walker 方程求出;
(2) 利用 AIC、SIC 等信息准则
AR 模型估计:
OLS
MLE
AR 模型预测
(1) 1-step ahead Forecasting
(2) 2-step ahead forecasting
(3) multistep ahead Forecasting
MA (moving average)模型
ARMA 模型
ARIMA(p, d, q)模型建模
- 对原序列进行平稳性检验, 如果不满足平稳性的条件, 可以通过差分变
换或者其他变换(如先取对数然后再差分)将该序列变为平稳序列; - 对平稳序列计算 ACF 和 PACF, 初步确定 ARMA 模型的阶数 p 和 q, 并
在初始估计中选择尽可能较少的参数; - 估计 ARMA 模型的参数, 借助 t 统计量初步判断参数的显著性, 尽可能
剔除不显著的参数, 保持模型的结构精简; - 对估计的 ARMA 模型的扰动项进行检验, 看其是否为白噪声序列;
- 当有几个较为相似的 ARMA 模型可供选择时, 可以通过 AIC 或 SIC 等
标准来选择最优模型。
协整
- 不平稳的变量, 不能使用经典回归模型, 否则会出现伪回归问题;
- 非平稳 → 差分转换成平稳 → 适合描述短期状态或非均衡状态− 长期均衡状态应该使用变量本身(level data)
- 如果在一个回归中涉及的两个或多个时间序列“一起漂移”或“同步”, 则可能没有伪回归问题。
- 协整:
- 协整检验:
两变量 Engle-Granger 检验
误差修正
- ECM 模型
Granger 因果关系检验
- 一般在 VAR 模型框架下进行
- 检验假设
ARCH 和 GARCH
- 金融时间序列
原数据是随机游走(random walk)过程(非平稳的);
一阶差分后是平稳的, 但是表现为剧烈波动性, 这种波动性表现在两个方面:
— 波动性随时间而变化;波动性聚集现象(volatility clustering) - 自回归条件异方差模型 (Autoregressive Conditional Heteroscedasticity , ARCH)
- 广义自回归条件异方差模型 (Generalized Autoregressive Conditional Heteroscedasticity, GARCH)