一元线性回归模型参数估计

  • 回归方程与模型设定

  • 经典假设 / 高斯假设——5 条(X,μi\mu_i)——同时满足为 BLUE 估计量

  • 高斯 - 马尔可夫定理——同正态分布

  • OLS 估计, 离差形式估计量
    β1^=xiyixi2\widehat{\beta_1} = \frac {\sum x_i y_i} {\sum x_i^2}

  • 极大似然估计

  • 经典假设下, OLS 估计的小样本与大样本性质

  • σ\sigma 的估计,σ^\widehat{\sigma}估计参数的方差与总方差
    σ2^=ei2n2\widehat{\sigma^2}=\frac {e_i^2} {n-2}

  • 拟合优度R2R^2 andadjR2adj-R^2

  • 显著性检验 -t 统计量

  • 1α1-\alpha置信水平下, 求参数或者估计量的置信区间

  • 预测值的估计量Y0^\widehat {Y_0}E(YX=X0)E(Y|X=X_0) 的无偏估计量

多元线性回归

  • 展开式与矩阵形式的方程及模型设定

  • 经典假设——5 条
    E(μi)=0E(\mu_i)=0 ,E(μμ)=σ2IE(\mu'\mu)=\sigma^2I ,μN(0,σ2I)\mu\thicksim N(0,\sigma^2I)

  • OLS 估计

  • 极大似然估计

  • MM 矩估计
    β^=(XX)1XY\widehat{\beta}=(X'X)^{-1}X'Y ,(离差形式:β^=(xx)1xY\widehat{\beta}=(x'x)^{-1}x'Y)

  • 满足经典假设的估计量性质:
    线性性
    无偏性
    有效性cov(β^)=σ2(XX)1cov(\widehat{\beta})=\sigma^2(X'X)^{-1}

  • σ^2=eenk1\widehat{\sigma}^2=\frac{e'e} {n-k-1}

  • 拟合优度:
    R2=ESSTSSR^2=\frac{ESS}{TSS} andadjR2=1(1R2)n1nk1adj-R^2=1-(1-R^2)*\frac{n-1}{n-k-1}
    AIC(赤池信息准则)=lneen+2(k+1)nln\frac{e'e}{n}+\frac{2(k+1)}{n}
    AC(施瓦茨准测)=lneen+knlnnln\frac{e'e}{n}+\frac{k}{n}lnn

  • 回归方程显著——F 统计量
    F=ESS/kRSS/nk1=R21R2×nk1kF(k,nk1)F=\frac{ESS/k}{RSS/n-k-1}=\frac{R^2}{1-R^2}\times\frac{n-k-1}{k}\thicksim F(k,n-k-1)

  • 受约束回归 / 解释变量数量是否变动:
    构造 F 统计量
    F=RSSRRSSU/(kUkR)RSSU/(nk1)F(kUkR,nk1)F=\frac{RSS_R-RSS_U/(k_U-k_R)}{RSS_U/(n-k-1)}\thicksim F(k_U-k_R,n-k-1)

  • 变量显著性检验——t 统计量
    t=β^βse(β^)t(n2)t=\frac{\widehat{\beta}-\beta}{se(\widehat{\beta}) }\thicksim t(n-2)

  • 参数置信区间:
    (β^tα2×se(β^),β^+tα2×se(β^))(\widehat{\beta}-t_{\frac{\alpha} {2} }\times se(\widehat{\beta} ),\widehat{\beta}+t_{\frac{\alpha} {2} }\times se(\widehat{\beta} ) )

    se(β^)=σ^Ciise(\widehat{\beta} )=\widehat{\sigma} C_{ii}

  • E(Y0)E(Y_0)的置信区间
    Y0^tα2×se(Y0^),Y0^+tα2×se(Y0^)\widehat{Y_0}-t_{\frac{\alpha}{2}}\times se(\widehat{Y_0}),\widehat{Y_0}+t_{\frac{\alpha}{2}}\times se(\widehat{Y_0})

    se(Y0^)=σ^X0(XX)1X0se(\widehat{Y_0})=\widehat{\sigma}\sqrt{X_0(X'X)^{-1}X_0'}

  • Y0Y_0的置信区间
    e0=Y0Y0^e_0=Y_0-\widehat{Y_0}

    [Y0^tα2×se(e0),Y0^+tα2×se(e0)][\widehat{Y_0}-t_{\frac{\alpha}{2}}\times se(e_0),\widehat{Y_0}+t_{\frac{\alpha}{2}}\times se(e_0)]

    se(e0)=σ^1+X0(XX)1X0se(e_0)=\widehat{\sigma}\sqrt{1+X_0(X'X)^{-1}X_0'}

引入虚拟变量

  • 加法方式
  • 乘法方式

违背基本假定

  • 误差项存在异方差
  • 误差项之间序列相关
  • 误差项与解释变量之间相关, 内生性问题
  • 解释变量之间多重共线性
  • 模型设定偏误

多重共线性

  • c1xi1+c2xi2+...+ckxik=0c_1 x_{i1}+c_2 x_{i2}+...+c_k x_{ik}=0 , 其中cic_i 不全为 0——完全共线性

  • c1xi1+c2xi2+...+ckxik+vi=0c_1 x_{i1}+c_2 x_{i2}+...+c_k x_{ik}+v_i=0, 其中cic_i 不全为 0,viv_i为随机误差项——近似共线性 / 交互相关

  • Rank(X)<k+1\text{Rank}(X)<k+1——完全共线性

  • 产生原因:
    解释变量之间有相同变化趋势
    模型设定问题
    数据资料限制

  • 多重共线性后果
    OLS 估计量不存在 , 因为(XX)1(X'X)^{-1} 不存在
    OLS 估计量非有效,Cov(β^)=σ2(XX)1Cov(\widehat{\beta})=\sigma^2(X'X)^{-1}增大
    r2=x1ix2ix1ix2ir^2=\frac{\sum x_{1i} x_{2i}}{\sum x_{1i} \sum x_{2i}}

    r2=0r^2=0时, 完全不共线,var(β^)=σ2x12var(\widehat{\beta})=\frac{\sigma^2}{\sum x_1^2}

    0<r2<10<r^2<1, 近似共线,var(β^)=σ2x12×11r2>σ2x12var(\widehat{\beta})=\frac{\sigma^2}{\sum x_1^2} \times \frac{1}{1-r^2}>\frac{\sigma^2}{\sum x_1^2}, 其中11r2\frac{1}{1-r^2} 为方差膨胀因子;

    r2=1r^2=1, 完全贡献,var(β^)=var(\widehat{\beta})=\infty

    估计量不具有经济含义
    估计量反映的时解释变量对被解释变量的共同影响
    变量显著性检验失去意义
    存在多重共线性时, 估计参数的标准差和方差变大, 使 t 统计量变小
    模型预测功能失效
    预测的区间变大

  • 检验多重共线性问题
    检验是否存在多重共线性以及存在共线性的变量是哪些
    是否存在:变量间的相关系数r2r^2;或者看 OLS 估计中R2R^2FF统计量较大, 但tt 统计量较小 / 不显著
    判定系数法 :对每一解释变量以其他变量作为解释变量作辅助回归,Xji=α1X1i+α2X2i+...+αkXkiX_{ji}=\alpha_1 X_{1i}+\alpha_2 X_{2i}+...+\alpha_k X_{ki} 的判定系数Rj2R^2_j, 给定显著水平下, 计算F=Rj2/(k1)(1Rj2)/(nk)F(k1,nk)F=\frac{R^2_j/(k-1)}{(1-R^2_j)/(n-k)}\thicksim F(k-1,n-k)
    排除变量法:比较排除一个解释变量与加入改解释变量的R2R^2
    逐步回归法 :逐步加入解释变量, 观察R2R^2 变化是否显著

  • 克服多重共线性:
    排除引起多重共线性的变量——逐步回归法
    减小参数估计量的方差——岭回归法
    以引入偏误为代价, 减小参数估计量的方差

    β^=(XX+D)1XY\widehat{\beta}=(X'X+D)^{-1}X'Y

异方差

  • var(μi)=σi2var(\mu_i)=\sigma^2_i, 选取不同的样本, 随机误差项的方差不再是常数, 则认为存在异方差;
    同方差:σi2=\sigma^2_i=常数f(Xi)\neq f(X_i) and 异方差:σi2=f(Xi)\sigma_i^2=f(X_i)
    σi2=f(Xi)\sigma^2_i=f(X_i)σ\sigmaXX的关系, 可得单调递增型 / 单调递减型 / 复杂型

  • 异方差的后果:
    参数估计量非有效:
    OLS 估计量仍然无偏, 但不具有有效性, 由于E(μμ)=σ2IE(\mu'\mu)=\sigma^2I
    大样本下具有一致性, 但不具有渐进有效性
    变量显著性检验失去意义:
    t 统计量的构造建立在σ2\sigma^2 不变从而正确估计se(β^)se(\widehat{\beta})
    模型预测失效:
    预测值的置信区间使用到了参数的标准差估计量se(β^)se(\widehat{\beta})

  • 检验异方差:
    检验随机误差项与解释变量之间的相关性及相关“形式”

    varμi=E(μi2)ei~2var{\mu_i}=E(\mu_i^2)\approx \widetilde{e_i}^2

    ei~=Yi(Yi^)ols\widetilde{e_i}=Y_i-(\widehat{Y_i})_{ols}

    图示法
    X-Y 的散点图——是否存在明显的散点扩大、缩小或复杂变化

    X-e~2\widetilde{e}^2的散点图——平行于 X 轴 / 正相关 / 负相关 / 曲线
    布罗施 - 帕甘 (B-P) 检验
    检验随机项的方差是否与解释变量相关

    e~2=δ0+δ1Xi1+δ2Xi2+...+δkXik+εi\widetilde{e}^2=\delta_0+\delta_1X_{i1}+\delta_2X_{i2}+...+\delta_kX_{ik}+\varepsilon_i

    检验联合假设H0:δ0=δ1=δ2=...=δk=0H_0:\delta_0=\delta_1=\delta_2=...=\delta_k=0, 同方差的原假设

    R2R^2 构造 F 统计量或拉格朗日乘数(LM)

    F=R2/k(1R2)/(nk1)F(k,nk1)F=\frac{R^2/k}{(1-R^2)/(n-k-1)}\thicksim F(k,n-k-1)

    LM=nR2X2(K)LM=n·R^2\thicksim X^2(K)

    怀特 (White) 检验
    以二元为例
    Yi=β0+β1Xi1+β2Xi2+μiY_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\mu_i
    计算ei~2=YiYi^\widetilde{e_i}^2=Y_i-\widehat{Y_i}
    辅助回归:ei~2=α0+α1Xi1+α2Xi2+α3Xi12+α4Xi22+α5Xi1Xi2+εi\widetilde{e_i}^2=\alpha_0+\alpha_1X_{i1}+\alpha_2X_{i2}+\alpha_3X_{i1}^2+\alpha_4X_{i2}^2+\alpha_5X_{i1}X_{i2}+\varepsilon_i
    同方差假定下:nR2X2(h)nR^2\sim X^2(h) 渐进服从分布, 存在异方差时, 表明随机项的平方与解释变量的某种组合存在相关性

  • 异方差的修正:
    加权最小二乘法
    对原模型进行加权, 使其不存在异方差, 之后使用 OLS 估计

    Wiei2\sum W_ie_i^2:对较小的ei2e_i^2 赋予较大的权数, 较大的ei2e_i^2 赋予较大的权数

    var(μi)=E(μi2)=f(Xij)σ2var(\mu_i)=E(\mu_i^2)=f(X_{ij})\sigma^2

    1f(Xij)Yi=1f(Xij)β0+1f(Xij)β1Xi1+1f(Xij)β2Xi2+...+1f(Xij)βkXik+1f(Xij)μi\frac{1}{f(X_{ij})}Y_i=\frac{1}{f(X_{ij})}\beta_0+\frac{1}{f(X_{ij})}\beta_1X_{i1}+\frac{1}{f(X_{ij})}\beta_2X_{i2}+...+\frac{1}{f(X_{ij})}\beta_kX_{ik}+\frac{1}{f(X_{ij})}\mu_i

    var(μi)=1f(Xij)E(μi2)=σ2\Rightarrow var(\mu_i^*)=\frac{1}{f(X_{ij})}E(\mu_i^2)=\sigma^2

    β^=(XX)1XY\Rightarrow \widehat {\beta} = (X ^ { * '} X ^ * ) ^ {-1} X ^ {* '} Y ^ *

    方差μ\muXX的函数关系时估计, 成为可行的广义最小二乘法;

    异方差稳健标准误法
    异方差只影响估计量的标准差和方差, 不影响无偏性与一致性, 修正相应方差即可;
    得到的并非有效估计量, 但可以得到 OLS 正确方差估计, 使统计检验及预测区间更加可靠;

内生解释变量

  • 内生解释变量:
    内生解释变量与随机误差项同期相关, 异期不相关;
    内生解释变量与随机干扰项同期相关;

  • 内生解释变量产生原因:
    被解释变量与解释变量双向因果——联立因果关系
    使用联立方程模型来描述互为因果关系;
    联立方程模型的每个方程为结构方程;
    遗漏了重要解释变量, 且所遗漏的解释变量与其他解释变量同期相关
    解释变量存在测量误差

  • 内生解释变量问题的后果:
    不同性质的内生解释变量会产生不同的后果
    对截距项和斜率项同时存在影响, 可能高估也可能低估;
    参数估计量有偏;大样本下, 不同期相关是一致估计量, 同期相关是非一致估计量;

  • 工具变量法:
    满足条件:与内生解释变量相关性;与随机误差项不相关 - 外生性;与其他解释变量不高度相关;
    利用 MM 矩估计:矩条件——正规方程组;
    一元:β1^=ziyizixi\widehat{\beta_1}=\frac{\sum z_i y_i}{\sum z_i x_i}
    多元:β^=(ZX)1ZY\widehat{\beta}=(Z'X)^{-1}Z'Y
    大样本下为一致估计量;小样本下仍然是有偏的;

  • 三种估计方法:
    IV
    第一步是 OLS 法, 进行 X 关于工具变量 Z 的回归:X^i=α^0+α^1Zi\widehat{X}_i=\widehat{\alpha}_0+\widehat{\alpha}_1Z_i

    由第一步得到的X^i\widehat{X}_i 为解释变量再次进行 OLS 回归:Y^i=β~0+β~1X^i\widehat{Y}_i=\widetilde{\beta}_0+\widetilde{\beta}_1 \widehat{X}_i

    得到β^1=ziyizixi\widehat{\beta}_1=\frac{\sum z_i y_i}{\sum z_i x_i}

    2SLS: 一个内生解释变量有多个工具变量
    Yi=β0+β1Xi+β2Zi+μiY_i=\beta_0+\beta_1X_i+\beta_2Z_i+\mu_i , (Z 外生变量, X 为内生变量)

    第一阶段, 内生解释变量 X 关于工具变量Z1Z_1Z2Z_2ZZ的 OLS 回归(即关于含 IV 在内的所有外生变量回归), 得到 X 的拟合值:

    X^i=α^0+α^1Zi1+α^2Zi2+α^3Zi\widehat {X} _ i = \widehat {\alpha} _0 + \widehat {\alpha} _1 Z_ {i1} + \widehat {\alpha} _2 Z_{i2} + \widehat {\alpha} _3 Z _ {i}

    第二阶段, 以第一阶段的X^i\widehat{X}_i替代原模型的XiX_i 进行回归:

    Yi=β0+β1X^i+β2Zi+μiY_i=\beta_0+\beta_1\widehat{X}_i+\beta_2Z_i+\mu_i

    得到一致估计量;

    GMM 广义矩估计:一个内生解释变量有多个工具变量
    识别问题:1 个内生解释变量对应一个 IV 为恰好识别;否则为过度识别, 过度识别可使用 2SLS 方法;

  • 内生性检验:
    比较工具变量估计与直接 OLS 估计的结果是否有显著差异, 若差异显著, 为内生变量;
    豪斯曼 (Hausman) 检验
    第一步:将内生变量 X 关于Z1Z_1 andZ2Z_2 作 OLS 估计, 得到残差 V:

    Xi=α0+α1Zi1+α2Zi2+viX_i=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+v_i

    第二步:将残差加入原模型, 再做 OLS 估计:

    Yi=β0+β1Xi+β2Zi1+δV^i+εiY_i=\beta_0+\beta_1X_i+\beta_2Z_{i1}+\delta \widehat{V}_i+\varepsilon_i

    如果V^\widehat{V}的参数显著为 0, 表明随机误差项 v 与 Y 同期无关, 进而与原模型随机误差项μ\mu 同期无关, 外生变量Z1,Z2Z_1,Z_2 显然与μ\mu 同期无关, 则 X 与μ\mu 同期无关;

    不拒绝δ=0\delta=0 的假设, 则可判断 X 是同期外生变量, 否则 X 为同期内生变量;

    若有多个内生变量, 则逐个与外生变量做 OLS, 并将得到的残差都引入原模型;

  • 过度识别约束检验:
    内生解释变量对应的 IV 多于 1 个时, 要对其外生性进行检验:
    对原模型进行 2SLS
    记录的残差项关于 IV 及所有外生变量作 ols
    对工具变量前的系数做联合 F 检验

模型设定偏误

  • 偏误类型:
    相关变量遗漏;
    若遗漏的变量与解释变量相关, 估计的参数β1\beta_1 有偏 / 不一致;
    不相关, 则斜率项无偏, 截距项有偏
    方差估计有偏;
    无关变量误选;
    包含无关变量, 参数估计是无偏的, 但不具有最小方差;
    错误的函数形式;
    全方位的偏误;

  • 检验是否遗漏变量或函数形势设定偏误:
    残差图示法:做残差序列与 t 或 X 的散点图;
    遗漏变量时散点图有规律变动;
    函数形式有误, 残差序列成正负交替变化
    一般性设定偏误检验:RESET 检验
    将遗漏变量引入模型, 检验参数是否显著;

    事先不知道是否遗漏变量, 采用 Y 的估计值Y^\widehat{Y}的若干次幂充当该替代变量

    估计原模型, 得到残差及被解释变量的估计量

    根据图形引入Y^\widehat{Y}的若干次幂

    对增加变量的模型进行检验, F/t 检验

序列相关

  • 随机项之间存在相关性:
    cov(μi,μj)=E(μi,μj)0cov(\mu_i,\mu_j)=E(\mu_i,\mu_j)\neq 0
    var(μ)=E(μμ)=σ2Ωσ2Ivar(\mu)=E(\mu \mu')=\sigma^2\Omega\neq\sigma^2I

  • 仅存在cov(μt,μt+1)0cov(\mu_t,\mu_{t+1})\neq0 时, 为一阶列相关或自相关;
    μt+1=ρμt+εt\mu_{t+1}=\rho \mu_t+\varepsilon_t
    ρ\rho为自协方差系数或一阶自相关系数;

  • 白噪声

    εt\varepsilon_t 满足:

    E(εt)=0E(\varepsilon_t)=0 ,var(εt)=σ2var(\varepsilon_t)=\sigma^2 ,cov(εi,εis)=0cov(\varepsilon_i,\varepsilon_{i-s})=0

  • 产生序列相关的原因:
    经济变量固有的惯性——时间序列上的前后关联;
    模型设定偏误——遗漏重要的解释变量或函数形式设定偏误;
    数据的“编造”——新生成的数据与原始数据存在相关性;

  • 序列相关的后果:
    参数估计量非有效E(μμ)σ2IE(\mu'\mu)\neq\sigma^2I, 参数的有效性证明建立在同方差及相互独立的基础上;
    大样本情形下, 参数估计量是一致的, 但不具有渐进有效性;
    变量显著性检验失去意义:显著性检验同样建立在随机误差项同方差及相互独立的基础上, 存在序列相关时, 参数的方差估计存在偏误, t 统计量存在偏误;
    模型预测失效:异方差, 参数估计量方差的估计量存在偏误, 预测区间精度降低;

  • 序列相关检验:
    首先 OLS 估计, 得到随机误差项的近似估计et~=YtYt^\widetilde{e_t}=Y_t-\widehat{Y_t}, 分析随机误差项之间的相关性;
    图示法——et~t\widetilde{e_t}-t的散点图
    回归检验法
    et~\widetilde{e_t}为被解释变量,e~t1\widetilde{e} _ {t-1} ,e~t2\widetilde{e} _ {t-2} ,e~t2\widetilde{e} _t ^ 2等作为解释变量建立回归方程;

    利于确定序列相关的形式, 适用于任何类型的序列相关问题检验;
    杜宾 - 瓦森 D.W. 检验法:检验序列自相关;
    假定条件:
    解释变量 X 随机

    随机误差项μt\mu_t 一阶自相关,μt=ρμt1+εt\mu_t=\rho\mu_{t-1}+\varepsilon_t

    回归模型中不含有被解释变量滞后项

    回归具有截距项

    构造D.W.D.W.统计量=t=2n(e~te~t1)t=1ne~t2=\frac{\sum_{t=2} ^ n (\widetilde{e} _ t-\widetilde{e} _ {t-1})}{\sum_{t=1} ^n \widetilde{e} _ t ^ 2}

    临界值的下限dLd_L 与上限dUd_U, 只与样本容量 n 及解释变量 k 有关, 与解释变量 X 取值无关;

    给定显著水平α\alpha, 由 n 及 k 查询 DW 分布表;

    比较、判断:

    0<DW<dL0<DW<d_L, 存在正相关

    dL<DW<dUd_L<DW<d_U, 不能确定

    dU<DW<4dUd_U<DW<4-d_U, 无自相关

    4du<DW<4dL4-d_u<DW<4-d_L, 不能确定

    4dL<DW<44-d_L<DW<4, 存在负相关


    ​ 当 n 较大时,D.W.2(1ρ)D.W.\approx 2(1-\rho)

    ​ 一阶自回归中, 估计ρ=t=2ne~te~t1t=2ne~t2\rho= \frac {\sum_ { t=2} ^ n \widetilde {e} _ t \widetilde {e} _ {t - 1} } {\sum_ { t = 2} ^ n \widetilde {e} _ t ^ 2}

    ​ 完全一阶正相关,ρ=1\rho=1,D.W.0D.W.\approx 0

    ​ 完全一阶负相关,ρ=1\rho=-1,D.W.4D.W.\approx 4

    ​ 完全一阶不相关,ρ=0\rho=0,D.W.2D.W.\approx 2

    拉格朗日乘数检验: 适合高阶序列相关及模型中包含被解释变量滞后项的情形(BG 检验
    Yt=β0+β1Xt1+β2Xt2+...+βkXtk+μtY_t=\beta_0+\beta_1X_{t1}+\beta_2X_{t2}+...+\beta_kX_{tk}+\mu_t

    怀疑μt\mu_t 存在pp 阶序列相关:

    μt=ρ1μt1+ρ2μt2+...+ρpμtp+εt\mu_t=\rho_1\mu_{t-1}+\rho_2\mu_{t-2}+...+\rho_p\mu_{t-p}+\varepsilon_t

    BG 检验:构造受约束回归方程:

    Yt=β0+β1Xt1+β2Xt2+...+βkXtk+ρ1μt1+ρ2μt2+...+ρpμtp+εtY_t=\beta_0+\beta_1X_{t1}+\beta_2X_{t2}+...+\beta_kX_{tk}+\rho_1\mu_{t-1}+\rho_2\mu_{t-2}+...+\rho_p\mu_{t-p}+\varepsilon_t

    约束条件H0:ρ1=ρ2=...=ρp=0H_0:\rho_1=\rho_2=...=\rho_p=0

    计算残差序列e~t\widetilde{e}_t

    构造辅助回归:

    e~t=β0+β1Xt1+β2Xt2+...+βkXtk+ρ1e~t1+ρ2e~t2+...+ρpe~tp+εt\widetilde {e} _ t = \beta _ 0 + \beta _ 1 X _ {t 1} + \beta _ 2 X _ {t 2} + ... +\beta _ k X _ {tk} +\rho _ 1 \widetilde {e} _ {t - 1} + \rho _ 2 \widetilde {e} _ {t -2} +... + \rho_p \widetilde {e} _ {t - p} + \varepsilon _ t

    计算辅助回归的R2R^2

    约束为真时, 大样本下LM=nR2χ2(p)LM=n·R^2\thicksim \chi^2(p)

    给定显著水平α\alpha, 比较χα2(p)\chi_\alpha^2(p)LMLM值, 可由 1 阶逐步向高阶进行检验

  • 序列相关补救:
    广义最小二乘法(GLS)
    Cov(μμ)=E(μμ)=σ2ΩCov(\mu \mu')=E(\mu \mu')=\sigma^2\Omega

    存在可逆矩阵 D 使Ω=DD\Omega=D'D

    变换原模型:D1Y=D1Xβ+D1μD^{-1}Y=D^{-1}X\beta+D^{-1}\mu, 使模型同方差且随机误差项相互独立

    E(μμ)=σ2IE(\mu_* \mu_*')=\sigma^2I

    OLS 估计:β^=(XΩ1X)1XΩ1Y\widehat{\beta}_*=(X'\Omega^{-1}X)^{-1}X'\Omega^{-1}Y

    广义差分法:将模型变化为不存在序列相关的差分模型, 再 OLS 估计:
    Yt=β0+β1Xt1+β2Xt2+...+βkXtk+μtY_t=\beta_0+\beta_1X_{t1}+\beta_2X_{t2}+...+\beta_kX_{tk}+\mu_t

    怀疑μt\mu_t 存在 p 阶序列相关:

    μt=ρ1μt1+ρ2μt2+...+ρpμtp+εt\mu_t=\rho_1\mu_{t-1}+\rho_2\mu_{t-2}+...+\rho_p\mu_{t-p}+\varepsilon_t

    差分变化:Ytρ1Yt1...ρpYtp=β0(1ρ1...ρk)+β1(Xt,1ρ1Xt1,1...ρpXtp,1)+...+βk(Xt,kρ1Xt1,k...ρpXtp,k)Y_t-\rho_1Y_{t-1}-...-\rho_pY_{t-p}=\beta_0(1-\rho_1-...\rho_k)+\beta_1(X_{t,1}-\rho_1X_{t-1,1}-...-\rho_pX_{t-p,1})+...+\beta_k(X_{t,k}-\rho_1X_{t-1,k}-...-\rho_pX_{t-p,k})

    OLS 估计差分模型, 得到参数无偏、有效估计量;

  • 随机误差项相关系数估计:
    科克伦 - 奥科特迭代法
    Yi=β0+β1Xi+μiY_i=\beta_0+\beta_1X_i+\mu_iolsols 估计得到e~t\widetilde{e}_t

    ols 估计e~t=ρ1e~t1+ρ2e~t2+...+ρpe~tp+εt\widetilde {e} _ t = \rho_1 \widetilde {e} _ {t-1} + \rho_2\widetilde {e} _ {t-2} +...+ \rho_p \widetilde {e} _ {t-p} + \varepsilon _ t, 得到相关系数第一次估计值

    将估计值代入广义差分模型, 进行 OLS 估计, 得到β\beta 估计值

    由参数估计值计算Y^i\widehat{Y}_i作为被解释变量, 再次作 OLS 估计, 得到新的e~t\widetilde{e}_t, 对残差相关系数作二次估计

    一般迭代两次就可以得到较为满意的结果, 科克伦 - 奥科特两步法;

  • FGLS 可行的广义最小二乘法:可以求得Ω\Omega 或随机项的相关系数;

  • 序列相关稳健标准误法:
    Newey-West 标准误, 可以得到序列相关的正确标准误, 得到 OLS 正确方差估计;

  • 虚假序列相关:
    由模型设定偏误引起, 可以通过调整模型避免;

Time-Series Basic Knowledge

  • 时间序列平稳可以替代随机抽样假定, 随机误差项仍满足正态分布的假定;

  • 避免虚假回归(为回归):
    时间序列不平稳时, 产生伪回归现象;

    Yt=Y0+e1tY_t=Y_0+\sum e_1t

    Xt=X0+e2tX_t=X_0+\sum e_2t

    e1te_1te2te_2t 弱相关关系, 由此产生的两个随机游走时间序列应同样没有相关关系, 但回归测试后发现存在

    显著相关关系;
    对两个序列做差分, 可能会使序列变得平稳;
    回归之前需要先检验, 如果检验不平稳, 需要处理为平稳序列;

  • 平稳性:
    过去的变化及波动应该处于合理的区间, 以保障预测存在合理性;
    严平稳性 -yty_t

    {y1,y2,...,yt}\{y_1,y_2,...,y_t\} 的联合概率分布与{y1+k,y2+k,...,yt+k}\{y_{1+k},y_{2+k},...,y_{t+k}\} 的联合概率分布相同

    弱平稳性(常用)

    yty_t的均值、方差不随时间变化, 协方差仅与观测值之间的距离而与所处的时间点无关

    E(yt)=μE(y_t)=\mu

    var(yt)=E(ytμ)2=σ2var(y_t)=E(y_t-\mu)^2=\sigma^2

    cov(yt,yt+k)=γk=E[(ytμ)(yt+kμ)]=E[(yt+mμ)(yt+m+kμ)]cov(y_t,y_{t+k})=\gamma_{k}=E[(y_t-\mu)(y_{t+k}-\mu)]=E[(y_{t+m}-\mu)(y_{t+m+k}-\mu)]

    非平稳时, 期望值是依赖时间变化的

  • 常见非平稳随机过程 (stochastic processes)
    无漂浮随机游走 (Random Walk without Drift)
    Yt=Yt1+etY_t=Y_{t-1}+e_t

    其中ete_t 是均值为 0, 方差为σ2\sigma^2 的白噪声 (shock)

    Yt=Y0+etY_t=Y_0+\sum e_t

    then:

    E(Yt)=E(Y0+et)=Y0E(Y_t)=E(Y_0+\sum e_t)=Y_0

    var(Yt)=tσ2var(Y_t)=t\sigma ^2

    随时间的增加, 方差会增大;

    有漂浮随机游走 (Random Walk with Drift)

    yt=δ+yt1+ety_t=\delta+y_{t-1}+e_t (漂浮项δ\delta , 使时间序列有时间趋势——非平稳)

    Xt=ϕXt1+μtX_t=\phi X_{t-1}+\mu_t

    1<ϕ<1-1<\phi<1 时, 该随机过程平稳

  • 平稳性检验:
    避免伪回归现象;
    判断方法:
    散点图判断平稳性(看均值或者离散程度);
    平稳时间序列围绕一个值上下波动;
    样本自相关函数判断平稳性

    总体自相关函数(autocorrelation function, ACF)

    ρk=γkγ0=cov(yt,yt+k)var(yt)\rho_k=\frac{\gamma_k}{\gamma_0}=\frac{cov(y_t,y_{t+k})}{var(y_t)}

    样本 ACF

    ρk^=γ^kγ^0=(yty)(yt+ky)(yty)2\widehat {\rho_k} = \frac {\widehat {\gamma} _ k} {\widehat {\gamma} _ 0 } = \frac {\sum(y_t - \overline {y} ) (y _ {t+k}-\overline {y} ) } {\sum(y_t -\overline {y} ) ^ 2 }

    白噪声的ACF=0ACF=0 , 是没有信息可以提取的平稳序列;

    非平稳序列的 ACF 衰减比较慢;

    White Noise (i.i.d- independent and identically distributed)
    Gaussian white noise: 服从 0 均值,σ2\sigma^2方差的正态分布;

    All the ACFS are zeros;

    Test: Q 统计量H0:ρ1=ρ2=...=ρk=0H_0:\rho_1=\rho_2=...=\rho_k=0

    Portmanteau (Q)Statistic:Q=Tl=1mρ^l2χ2(m)Q^*=T\sum^{m}_{l=1}\widehat{\rho}_l^2\thicksim\chi^2(m)

    非平稳时间序列 ACF 特征:当 k 增大时, 衰减比较慢;

    平稳时间序列 ACF 特征:当 k 增大时, 衰减比较快;

    单位根 (unit root)
    yt=ρyt1+ety_t=\rho y_{t-1}+e_t

    ytρyt1=ety_t-\rho y_{t-1}=e_t

    ytρLyt=ety_t-\rho L y_t=e_t

    (1ρL)yt=et(1-\rho L)y_t=e_t

    1ρz=0\Rightarrow 1-\rho z=0

    z=1ρ>1z=\frac{1}{\rho}>1 为平稳序列

    ρ=1\rho=1 则该过程为无漂移随机游走随机过程, 该过程非平稳, 称该过程具有单位根;可以做一次差分使序列变得平稳;(一个单位根)

    ρ<1|\rho|<1 时, 可以证明yty_t 是平稳的;

    yt=2yt1yt2+ety_t=2y_{t-1}-y_{t-2}+e_t 可得z1=1,z2=1z_1=1, z_2=1 存在两个单位根, 做两次差分, 变得平稳;

    Dickey-Fuller 单位根检验
    适用于一阶自相关

    yt=ρyt1+ety_t=\rho y_{t-1}+e_t

    两边同时减去yt1y_{t-1}

    then:ytyt1=(ρ1)yt1+ety_t-y_{t-1}=(\rho-1)y_{t-1}+e_tΔyt=δyt1+et\Delta y_t=\delta y_{t-1}+e_t

    检验原假设:H0:δ=0H_0:\delta=0 (非平稳)

    Augmented Dickey-Fuller (ADF) test
    适用于高阶序列相关或包含明显时间趋势项的情形

    Δyt=δyt1+j=1LλjΔytj+et\Delta y_t = \delta y _ {t-1} + \sum ^ {L} _ {j=1} \lambda_j \Delta y _ {t-j} + e_t

    Δyt=α+δyt1+j=1LλjΔytj+et\Delta y_t = \alpha+\delta y_ {t-1}+\sum^{L} _ {j=1} \lambda_j \Delta y_{t-j}+ e_t

    Δyt=α+βt+δyt1+j=1LλjΔytj+et\Delta y_t=\alpha+\beta t+\delta y_{t-1} + \sum^{L} _ {j=1} \lambda_j \Delta y_{t-j} + e_t

    带有时间趋势项的非平稳序列, 可以通过去除趋势项使其变的平稳;

    针对H0:δ=0H_0:\delta=0 (非平稳)

    模型 3-2-1 的顺序进行检验

  • 单整序列:
    一阶差分可以变平稳I(1)I(1)

协整与误差修正

  • 变量之间存在长期稳定的关系, 即变量之间协整, 可以使用经典回归模型方法建立回归模型;

  • 经济变量之间长期均衡:Yt=α0+α1Xt+μtY_t=\alpha_0+\alpha_1X_t+\mu_t, 可以确定 Y 的均衡值
    存在长期均衡关系时, Y 对其均衡点的偏离本质上是“临时性”的
    长期均衡下,μt=Ytα0α1Xt\mu_t=Y_t-\alpha_0-\alpha_1X_t 应该是 0 均值的 I(0), 平稳序列

  • 协整:
    两个单整序列, 单整阶数相同时才可能协整;
    (d,d)阶协整——表明变量之间存在长期稳定的比例关系, 可以建立回归模型;Yt,XtCI(1,1)Y_t,X_t\thicksim CI(1,1)

  • 协整检验:EG 检验
    OLS 估计Yt=α0+α1Xt+μtY_t=\alpha_0+\alpha_1X_t+\mu_t, 得到残差e^t\widehat{e}_t
    检验残差序列是否 I(0)——ADF 检验

  • 多变量协整检验
    协整变量间可能存在多种稳定的线性组合
    仍是 OLS 估计后, 估计误差 (加总) 是否为 I(0)序列
    设置一个变量为被解释变量, 其他为解释变量, 检验残差序列是否平稳, 若不平稳则更改被解释变量直到平稳;

  • 高阶单整变量的协整检验
    没有成熟的临界值分布表

  • 只能有协整检验均衡:
    协整的随机误差是平稳的, 均衡方程的随机误差是白噪声

  • 误差修正:
    非平稳时间序列, 直接差分后建立回归模型ΔYt=α1ΔXt+vt\Delta Y_t=\alpha_1\Delta X_t+v_t

    vtv_t可能序列相关

    采用差分形式估计, 关于变量水平值的重要信息将被忽略, 只表达了 X 与 Y 之间的短期关系, 没有揭示长期关系;

    Y 在 t 期的变化, 不仅取决于 X 本身的变化, 还取决于 X 与 Y 在 t-1 期末的状态;

  • 误差修正模型:(ECM 模型 -DHSY 模型)
    Yt=α0+α1Xt+μtY_t=\alpha_0+\alpha_1X_t+\mu_t
    加入一阶滞后项:Yt=β0+β1Xt+β2Xt1+β3Yt1+μtY_t=\beta_0+\beta_1X_t+\beta_2X_{t-1}+\beta_3Y_{t-1}+\mu_t
    变量可能非平稳, 进行差分变换:ΔYt=β1ΔXt(1β3)(Yt1β01β3β1+β21β3)+μt\Delta Y_t= \beta_1\Delta X_t-(1-\beta_3)(Y_{t-1}-\frac{\beta_0}{1-\beta_3}-\frac{\beta_1+\beta_2}{1-\beta_3})+\mu_t
    ΔYt=β1ΔXtλ(Yt1α0α1Xt1)+μt\Delta Y_t= \beta_1\Delta X_t-\lambda(Y_{t-1}-\alpha_0-\alpha_1X_{t-1})+\mu_t
    YY的变化取决于XX 的变化及前一期的非均衡程度:ΔYt=β1ΔXtλecmt1+μt\Delta Y_t= \beta_1\Delta X_t-\lambda ecm_{t-1}+\mu_t
    长期均衡解:α0+α1Xt\alpha_0+\alpha_1X_t ,α1\alpha_1为 Y 关于 X 的长期弹性
    短期非均衡模型:Yt=β0+β1Xt+β2Xt1+β3Yt1+μtY_t=\beta_0+\beta_1X_t+\beta_2X_{t-1}+\beta_3Y_{t-1}+\mu_t,β1\beta_1为短期弹性

  • 误差修正:引入更多滞后项
    二阶误差:增加ΔYt1\Delta Y_{t-1}ΔXt1\Delta X_{t-1}

  • 误差修正:多变量
    增加另一个变量的短期弹性

  • 建立误差修正模型:
    优点:Granger 表述定理
    消除变量可能存在的趋势因素
    消除多重共线性
    保留变量水平值信息
    可以使用经典回归方法估计, 及 F/t 检验
    协整变量, 建立短期模型;
    EG 两步法:OLS 协整回归, 将 OLS 估计的非均衡误差项的滞后一期加入回归, 估计短期弹性;

    ΔYt=lagged(ΔYt,ΔXt)λecmt1+μt\Delta Y_t=lagged(\Delta Y_t,\Delta X_t)-\lambda ecm_{t-1}+\mu_t

    直接估计法 :对ΔYt=λα0+βΔXtλYt1+λα1Xt1+μt\Delta Y_t=\lambda \alpha_0+\beta \Delta X_t-\lambda Y_{t-1}+\lambda \alpha_1X_{t-1}+\mu_t 作 OLS 估计

格兰杰因果检验

  • 随机时间序列模型:不同时点观测值之间的关系;
    无条件预测;简化结构模型;

  • 序列自回归模型:
    仅使用时序变量的滞后项及随机扰动项建立模型

    AR(p):Xt=ϕ1Xt1+...+ϕpXtp+μtAR(p):X_t=\phi_1X_{t-1}+...+\phi_pX_{t-p}+\mu_t

    MA(q):μt=εtθ1εt1...θqεtq\mu_t=\varepsilon_t-\theta_1\varepsilon_{t-1}-...-\theta_q\varepsilon_{t-q}

    ARMA(p, q):Xt=ϕ1Xt1+...+ϕpXtp+εtθ1εt1...θqεtqX_t=\phi_1X_{t-1}+...+\phi_pX_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-...-\theta_q\varepsilon_{t-q}

    可使用过去的行为预测未来

  • AR(p)模型的平稳性
    引入滞后算子:
    Xtϕ1Xt1...ϕpXtp=εtX_t-\phi_1X_{t-1}-...-\phi_pX_{t-p}=\varepsilon_t

    (1ϕ1L1...ϕpLp)Xt=εt(1-\phi_1 L^1-...-\phi_pL^p)X_t=\varepsilon_t

    得到 AR(p)的特征方程
    ϕ(z)=(1ϕ1z1...ϕpzp)=0\phi(z)=(1-\phi_1 z^1-...-\phi_p z^p)=0

    所有根 z 的模大于 1, 则是平稳的;

    高阶自回归平稳性充分条件:ϕ1+...+ϕp<1|\phi_1|+...+|\phi_p|<1

  • MA(q)的平稳性:
    有限阶的 MA 模型总是平稳的

  • ARMA(p, q)的平稳性取决与 AR(p)部分的平稳性

  • 由 ACF 及 PACF 判断模型类别:拖尾 / 截尾

  • 向量自回归:
    单个时间序列拓展到多个时间序列

    最佳滞后阶数 P 的确定:LR 估计量, SIC, SC
    应用:
    预测
    存在结构约束
    脉冲响应分析或方差分解分析, 冲击对各个变量变化的贡献度;

  • 格兰杰因果检验:
    VAR 模型可以检验变量间的关系, 变量的变化受其自身及其他变量过去行为的影响;
    单向:一个变量的过去行为影响另一个变量的当前行为;
    双向:双方的过去行为对双方的当前行为都存在影响;

    通过受约束回归的 F 检验:
    YtY_t关于 Y 的滞后项回归得到RSSURSS_U
    YtY_t关于 Y 及 X 的滞后项回归得到RSSRRSS_R
    构造 F 统计量=RSSRRSSU/mRSSU/(nk)Fα(m,nk)=\frac{RSS_R-RSS_U/m}{RSS_U/(n-k)}\thicksim F_{\alpha}(m,n-k)