线性回归理论

发布时间:2022-06-17 19:10:02   来源:党团工作    点击:   
字号:

  袇

 第七章 线性回归分析

 薅

  管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。

 袂

  本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。

 芁

  社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某种规律唯一地确定,例如,在价格 P 确定的条件下,销售收入 Y 与所销售的产品数量之间的关系就是一种确定性的关系:Y=P·X。另一类是变量之间存在着某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。

 芈

  确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。

 肃

  两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。

  蚁 第一节 一元线性回归分析

 莁

  一、问题的由来和一元线性回归模型

 莅

  例 7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表 7-1 所示。现要求确定两者之间是否存在相关关系。

 螅 表 7-1

 蒀 年份

 蒀1987

 螆1988

 芃1989

 蒃1990

 薀1991

 膇1992

 羅1993

 节 1994

 蚀1995

 薈1996

 莃 人均收入

  羁 1.6

 螀 1.8

 罿 2.3

 膄 3.0

 肄 3.4

 袀 3.8

 膅 4.5

 袆 4.8

 螂 5.2

 袀 5.4

 薆 销售额(百万元)

 芄 4.7

 薁 5.9

 羀 7.0

 羇 8.2

 羆 10.5

 莀 12

 肀 13

 莈 13.5

 蒄 14

 莃 15

 腿

  如果作一直角坐标系,以人均收入 x i 为横轴,销售额 y i 为纵轴,把表 7-1 中的数据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即:

 蒅

 y i = a + b x i + e i

    i n 12 , , , 

  膆 其中:

 y i 是因变量 Y 的第 i 个观察值,

 膂

  x i 是自变量 X 的第 i 个观察值

 艿

  a 与 b 是回归系数,

 袆

 n 是样本容量,

 蚄

 e i 为对应于 Y 的第 i 个观察值的随机误差,这是一个随机变量。

 袁

  在上述线性模型中,自变量 X 是个非随机变量,对于 X 的第 i 个观察值 x i ,Y 的观察值 y i 是由两个部分所组成的:

 b x i 和 e i ,前者是一个常数,后者是一个随机变量,

 所以也是一个随机变量。

 荿

 对于上述回归模型中的随机误差 e i 要求满足如下的假设条件:

 芇

  1、应当是服从正态分布的随机变量,即 e i 满足“正态性”的假设。

 莆

  2、 e i 的均值为零,即 E( e i )=0,我们称 e i 满足“无偏性”的假设。

 羄

  3、 e i 的方差等于   2e i = e i2,这就是说,所有的 e i 分布的方差都相同,即满足“共方差性”的假设。

 葿

  4、各个 e i 间相互独立,即对于任何两个随机误差 e i 和 e j   i j  其协方差等于零,即,Cov( e i , e j )=0,   i j  )这称之为满足“独立性”的假设。

 蚈

  综上所述,随机误差必须服从独立的相同分布。

 螃

  基于上述假定,随机变量的数学期望和方差分别是:

 螃 E( y i )= a + b x i

  葿   2e i = e i2

 聿 由此:

 y i ~N( a + b x i , e i2)

 薅

  这就意味着,当 X= x i 时, y i 是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项,我们就得到简单的式子:

 蒁

   yi = a + bx i

  蕿 这一式子称为 Y 对 X 的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。

 膅

 二、模型参数的估计和估计平均误差

  羃

  1、回归参数的估计

 芀

  回归模型中的参数 a 与 b 在一般情况下都是未知数,必须根据样本数据( x i , y i )来估计。确定参数 a 与 b 值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。

  虿 对应于每一个 x i ,根据回归直线方程(7-1)可以求出一个 yi ,它就是 y i 的一个估计值。估计值和观察值之间的偏差   e y yi i i 。有 n 个观察值就有相应的 n 个偏差。要使模型的拟合状态最好,就是说要使 n 个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求

 薆 是个极小值。

 蚅

  根据微积分中的极值定理,要使上式取极值,其对 a 与 b 所求的偏导数应为 0,即

 芃

  经整理后可得:

 蝿

  解上式,可得:

 肇

  记     X x n Y y ni i    ,

 。

 膃 于是,得到参数 a 与 b 的简单表达形式如下:

 肂 求出参数 a 与 b 以后,就可以得到回归模型

 袈

  由此,只要给定了一个 x i 值,就可以根据回归模型求得一个 yi 来作为实际值 y i的预测值。

 蒈

  2、估计平均误差的计算

 袅

  对于给定的 x i ,根据回归模型就可以求出 y i 的预测值。但是用  yi 来预测 y的精度如何,产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量回归方程的可靠性,对回归方程进行评价。估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义:

 袁

  值得注意的是上式中分母是用   n2 而不是   n1 或 n 去除,这是因为 n 个观察值的数据点用于计算参数 a 与 b 时失去了 2 个自由度,还余下   n2 个自由度。

 羈

  运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有 68.27%的点落在  S e 的范围内,有 95.45%的点落在  2 S e 的范围内,有 99.73% 的点落在  3 S e 的范围内。

  衿

 三、回归模型的检验

 莃 回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。

 袄

  下面我们分别讨论这两个问题。

 肈

  (一)线性回归方程的显著性检验

 羆 1、方差分解

 肅

  回归分析中需要分析使用 Y 与 X 之间的线性相关关系的估计模型 ya bx   来估计 y 时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用 Y 与X 之间的相关关系来估计总体的均值,我们就会选择 y i 的平均值 y 作为总体的估计值。由此而产生的误差是   y yi i2,我们称之为“总离差平方和”,记为 SST。若利用 Y 与 X 之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是:   y yi i2,我们称之为残差平方和,记为 SSE。为了说明 SST 与 SSE 之间的关系,我们对 SST 进行分解。

 蚃

  若记 SSR=   y yi i  2

 SSE=   y yi i2

 肈 则 SST = SSR + SSE

 莇

  图 7-1:三种误差之间的关系

 螆

  SSR 反映了由于利用 Y 和 X 之间的线性回归模型 yi 来估计 Y 的均值时,而不是简单地利用 y 来估计 Y 的均值时,使得总误差 SST 减少的部分,因此统计上称之为“可解释误差”。

 莂

  SSE 是利用 Y 与 X 之间的线性回归模型来估计 Y 的均值时仍然存在的误差,因此称之为“不可解释误差”。于是,上式实际上就表示:

 膈 总误差=可解释误差+不可解释误差

 螈

  图 7-1 直观地表示了三种误差之间的相互关系。

 膄

  2、相关分析

 膀

  对于任何给定的一组样本( x i y i )( i =1,2,„n )都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的。只有当变量 X 与 Y 之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量 X 和 Y 之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作 r 或 r2,它能够较精确地描述两个变量之间线性相关的密切程度。

 芈

  相关系数可以定义为可解释误差 SSR 和总误差 SST 之比,即:

 膈

  r2= SSR/SST=1 - SSE/SST

 羆

  它反映了由于使用了 Y 与 X 之间线性回归模型来估计 y i

 的均值而使离差平方和 SST 减少的程度,从而表明 Y 与 X 之间线性相关程度及拟合模型的优良程度。

 r2与SSR 成正比。

 r2越大,说明 Y 与 X 之间的线性相关程度越高,也就说明模型的拟合性能较优; r2越小,说明 Y 与 X 之间的线性相关程度越低,说明模型的拟合性能较差。当相关系数用 r 来表示时不仅可以测定 Y 与 X 之间的相关程度,而且也可以表示相关的方向。事实上,相关系数 r 也可以定义为:

 膃

  从上述两个公式计算所得到的结果完全相同,意义也相同。但从 r2计算 r 时为:

 莈

  要确定 r 的符号,就需要利用以下的关系:

 芅

  由此可见, r 与 b 同号,可以根据 b 的符号来决定 r 的符号。从 r2的计算公式可以看出:

 r2总是界于 0 与 1 之间的,即 0  r2 1。如果 yyi i ,则 SST=SSR,SSE=0,此时, r2=1。这时称为完全线性相关,模型的拟合程度最优。用 Y 与 X 之间的线性回归模型来估计 y i 时的总离差和完全可以用 SSR 来解释。如果 yyi ,则 SST=SSE,SSR=0,因此, r2=0。这时,使用 Y 与 X 之间的线性回归模型没有能对任何的总离差平方和 SST 作出任何解释,说明 Y 与 X 之间事实上无线性相关,模型的拟合程度最差。

 莄

  对 r 的不同的具体值,Y 与 X 之间的相关关系分析如下:

 羂

  1)当 r =1 时,称为完全线性正相关;当 r =-1 时,称为完全线性负相关。

 蒇

  2)当 0< r <1 时,Y 与 X 存在一定的线性相关。当 r >0 时称 Y 与 X 正相关。当r <0 时称 Y 与 X 是负相关。一般地说, r209  . 时,估计模型为"优";0.8   r20.9时,估计模型为"良";0.6   r20.8 时,估计模型为"一般"。

 r205  . 时估计模型为"差"。但是,要精确地说明两个变量是否确实具有线性相关关系,一般还需要作其他的一些检验。

 蚆

  3、F 检验法

 肆

  在一元线性回归模型中,若 b =0,则 X 的变化不会引起 Y 的变化,即 Y 与 X 不具有线性相关关系。因此,线性回归方程的显著性检验可以通过回归方程的 F 检验来完成。

 螁

  我们提出 H 0 :

 b =0, H 1 :

 b  0,

 螁

  则在 H 0 成立,即 Y 与 X 之间不存在线性相关的条件下,统计量

 肇 服从自由度为 1,n-2 的 F 分布。在给定了检验的显著性水平  以后,可由 F 分布表得到 H 0 成立时的临界值 F 0 ,如果对于一组样本计算得出的统计量 F 的值大于 F 0 ,则否定 H 0 ,即 b  0,说明 X 与 Y 之间确定存在线性相关关系。

 薄

 因此,对回归方程的相关性检验可按下列步骤作 F 检验:

 螄

 1)提出假设 H 0 :

 b =0, H 1 :

 b  0,

 袁

  2)在 H 0 成立时,统计量    SSRSSEn F n   2 1 2 ~ , 对于给定的显著性水平  ,查 F分布表得到检验的临界值 F 0 。

 蒈

  3)对于一组样本计算 SSR 和 SSE,并由此得到 F 值。

 芆

  4)比较 F 与 F 0 的值,若 F> F 0 ,则拒绝零假设。我们认为 X 与 Y 之间存在线性相关关系,否则接受 H 0 ,认为 X 与 Y 之间没有线性相关关系。

 薃

 4、t 检验

 羁

  尽管相关系数 r 是对变量 Y 与 x 之间的线性关系密切程度的一个度量,但是相关系数 r 是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数 r 对总体的相关系数  作出推断。由于相关系数r 的分布密度函数比较复杂,实际应用中需要对 r 作变换。令

 衿 则统计量 t 服从 t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数 =0 的假设检验,也就只要对统计量 t 进行 t 检验就行了。

 螄

  根据一组样本计算出上述 t 值,再根据问题所给定的显著性水平  和自由度 n-2,查 t 分布表,找到相应的临界值 t 2 。若

 节 表明 t 在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间不存在线性关系。

 肁

  5、D·W 检验

 肆

  回归模型中假设 Cov( e i , e j )=0,即随机项是独立的。这一假设是否成立,可以通过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的基本假设,回归模型就不能表达变量 Y 与 X 之间的真实变动关系。D·W(Durbin-Watson)检验可以检验残差序列的相关性。其检验办法如下:

  蒅

  1)计算误差序列的 d 统计量(D·W 值)

 肁

  d      e e ei iiniin12221

 膁

  2)根据给定的显著性水平  (通常为  =0.05 或 0.01),自变量个数 k 和样本数据个数 n,查 D、W 表,得到 d 的下限值 d l 和上限值 d u 。

 蒆

  3)判断。若

 袃

  d u <d<4-d

 膃 则残差序列无自相关,各项间相互独立;

 芁

  若 0<d< d l

 或 4- d l <d<4

 袇 表明残差序列存在正自相关或负自相关,各项之间不相互独立,D·W 检验未通过;若

 薅

  d l 

 d 

 d u

 或 4- d u  d  4- d l

  袂 则无法断定是否存在自相关。

 芁 线性回归模型产生残差序列自相关的原因有三种,第一是所选择的数学模型不适合,变量间不是线性关系而建立了线性模型。此时应进一步选择合适的数学模型。第二是模型中所包含的自变量数目不合适,或是遗漏了某些重要的影响因素,或是包含了不必要的其他因素。第三是序列中包含有很强的趋势分量。通常可以用迭代法或差分法进行修正。经济指标的时间序列常常存在自相关现象,这一点特别要注意。

 芈

  (二)关于回归系数 b 的统计推断

 肃

  由于样本不同,回归系数 a 与 b 的值也不同,因此。回归系数 a 和 b 也是随机变量。同时 a 和 b 是正态随机变量 Y 的线性组合,所以 a 和 b 也是服从于正态分布的随机变量。

 蚁

 1.关于回归系数 b 的假设检验

 莁

  对正态随机变量 b 求数学期望和方差,可得

 莅 一般情况下 e2未知,需要用其无偏估计量 S e2来代替:

 螅 根据t分布原理,样本统计量   t b b b   服从于自由度为(n-2)的t分布。

 蒀

  于是要检验回归参数 b 是否等于某一假设值 b 0 的问题,也就转化为假设检验问

 题。检验的程序是;

 蒀

  1)

 设 H 0 :

 b = b 0 , H 1 :

 b  b 0 ,

 螆

  2)计算统计量   t b b b  0

  芃

 3)判断原假设是否成立。当显著性水平为  时,查 t 分布表得 t 2和 t 12 ,若t  t 12  或 t  t 2,则拒绝 H 0 ,反之接受 H 0 。

 蒃

  2.b 的置信区间

 薀

  根据抽样分布定理,可以确定 b 的置信区间。因为

 膇

  P( t 2

 t 

 t 12 )=1- 

  羅 所以,当置信度为 1-  时, b 的置信区间是

 节 第二节 多元线性回归分析

 蚀

 一、多元线性回归模型

 薈

  多元线性回归分析是研究一个因变量与多个自变量之间线性相关关系的统计分析方法。事实上,大量社会经济现象总是多个因素作用的结果。多元线性回归考虑到多个自变量对因变量的影响,能够更真实地反映现象之间的相互关系,因此在实践中应用更广。

 莃

  假设一个随机变量 Y 与 m 个非随机变量 X 之间存在线性相关关系,则它们之间的关系可以用以下的线性回归模型来表示:

 羁 其中:Y 是因变量,

 螀

   X i mi1 2 , , 是自变量,

 罿

     i i m  0 1 2 , , , 是模型的参数,称为偏相关系数。

  膄

 e 是随机误差。

 肄

  对于上述模型中的非随机变量 X i 的第j个取值 X ij ,Y的观察值 Y j 由两部分组成:(    0 1 1 2 2    X X Xm m )和 e j 。前者是个常数,后者是个随机变量,所以 Y j 也是个随机变量。

 袀

  与一元线性回归模型同样地,我们也必须假设多元线性回归模型中的误差项必须满足正态性、无偏性、共方差性和独立性的条件。假设   e Ne~ , 02 ,则

 膅 由此可见:

   Y N X X Xm m e~ ,     0 1 1 2 22     。

 袆

 二、参数估计

 螂

  多元线性回归模型的参数    i i m  0 1 2 , , , 及 e2在一般情况下都是未知数,必须根据样本数据   y x x xJ j j mj, , , ,1 2 来估计。

 袀 回归参数    i i m  0 1 2 , , , 的估计方法还是"最小二乘法"。根据样本数据 y x x xJ j j mj, , , ,1 2 来估计    i i m  0 1 2 , , , 时使得产生残差的平方和

 薆 取极小值。

 芄 为此,对 Q 分别求   i i m  0 1 2 , , ,的偏导数,并令其等于零,由此,可以得到m+1个方程。

 薁 因书写较烦,不一一列出。

 羀 若对于自变量 X X X m1 2, , ,  和因变量 Y 共有 n 组观察数据。

 x ik 表示自变量 X i的第 k 次观察值, y i 表示因变量 Y 的第 i 次观察值。

 羇 令:

 羆 则回归系数    i i m  0 1 2 , , , 可以由下列方程组求出:

 莀

  常数项  0    Y Xi i

 肀

  多元线性回归模型中的另一个常数是 Y j 的方差 e2。因为多元线性回归模型中有 m+1 个回归参数要估计,所以 e2的无偏估计量应当是:

 莈

 三、多元回归中的方差分析和显著性检验

  蒄

  与一元线性回归模型同样地,我们在得到多元线性回归模型以后也需要对模型中所包含的变量是否确实与因变量之间存在线性相关关系,以及回归模型的拟合效果如何进行分析检验。多元回归中的方差分析和显著性检验可分为几个部分,首先是对总离差平方和以及回归离差平方和进行分解,分别测定 Y 与 m 个自变量 X 之间总体上的相关程度.以及 Y 与某个或者若干个自变量 X 的相关程度,并分别引进多元相关系数和偏相关系数的概念。然后,用 F 检验进行总相关检验和偏相关的检验。在此基础上再进行残差分析。

 莃

  (一)总离差平方和的分解和多元相关系数

 腿 与一元线性回归时一样,我们也可以定义多元线性回归的总离差平方和SST,并把它分解为SSR和SSE两部分

 蒅 SST= Y Yj j2

 膆

 = Y Yj j2+ Y Yj j2

 膂 与一元线性回归时一样我们也把上式记作

 艿

  SST=SSR+SSE

 袆 其中:    Y x x xj j j m mj        0 1 1 2 2

  蚄 根据上述分解式我们也可以定义多元相关系数 r2:

 袁

     rSSRSSTY Y Y Yj j j j22 2     =1-   y yi i  2/   y yi i2

 荿

  它反映了由于使用 Y 与 m 个 X 之间的线性回归模型用Y j 来估计 E Y j ,而使总离差平方和 SST 减少的程度,从而表明了 Y 与 X 之间的线性相关程度及拟合模型的优良程度.SSR 越大, r2越大,说明 Y 与 X 之间的线性相关程度越高,说明线性模型的拟合优度越高;反之 SSR 越小, r2越小,说明 Y 与 m 个 X 的线性相关度越低,即线性模型的拟合优度越低。

 芇

 r2 的计算公式说明 01 2  r,若Y =Y,则SST=SSR,SSE=0, r2 =1.说明用估计模型Yj 估计E(Yj )解释了所有的总离差平方和SST,拟合值与实际值无差异,此时变量间完全线性相关。

 莆

  如果Yj = Y,则SST=SSE,SSR=0, r2 =1.说明回归模型 Yj 估计Y不能解释任何的总离差平方和SST,拟合模型无效,说明变量间完全线性无关。

 羄

 在一元线性回归的情形 r r 2 ,但在多元线性回归的情形下,自变量的个数m  2 时,回归系数的符号可能有正有负,难以确定,因此,我们规定多元相关系数总是为正的,即

 葿

  r=  r 2

  蚈

  由此说明多元相关系数不能说明Y与K个X之间的线性相关方向,仅仅说明了它们之间的线性相关程度.

 螃

  (二)回归离差平方和与偏相关系数

 螃 在多元线性回归模型中,如果增加与Y相关的某个自变量X,则SSR随之增加,而SSE随之减少.因此,SSR还可以被进一步分解.例如,若原回归模型中只包括自变量 x x x k1 2, , ,若模型中增加了与Y相关的另一个自变量 x k1 以后,使SSR增加的那部分称为“ x k1 的净增回归平方和”,并定义为SSR( x k1 / x x x k1 2, ,)。于是

 葿

    SSR x x x xk k 1 1 2, , = SSR( x x x k1 2 1, ,)-SSR( x x x k1 2, , )

 聿

 =SSE( x x x k1 2, , )-SSE( x x x k1 2 1, ,)

 薅 由此我们得出对于变量 x k1 的偏相关系数的计算公式:

 蒁 它反映了把自变量 x k1 纳入模型以后使得原模型的残差平方和SSR( x x x k1 2, , )减少的程度。某一变量的偏相关系数越大,说明Y与这一变量的偏相关程度越大,反之,某一变量的偏相关系数越小,说明Y与这一变量的偏相关程度越小。

 蕿

  (三)多元回归模型的 F 检验

 膅 对于一元回归方程而言,对自变量 X 的系数作是否为零的假设检验也就等价于对

 整个回归模型进行了显著性检验。但对多元回归模型而言,对回归模型中各个系数分别进行的显著性检验与对整个回归方程的显著性检验是不同的。因此,我们既需要对整个回归方程进行显著性检验,也需要对回归模型中各个系数分别进行显著性检验。

 羃 1、总相关的 F 检验

 芀 对整个回归方程进行显著性检验通常采用F检验,即检验Y与K个X之间整体上是否存在显著的线性相关关系,此时检验的步骤如下:

 虿

 1)建立假设

 薆

  原假设 H0 :

  1 2 0   k

 蚅

  备择假设 H 1 :

  i 不全为0

   i n 12 , , , 

 芃 事实上,在所有的自变量X中,只要有一个X与Y之间存在显著线性相关,那么Y与K个X之间的相关系数就不等于0.反过来若Y与K个X之间的相关系数不是零,在K个 i 中必有一个不为零。

 2)

 3)

 蝿 计算检验统计量F

 肇

  F是两个平均离差平方和(方差)之比,可以证明如果 H0 正确,分子MSR的数学期望等于MSE的数学期望,即E(MSR)=E(MSE)=  2 ,F服从自由度为K和(N-M-1)的F分布。如果 H0 为假,E(MSR)>E(MSE)。因此,如果 H 0 正确,F值将接近于1;如 H 0 为假,则F值将大大超过1。

 膃

 3)判断 H 0 是否成立。当显著性水平确定为α,自由度为K和N-K-1时,查F分布表得F  。如果F≥ F  ,则拒绝 H0 。说明Y与K个X之间总的来说存在显著性相关,接受 H 0 。说明Y与K个X之间不存在显著性相关。

 肂

 2、偏相关的F检验

 袈

  偏相关检验的目的在于检验新加入模型的X是否与Y存在显著的线性相关。通过总相关的F检验表明Y与K个自变量X在整体上存在显著的线性相关,但并不意味着各个X都与Y存在显著的线性相关,偏相关是检验在Y与(K-1)个X存在显著的线性相关的条件下, XK是否与Y存在显著的线性相关,即 XK进入模型后对减少模型的残差平方和是否有显著的作用。

 蒈

  偏相关检验的步骤是:

 袅

  1)提出原假设 H0 :

  袁

  备择假设 H 1 :

  羈

  上述假设也可写作 H0 :

  K =0, H 1 :

  K  0

  衿

  2)计算检验统计量F:

 莃

  3)判断 H 0 是否成立。当显著性水平为α时,查F分布表求出 F  (分子自由度为1,分母自由度为N-K-1)。如果F≥ F  ,则拒绝原假设,说明Y与 XK之间存在显著偏相关,反之,接受原假设,说明Y与 XK之间不存在显著偏相关。

 袄

 四、多元回归模型的残差分析

  肈

  前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法就是残差散点图分析。

 羆

  1、线性与非线性

 肅

  前面所讨论的回归模型都是假设 Y 与 XK之间存在线性相关关系,然后应用样本数据建立起它们之间的线性回归模型的。但是如果总体中Y与 XK之间的相关关系并非是线性的,则模型的假设就不成立。应用模型来进行估计和预测就不可能得出有用的结果。

 蚃 要检验Y与 XK之间是否存在线性相关关系,可以用残差散点图来分析残差 e i =( Y j -Y j )的散布情况。我们以残差 e i 为纵座标,以估计值Y j 为横座标,在直角座标系上依次绘出点(Y j , e i )。分析观察点的散布情况。如果观察点随机地散布在横线 e i =0的周围,说明总体符合线性相关关系的假设是正确的。如果观察点的散布显示一定的规律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性与非线性的一个残差散点图。

 肈

  如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型再重新进行估计。

  莇

  图7-2

 线性与非线性的残差散点图比较

 螆

  2、共方差与异方差

 莂 在建立线性回归模型时,我们假设随机误差 e i 具有相同的方差,即共方差。我们也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差 e i 为纵座标,以估计值为横座标,在直角座标系上依次绘出点(Y j , e i )。分析观察点的散布情况。如

 果观察点随机地散布横线 e i =0的周围,说明总体基本符合共方差性的假设。如果观察点随

 的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3就是用来分析共方差与异方差的一个残差散点图。

 膈

  图7-3

 共方差与异方差的残差散点图比较

 螈 如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再利用回归模型进行估计和预测。

 膄

  3、独立与非独立

 膀 回归模型还假设随机误差 e i 之间相互独立,即Cov( e i , e j )=0  i j 。我们也可以通过残差散点图来验证总体是否符合独立性的假设。以残差 e i 为纵座标,以估计值为横座标,在直角座标系上依次绘出点(Y j , e i )。对于与时间有关的样本数据则最好以时间t为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线 e i =0的周围,说明总体基本符合独立性的假设。如果观察点在横线 e i =0的周围显示出周期性或趋势性的变化,则说明总体不符合独立性的假设。图7-4就是用来分析独立与非独立的一个残差散点图。

 芈

  图7-4

 独立与非独立的残差散点图比较

 膈

  如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分法”,做变量转换,然后重新估计模型的参数。

  4、正态与非正态 回归模型还假设随机误差 e i 服从正态分布。要检验总体残差是否满足正态分布的要求要通过建立标准残差 Eejj 的直方图来检验。从理论上说, E j 应服从标准正态分布,即 E j ~   N 01 ,

 。所以应有近50%的 E j 为正,50%的 E j 为负;68%的 E j 落在-1与+1之间,96%的 E j 落在-2与+2之间。如果画出标准残差的直方图则应如图7-5的标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样本的容量不大时, E j 在理论上应服从于自由度为(N-K-1)的t分布。所以,对应于(N-K-1)的t分布,如果有50%的值位于 t 0.25 和 t 0 75.之间,有95%的值位于 t 0 025.和 t 0 975.之间,说明总体基本符合正态性的假设。

 图7-5

 标准正态残差分布图

  5、多重共线性 在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量的含义就没有什么实际意义了,而且会引起误导或导致错误的结论。如果自变量完全线性相关,那么,其参数就成为不确定的了。

 当然,也不能要求自变量之间完全不相关,即相关系数为零。此时,变量为正交变量,这时就不必用复回归方法求参数了,每个参数  i 可以用相应的自变量作简单回归来估计即可。事实上,这两种极端是很少遇到的。大多数情况下,自变量之间存在一定程度的相关关联。实际上在多重共线性现象不太严重时,并不会影响回归模型的估计和预测的准确性。解决多重共线性问题的方法是剔除一些重复变量重新进行估计。

 练习题 7-1

 零售商为了解每周的广告费与销售额之间的关系,记录了如下统计资料:

 广告费 X(万)

 40

  20

  25

  20

  30

  50

  40

  20

  50

  40

  25

  50 销售额 Y(百万)

 385

 400

 395

 365

 475

 440

 490

 420

 560

 525

 480

 510 画出散点图,并在 Y 对 X 回归为线性的假定下,用最小二乘法算出一元回归方程。

 7-2

 下表是经济发展水平不同的八个国家人均年能源消耗量(折合成标准煤,单位 kg)和人均年国民生产总值的数据。试求 (1)

 Y 对 X 的线性回归方程; (2)

 对所求方程作显著性检验(显著性水平为 0.05)

 (3)

 对人均年生产总值 3000 美元的国家预测其人均年能源消耗量的范围(   005 . )。

  7-3

 设对某产品的价格 P 与供给量 S 的一组观察数据如下表,据此确定随机变量S 对价格 P 的回归方程。

 价格 P(百元)

  2

 3

 4

 5

 6

 8

  10

  12

  14

  16 供给量 S(吨)

 15

  20

  25

  30

  35

  45

  60

  80

  80

  110

  7-4

 依据下列统计资料,我们能否断定这一企业的利润水平和它的广告费用之间存在线性关系(   005 . )。

 广告费用(万元)

 10

  10

 8

 8

 8

  12

  12

  12

  11

  11 利润(万元)

  100

 150

 200

 180

 250

 300

 280

 310

 320

 300

 7-5

 随机抽取某城市居民的 12 个家庭,调查收入与支出的的情况,得到家庭月收入(单位:元)的下表数据。试判断支出与收入间是否存在线性相关关系?请求出支出与收入间的线性回归方程(   005 . )。

 收入

 820

 930

 1050

 1300

 1440

 1500

 1600

 1800

 2000

 2700

 3000

 4000

 支出

 750

 850

  920

 1050

 1220

 1200

 1300

 1450

 1560

 2000

 2000

 2400

  7-6

 某城市 1975~1993 年的购买力 Y(单位:万元)对职工人数1 x(单位:万人),平均工资2 x(单位:元),存款3 x(单位:亿元)进行多元线性回归分析的部分结果如下:

 样本容量 n=19,回归方程为  y=-652.964 + 1.30851 x + 0.72762 x

 + 83.02583 x (300. 858)

 (0.348)

 (0.3206)

 (41.8466)

 (1)

 说明回归方程中各系数的含义; (2)

 判断线性回归方程中那些系数是显著不为零的(   005 . )。

 (3)

 预测当1 x=700,2 x=1000,3 x=4 时的平均购买力 y。

 7-7

 上题中的变量1 x 2 x,3 x之间的相关系数如下:

 1 2 x xr,=-0.7608,

 2 3 x xr,=-0.4639,

 1 3 x xr,= 0.9078 说明上题中的线性回归分析可能存在什么问题?

 仅供个人 用于学习、研究;不得用于商业用途。

 For personal use only in study and research; not for commercial use. Nur für den persönlichen für Studien, Forschung, zu kommerziellen Zwecken verwendet werden. Pour l "étude et la recherche uniquement à des fins personnelles; pas à des fins commerciales.

 т о л ь к о

 д л я л ю д е й , к о т о р ы е и с п о л ь з у ю т с я д л я о б у ч е н и я , и с с л е д о в а н и й и н е д о л ж н ы и с п о л ь з о в а т ь с я в к о м м е р ч е с к и х ц е л я х .

  以下 无 正文