您好,欢迎访问三七文档
当前位置:首页 > 幼儿/小学教育 > 小学教育 > 中职数学基础模块下册《一元线性回归》ppt课件
1线性回归分析双变量模型2回归分析的含义回归分析是研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的统计依赖关系。其用意在于,通过解释变量的已知值或给定值去估计或预测因变量的总体均值。双变量回归分析:只考虑一个解释变量。(一元回归分析,简单回归分析)复回归分析:考虑两个以上解释变量。(多元回归分析)3术语与符号自变量(independentvariable)解释变量(explanatoryvariable)控制变量(controlvariable)预测变量(predictorvariable)回归元(regressor)因变量(dependentvariable)被解释变量(explainedvariable)响应变量(responsevariable)被预测变量(predictedvariable)回归子(regressand)XY4统计关系与确定性关系统计(依赖)关系:非确定性的关系。在统计依赖关系中,主要处理的是随机变量,也就是有着概率分布的变量。特别地,因变量的内在随机性是注定存在的。例如:农作物收成对气温、降雨、阳光以及施肥的依赖关系便是统计性质的。这些解释变量固然重要,但是并不能使我们准确地预测农作物的收成。确定性关系:函数关系。例如物理学中的各种定律。)/(221rmmkF5回归与因果关系•回归分析研究因变量对于解释变量的统计依赖关系,但并不一定意味着因果关系。一个统计关系式,不管多强和多么具有启发性,都永远不能确立因果联系。•因果关系的确立必须来自于统计关系以外,最终来自于这种或那种理论(先验的或是理论上的)。6回归分析与相关分析(一)•相关分析:用相关系数测度变量之间的线性关联程度。例如:测度统计学成绩和高等数学成绩的的相关系数。假设测得0.90,说明两者存在较强的线性相关。•回归分析:感兴趣的是,如何从给定的解释变量去预测因变量的平均取值。例如:给定一个学生的高数成绩为80分,他的统计学成绩平均来说应该是多少分。7回归分析与相关分析(二)•在相关分析中,对称地对待任何两个变量,没有因变量和解释变量的区分。而且,两个变量都被当作随机变量来处理。•在回归分析中,因变量和解释变量的处理方法是不对称的。因变量被当作是统计的,随机的。而解释变量被当作是(在重复抽样中)取固定的数值,是非随机的。(把解释变量假定为非随机,主要是为了研究的便利,在高级计量经济学中,一般不需要这个假定。)8双变量回归模型(一元线性回归模型)9双变量回归模型(最简单的回归模型)模型特点因变量(Y)仅依赖于唯一的一个解释变量(X)。回归分析的内容与目的1、通过样本数据去估计出因变量与解释变量的统计依赖关系式(总体回归函数);2、给定解释变量的取值,去估计因变量的均值;3、假设检验;4、根据样本外解释变量的取值,预测因变量的均值。10总体回归函数(Populationregressionfunction,PRF)以函数形式(方程、模型)揭示出来的因变量与解释变量的统计依赖关系式。回归分析的最终目的估计出总体回归函数11估计总体回归函数的首要任务设定总体回归函数的合理形式12假想例子对每周博彩支出和每周个人可支配收入作回归分析。因变量:每周博彩支出解释变量:每周个人可支配收入13在一个假想的经济社会中,共有100个人参与博彩。个人可支配收入分为10档,每档收入对应的博彩支出有10种情况。例子说明1415****************************************************************************************************150175200225250275300325350375每周个人可支配收入(X)总体回归曲线每周个人博彩支出Y)(iXYE)()(iiXfXYE条件均值iiXXYE21)(16“线性”一词的含义线性的含义•对变量为线性•对参数为线性221)(iiXXYEiiXXYE221)(从现在起,线性回归总是指对参数为线性的一种回归,也即参数总是以它的一次方出现。对于解释变量以什么方式进入模型则没有特别限制。iiXXYE21)(17********************(线性)总体回归函数(曲线)iiXXYE21)(XYiX相同的X对应着不同的Y。Y的所有条件期望落在一条曲线上。该形式的总体回归函数体现了因变量的条件均值与解释变量的固定取值之间的确定关系。********************************************************************************18总体回归函数iiXXYE21)()(),(,2121SlopeIntercept。称为斜率称为截距称为“回归系数”数为“未知但固定”的参、斜率度量了解释变量X每变动一个单位,因变量Y的条件均值变化多少个单位。截距项度量了解释变量为零时因变量的条件均值。一般来说,不解释其经济意义。该形式的总体回归函数称为确定(非随机)总体回归函数19********************iiXXYE21)(XYiX虽然Y的所有条件期望都落在一条直线上,但是相同的X却对应着不同的Y。总体回归函数的确定形式不能完全体现因变量的个别值与解释变量的固定值之间的统计依赖关系。********************************************************************************20iiXXYE21)(每周个人可支配收入(X)总体回归函数(PRF)的随机设定每周个人博彩支出收入YiXiuiuiYiY)(iiiXYEYu随机干扰项(随机误差项)iiiiiiuXYuXYEY21)(21总体回归模型的随机形式随机总体回归函数iiiuXY21iiiuXY):非系统成分(随机成分):系统成分(确定性成分可表示成两部分之和2122引入随机干扰项的意义1、理论的不完全性与因变量相关的因素很多,随机干扰项替代了未纳入模型的全部变量。2、人类行为的内在随机性随机因素永远存在3、节省原则模型是现实的简化,若无充分理由,宁简勿繁。4、度量误差23总体回归函数iiiuXY21iiiXXYE2124总体回归函数的参数通常是永远不得而知的。一则,实践中不能获得整个总体数据;二则,收集所有总体数据会浪费大量人力、财力,不经济。通常,我们仅有来自总体的一个或少数几个样本。因此,总体回归函数必须从已掌握的样本数据去估计。25样本回归函数(曲线)假设仅从总体中得到两组样本,样本容量均为10,对应每个X值均仅随机抽取一个Y值。SRF1SRF2样本1样本2YX26样本回归函数的特点•由于抽样的随机性,样本回归函数与总体回归函数总是不可避免存在差异。因此,样本回归函数过高或者过低估计总体回归函数自然是不可避免的。•可以说,任何SRF都仅仅是PRF的近似或者是估计。27样本和总体回归曲线(函数)YXSRFPRFiX28既然样本回归函数只是总体回归函数的一个近似,那么能不能设计一种规则或方法去构造SRF,以使得这种近似是一种尽可能“接近”的近似呢?29设定样本回归函数的形式•样本回归函数的形式应该与总体回归函数一致。原因很简单,构造样本回归函数是为了估计总体回归函数,所以形式上应该一致。•对应于总体回归函数的两种形式,样本回归函数也应该有两种形式。1、确定样本回归函数样本回归函数的非随机形式2、随机样本回归函数样本回归函数的随机形式30样本回归函数的非随机形式iiXY21ˆˆˆ确定样本回归函数:iiXXYE21)(确定总体回归函数:的估计量为总体参数的估计量为总体参数的估计量为总体条件均值2211ˆˆ)(ˆiiXYEY31样本回归函数的随机形式iiiuXYˆˆˆ21随机样本回归函数:iiiuXY21随机总体回归函数:的估计量可当作残差或剩余项样本表示iiiuuuˆ)(ˆ32样本和总体回归曲线(函数)YXiiXYSRF21ˆˆˆ:iiXXYE21)(iYiXiYˆ)(iXYEiiiuYYˆˆiiiiiuXuYYˆˆˆˆˆ21iu33样本回归函数形式iiiuXYˆˆˆ21也就是说,如何构造SRF以使得尽可能接近真实的,尽可能接近真实的?1ˆ2ˆ12iiXY21ˆˆˆ如何确定样本回归函数的参数?34普通最小二乘法Methodofordinaryleastsquares(OLS)35样本YX36iiXYSRF21ˆˆˆ:样本YXiiiYYuˆˆiY最小二乘原理:构造合适的估计量,使得残差平方和(residualsumofsquares,RSS)最小。iYˆiX2212ˆˆˆiiiXYu37样本YX38最小二乘估计量的推导2212ˆˆˆiiiXYu最小化iiiiiXYXYu21122112ˆˆ2ˆˆˆˆˆiiiiiiXXYXYu21222122ˆˆ2ˆˆˆˆˆ0ˆˆ20ˆˆ22121iiiiiXXYXY一阶条件390ˆˆ20ˆˆ22121iiiiiXXYXY22121ˆˆˆˆiiiiiiXXXYXnY解方程YYyXXxXYxyxXXYYXXiiiiiiiiii,ˆˆ)())((ˆ21222正规方程组0ˆ0ˆiiiXuu惯例:小写字母表示对均值的离差40最小二乘估计量的特点•OLS估计量是可观测样本值的函数,因而容易计算。•OLS估计量是点估计量。对于给定的样本,只能获得总体参数的一个估计值。•一旦计算出OLS估计值,便容易画出样本回归线。41最小二乘估计量的数值性质1、样本回归曲线经过Y和X的样本均值所决定的点。2、估计的Y的均值等于实测的Y的均值。3、残差均值等于零。4、残差和样本X不相关。5、残差和预测的Y值不相关。YYˆXY21ˆˆ0ˆu0ˆˆXXuuiii0ˆˆiiyu0ˆiixu42单纯的最小二乘估计量只能提供总体参数的一个点估计值,却不能对总体参数做出任何统计推断。要对总体参数从而对因变量做统计推断,还需要对回归模型进行一系列详细的假定。43XYXXYYXXiii2122ˆˆ,)())((ˆ的函数。仅仅为取定值,则如果是一个随机变量。的函数,为iiiiYXYX22ˆ,ˆ的生成方式。的生成方式决定了或者说,的随机波动。的随机波动决定了因此,22ˆˆiiYY的概率分布。必须明确做出统计推断,所以,要对真实的iY2的概率分布。的概率分布取决于从而,iY2ˆ的概率分布。也必须明确做出统计推断,同理,要对真实的i1Y44iiiuXY21总体回归函数是怎样产生的!和必须明确的概率分布,要知道iiiuXY45经典线性回归模型基本假定46经典线性回归模型的基本假定(又称“古典、高斯或标准线性回归模型”)Classicallinearregressionmodel,CLRM。是指对参数而言为线性假定一:线性回归模型iiiiiiiiiiiiuXYuXYuXYuXY212122121)ln(147机)。的取值是固定的(非随在重复抽样中,假定二:X此假定意味着,我们所进行的回归分析是条件回归分析!值。完所有的重复上述过程,直到取干个样本。以此为条件重复抽取若固定为再把干个样本。以此为条件重复抽取若固定为含义:把XXXXX,,2148iiiiiXXYEXuE21)(0)(
本文标题:中职数学基础模块下册《一元线性回归》ppt课件
链接地址:https://www.777doc.com/doc-5653356 .html