您好,欢迎访问三七文档
统计思维回归的直观理解与原理:一元线性回归(一)问题的提出例1假定需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。表1化肥施用量与粮食产量化肥施用量x(万吨)4541.053637.872287.493056.894883.73779.34021.09粮食产量y(万吨)48526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(万吨)2989.063021.93953.973212.133804.761598.281998.56粮食产量y(万吨)42947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(万吨)3710.563269.031017.121864.232797.241034.09粮食产量y(万吨)46598.0444020.9234866.9137184.1441864.7733717.78图1化肥施用量与粮食产量的散点图上述变量间关系的特点:1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.各观测点分布在直线周围xy问题两个变量之间有着密切的关系,但它们之间密切的程度并不能由一个变量唯一确定另一个变量,即它们间的关系是一种非确定性的关系。它们之间到底有什么样的关系呢?例1中由20组数据,粮食产量与化肥施用量的关系式是如何得到的?ˆ30208.9134.217yx解决方案运用模型来拟合这些数据点。观测值分解成两部分:y=b0b1xe一元线性回归模型xy观测项=+结构项随机项=+(二)一元线性回归模型1.描述因变量y如何依赖于自变量x和误差项e的方程称为回归模型2.一元线性回归模型可表示为y=b0b1xey是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项e是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性b0和b1称为模型的参数xy一元线性回归模型(基本假定)1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3.误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=b0+b1x4.对于所有的x值,ε的方差σ2都相同5.误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关回归方程(regressionequation)1.描述y的平均值或期望值如何依赖于x的方程称为回归方程2.一元线性回归方程的形式如下E(y)=b0+b1x方程的图示是一条直线,也称为直线回归方程b0是回归直线在y轴上的截距,是当x=0时y的期望值b1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值xyxy(xn,yn)(x1,y1)(x2,y2)(xi,yi)问题:回归直线如何确定?01ˆˆˆyxbbKarlGauss的最小化图xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^目标:找一条直线尽可能的拟合这n个样本点。(三)最小二乘估计(least-squaresestimation)最小niiiniixyyy121012)ˆˆ()ˆ(bb1.德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数2.使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小0ˆb1ˆb问题如何估计使得最小0122010101,11ˆˆˆˆ(,)()min()nniiiiiiQyxyxbbbbbbbb01bb、220111ˆˆˆ()()nniiiiiiyyyxbb解决方法根据微积分法求极值的原理,通过求偏导数并命其为0而得到:这组方程称为正规方程组经过整理,可得?010010011111ˆˆ2()0ˆˆˆ2()0ˆniiiniiiiQyxQyxxbbbbbbbbbb其中,记可以简写为011121ˆˆ()()ˆ()niiiniiyxxxyyxxbbb11niixxn,11niiyyn经过整理,可得22211()()nnxxiiiiLxxxnx,11()()nnxyiiiiiiLxxyyxynxy011ˆˆˆ/xyxxyxLLbbb例1假定需要研究化肥施用量与粮食产量的关系,以便准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量。表1粮食产量与化肥施用量化肥施用量x(万吨)4541.053637.872287.493056.894883.73779.34021.09粮食产量y(万吨)48526.6945110.8740753.7943824.5850890.1146370.8846577.91化肥施用量x(万吨)2989.063021.93953.973212.133804.761598.281998.56粮食产量y(万吨)42947.4441673.2147244.3443061.5347336.7837127.8939515.07化肥施用量x(万吨)3710.563269.031017.121864.232797.241034.09粮食产量y(万吨)46598.0444020.9234866.9137184.1441864.7733717.78最小二乘法求解回归方程实例解:60478.32859213.653023.916,42960.68252020xy2212()20563676920(3023.916)22755409.55nxxiiLxnx12694148832203023.91642960.682595958928.85nxyiiiLxynxy011ˆˆˆ/xyxxyxLLbbb011ˆˆ42960.68254.2173023.91630208.913ˆ/95958928.85/227554094.217xyxxyxLLbbb回归方程为:ˆ30208.9134.217yx011ˆˆ42960.68254.2173023.91630208.913ˆ/95958928.85/227554094.217xyxxyxLLbbb直观来看,回归直线与20个样本数据点都很接近,说明回归直线对数据的拟合效果是好的。图1化肥施用量与粮食产量的散点图最小二乘估计的软件实现、输出结果ˆ30208.9134.217yx回归方程为:小结:估计的回归方程3.一元线性回归中估计的回归方程为2.用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程0ˆb1ˆb0b1b1.总体回归参数和是未知的,必须利用样本数据去估计0b1bxy10ˆˆˆbb其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值.0ˆb1ˆbyˆ“回归”名称的由来十九世纪,英国生物学家兼统计学家高尔顿研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x(单位:英寸,1英寸=2.54厘米),取他们的一个成年儿子的身高作为y,绘制散点图发现趋势近乎一条直线,计算出的直线方程为:这种趋势表明子代的身高向中心回归,才使得人类的身高在一定时间内相对稳定,没有出现两极分化现象。其后研究变量x和变量y的统计关系时借用这个名词。
本文标题:一元线性回归原理
链接地址:https://www.777doc.com/doc-3521735 .html