您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 2015-2016学年31《回归分析》课时2课件
回归分析的基本思想及其初步应用(第二课时)建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).(4)按一定规则(如最小二乘法)估计回归方程中的参数.(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.知识回顾:(6)参数R2与相关系数r它们都是刻画两个变量之间的的相关关系的,区别是R2表示解释变量对预报变量变化的贡献率,其表达式为R2=1-;相关系数r是检验两个变量相关性的强弱程度,其表达式为n2iii1n2ii1yyyy$nniiiii1i1nnnn222222iiiii1i1i1i1xxyyxynxyr.xxyy(xnx)(yny)(7)相关系数r与R2(1)R2是相关系数的平方,其变化范围为[0,1],而相关系数的变化范围为[-1,1].(2)相关系数可较好地反映变量的相关性及正相关或负相关,而R2反映了回归模型拟合数据的效果.(3)当|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当R2接近于1时,说明线性回归方程的拟合效果较好.31表325115662421117/y35322927252321C/0个产卵数温度例1:一只红铃虫产卵数y和温度x有关,现收集到的一组数据如下表1-3表,试建立y与x之间的回归方程。讲解新课:画出确定好的解释变量和预报变量的散点图,观察它们之间的关系.(1)是否存在线性关系?(2)散点图具有哪种函数特征?(3)以指数函数模型为例,如何设模型函数?非线性关系指数函数、二次函数、三次函数05010015020025030035020222426283032343641.1图温度产卵数.,abxy线性回归方程我们称之为非时当回归方程不是形如cc21设指数函数曲线其中和是待定参数。ecyxc12我们可以通过对数变换把指数关系变为线性关系()这样就可以利用线性回归模型来建立z与x回归模型,进而找到y与x的非线性回归方程。*则变换后样本点分布在直线的周围。令)cb,clna(abxz21==+=ylnz=现在问题变为如何估计待定参数和?cc21非线性回归模型.,,51.1.4151.1用线性回归方程来拟合因此可以一条直线的附近变换后的样本点分布在看出中可以从图中数据的散点图给出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表01234567202224262830323436产卵数的对数温度51.1图.843.3272.0ˆ41xz到线性回归方程中的数据得由表图的样本数据表的数据可以得到变换后由表,4131(6)eyˆ0.272x-3.843(1)325115662421117y12251024841729625529441t51表另一方面,可以认为图11-4中样本点集中在某二次曲线因此可以对温度变量做变换,即令然后建立y与t之间的线性回归方程,从而得到y与x之间的排线性回归方程。,2xt的附近,其中和为待定参数.43cc423cxcy表1-5是红铃虫的产卵数和对应的温度的平方,图1.1-6是相应的散点图....,,,61.1423下面介绍具体方法到还可以通过残差分析得这个结论之间的关系与来拟合二次曲线即不宜用合它回归方程来拟此不宜用线性因直线的周围不分布在一条的散点图并与可以看出中从图xycxcyty0501001502002503003504005006007008009001000110012001300温度的平方数卵产61.1图中用线性回归模型拟合表的二次回归方程关于下面建立的指数回归方程关于前面已经建立了方程归需要建立两个相应的回残差为比较两个不同模型的51.,.,xyxy7.54.202x367.0yˆxy,54.202t367.0yˆty,222的二次回归方程为关于即的线性回归方程关于得到的数据的残差计算公式分别为和则回归方程列的数据行第第表示表用的拟合效果和个回归方程可以通过残差来比较两76,1151.76ixi;7,,2,1i,eyyˆyeˆ843.3x272.0i1ii1i.7,,2,1i,54.202x367.0yyˆyeˆ2ii2ii2i.76,76.61的拟合效果好型的拟合效果比模因此模型的残差的绝对值小模型的残差的绝对值显然比模型从表中的数据可以看出残差的两个回归方程的给出了原始数据及相应表965.77268.58107.4041003835.5397.19693.47eˆ928.32153.14889.8149.9760.1617.0518.0eˆ325115662421117y35322927252321x2161表R21(0.98)在一般条件下,比较两个模型的残差比较困难,原因是在某些样本点上一个模型的残差的绝对值比另一个模型小,而另一个样本点的情况则相反.这时可以用残差平方和或R2来比较两个模型的拟合效果,残差平方和越小(或R2越大),模型的拟合效果就越好.本例中模型(1)的残差平方和约为1451(2)的残差平方和为15448.4因此,模型(1)的拟合效果比模型(2)好R22(0.80)方法归纳求非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.(4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(5)根据相应的变换,写出非线性回归方程.①y=a+,令t=,则有y=a+bt;②y=axb,令z=lny,t=lnx,m=lna,则有z=m+bt;③y=aebx,令z=lny,m=lna,则有z=m+bt;④y=,令z=lny,t=,m=lna,则有z=m+bt;⑤y=a+blnx,令t=lnx,则有z=a+bt;⑥y=bx2+a,令t=x2,则有y=bt+a.bx1xbxae1x几种常见的函数模型变换例2.(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=xi,w-=18wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为[解](1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.例3某种食品每公斤的生产成本y(元)与该食品生产的重量x(公斤)有关,经生产统计得到以下数据:x123510203050100200y10.155.524.082.852.111.621.411.301.211.15通过以上数据判断该食品的成本y(元)与生产的重量x(公斤)的倒数1/x之间是否具有线性相关关系?若有,求出y关于1/x的回归直线方程,并借此估计一下生产该食品500公斤时每公斤的生产成本是多少?(精确到0.01)[分析]本题显然是非线性回归问题,题意通过研究y与1x的相关性,借助两者的线性相关关系得到y关于1x的回归直线方程,从而确定y与x的回归方程.解:设u=1x,通过数据得到y与u的相应数据为:u=1x10.50.330.20.10.050.030.020.010.005y10.155.524.082.852.111.621.411.301.211.15于是y与1x的回归方程为y^=8.973x+1.125.当x=500(公斤)时,y^=8.973500+1.125≈1.14.即估计生产该食品500公斤时每公斤的生产成本是1.14元.1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为𝑦^=0.85x-85.71,则下列结论中不正确的是().A.y与x具有正的线性相关关系B.回归直线过样本点的中心(𝑥,𝑦)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg答案:D解析:D选项中,若该大学某女生身高为170cm,则可断定其体重约为0.85×170-85.71=58.79(kg).故D不正确.y$yx2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm)174176176176178儿子身高y(cm)175175176177177则y关于x的线性回归方程为().A.y=x-1B.y=x+1C.y=88+12xD.y=176答案:C解析:方法一:由线性回归直线方程过样本中心(176,176),排除A,B答案,结合选项可得C为正确答案.方法二:将表中的五组数值分别代入选项验证,可知y=88+12x最适合.3.在两个变量y与x的回归模型中,分别选择了4个不同的模型.通过计算得R2的值如下,其中拟合效果最好的模型是().A.模型1的R2为0.98B.模型2的R2为0.80C.模型3的R2为0.50D.模型4的R2为0.25答案:A解析:R2越接近于1,则该模型的拟合效果就越好,精度越高.4.若对于变量y与x的10组统计数据的回归模型中,R2=0.95,又知残差平方和为120.53,那么∑𝑖=110(yi-𝑦)2的值为.答案:2410.6解析:依题意有0.95=1-120.53∑𝑖=110(𝑦𝑖-𝑦)2,所以∑𝑖=110(yi-𝑦)2=2410.6.yiyyy非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数)等图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
本文标题:2015-2016学年31《回归分析》课时2课件
链接地址:https://www.777doc.com/doc-3014940 .html