您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 冶金工业 > 第5章 逐步回归与自变量选择
浙江财经学院倪伟才第五章逐步回归法浙江财经学院倪伟才一、前进法前进法(forward)的思想:自变量由少到多,每次增加1个,直到没有可引入的变量为止。具体步骤:①将x1,x2,….,xp中的一个变量引入回归方程,作p个一元线性回归方程;选取与y关系最密切(相关性最强)(或p值最小的)解释变量引入。不妨设为x1.②回归方程中已有x1,再引入一个变量。作p-1个二元线性回归方程;选取x2,….,xp中与y关系最密切(相关性最强)(或p值最小的)解释变量引入。不妨设为x2.③回归方程中已有x1,x2,再引入一个变量。作p-2个三元线性回归方程;选取x3,….,xp中与y关系最密切(相关性最强)(或p值最小的)解释变量引入。不妨设为x3.。。。。。。。④直到未被引入方程的p值0.05为止。例:用前进法建立例3.1的回归方程浙江财经学院倪伟才二、后退法后退法(backwad)的基本思想:首先用全部的p个自变量建立一个回归方程,然后将最不重要的自变量一个一个地删除。具体步骤:①作y对全部的p个自变x1,x2,….,xp的回归②在回归方程中,将x1,x2,….,xp对y的影响最小(最不重要或p值最大)的自变量剔除,不妨令x1;③在②中的回归方程(已没有x1),将x2,….,xp对y的影响最小(最不重要或p值最大)的自变量剔除,④直到回归方程中,自变量对y的影响都重要为止。例:用后退法建立例3.1回归方程浙江财经学院倪伟才三.前进法、后退法的缺点前进法:终身制。前面引进的自变量是显著的,但后面引进其它变量后变地不显著了,此时再也无法将其剔除。后退法:一棍子打死。一旦某个自变量被剔除后,它再也没有机会重新进入回归方程。浙江财经学院倪伟才四.逐步回归法思想:有进有出,在前进法的基础上,结合后退法。步骤:将变量一个一个引入,当引入一个新的变量时,不仅对新变量进行检验,而且对已引进的自变量也要检验。若已引进的变量由于后面的变量引进而变地不显著时,将其剔除(有进有出),直到不再有显著的变量引入回归方程,也不再有不显著的变量从回归方程中剔除。(通俗的说:方程中的自变量都是显著的,方程外的自变量都是不显著的)引入自变量显著性水平记为:进剔除自变量显著性水平记为:出要使用逐步回归法的前提:进出Spss中默认的进=0.05出=0.1例:用逐步回归法建立例3.1回归方程练习课本例5.5关于香港股市的研究练习课本152页的习题5.9浙江财经学院倪伟才6Stata,SPSS结果一致(课本例5.1)1:Stepwise:swregyx1x2x3,pe(.05)pr(.1)forward与SPSS的输出结果完全相同!2:forward:swregressyx1x2x3,pe(.05)3:backward:swregressyx1x2x3,pr(.1)4:区别swregyx1x2x3,pe(.05)pr(.1)forwardbeginwithemptymodelswregyx*,pe(0.05)pr(0.1)beginwithfullmodel浙江财经学院倪伟才7自变量选择的准则浙江财经学院倪伟才8所有子集回归在一个实际问题的多元回归模型的建模过程中,有p个可供选择的变量x1,x2,…,xp.这样,y关于这些自变量的所有可能的回归方程就有2p个,(此时把回归模型只包含常数项的情况包含在内)。(请说出为什么是2p个的理由?)若把回归模型只包含常数项的情况排除在外,可能的回归方程就有2p-1个。对于有p个自变量的回归模型问题,一切可能的回归子集有2p个,在这些回归子集中如何选择一个最优的回归子集,衡量最优子集的标准是什么?浙江财经学院倪伟才9复习残差平方和与复决定系数1:OLSE的基本思想:使残差平方和达到最小。思考:能用残差平方和来选择一个最优的回归子集吗?理由?2:能用复决定系数来选择一个最优的回归子集吗?理由?浙江财经学院倪伟才10准则1:调整复决定系数SSTSSRR122211111111(1)1SSRnpSSTnnSSRnpSSTnRnRp浙江财经学院倪伟才11调整复决定系数2R随着自变量的增加并不一定增大!)1(11122RpnnR反而可能减少。归的贡献很小时,当所增加的自变量对回一定增大。随着自变量的增加并不才使起到制衡作用,但由于其前面的系数,随着变量的增加而减少-由上式知:尽管2221-p-n1-n1RRR浙江财经学院倪伟才12准则2:回归的标准误222n-p1ˆn-p-1ˆn-p-1-1,SSR=惩罚因子实际上就是用自由回归误差项方差的无偏估计为:此无偏估计式中度作平均的平均残差加入了平方和。2220n-p-1ˆ0ˆn-p-1ˆSSRSSRSSR当自变量个数从开始增加时,逐渐减少,作为除数的惩罚因子也随之减少。一般而言,当自变量个数从开始增加时,先是开始,而后开始下来,当自变量个数增加到一定数量后,又开始。这是因为刚开始时,随着自变量个数的增加,能够快速减少,虽然作为除数的惩罚因子也随之减少,但由于减小的速度更快,因而是趋于减少的。当自变量个数增加到一定程度下降稳定增加,应该说重2ˆn-p-1SSR要的自变量基本上都已选上了,这是再增加自变量,减少不多,以致抵消不了的减少,最终导致增加。浙江财经学院倪伟才132222222ˆn-1ˆ1SSTˆˆSSTRRR用平均残差平方和作为自变量选元准则是合理的。实际上,。由于是与回归无关的固定和这两个值,因而和准则是等价的是等价的。浙江财经学院倪伟才14TwopopularmodelselectioncriteriaTheKISSPrinciple:KeepItSophisticallySimple!准则3:AIC准则AIC=ln(SSR)+2P/n=goodnessoffit+modelcomplixity准则4:BIC准则BIC=ln(SSR)+ln(n)p/n浙江财经学院倪伟才15RemarkRemark:BICgivesaheavierpenaltyformodelcomplexitythanAIC,whichismeasuredbythenumberofestimatedparameter(relativetothesamplesizen)Remark:BICisstronglyconsistentinthatitdeterminesthetruemodelasymptotically,whereasforAICanoverparameterizedmodelwillemergenomatterhowlargethesampleis.Ofcourse,suchpropertiesarenotnecessarilyguaranteedinfinitesamples.AIC的模型选择不相合;BIC的模型选择相合以上结论的证明请参考Stock&WatsonIntroductiontoEconometricschapter12appendix12.5浙江财经学院倪伟才16QuestionQuestion:Whyisitnotagoodpracticetouseacomplicatedmodel?Answer:Acomplicatedmodelcontainsmanyunknownparameters.Givenafixedamountofdatainformation,parameterestimationwillbecomelesspreciseifmoreparametershavetobeestimated.Asaconsequence,theout-of-sampleforecastforYtwillbecomelessprecisethantheforecastofasimplermodel.Thelattermayhavealargerbiasbutmorepreciseparameterestimates.Intuitively,acomplicatedmodelistooflexibleinthesensethatitmaynotonlycapturesystematiccomponentsbutalsosomefeaturesinthedatawhichwillnotshowupagain.浙江财经学院倪伟才17例题讲解数据见(自变量的选择准则.sav或自变量的选择准则.dta)请分别用调整复决定系数,回归的标准误,AIC准则,BIC准则,来选择最优子集。Spss:regression中block的使用!结果请见(自变量的选择准则.xls)Stata相关命令:rquarefitstat浙江财经学院倪伟才18阅读材料请阅读课本135页-137页用SAS软件寻找最优子集操作课本例5.2浙江财经学院倪伟才19Stata自变量的选择准则.dta(即课本例5.1)finditrsquarersquareyx1x2x3Regressionmodelsfordependentvariable:yR-squaredMallows'CSEEMSEmodelswith1variable0.97286.138.28450.5178x10.956618.1513.23010.8269x20.950822.4514.99950.9375x3R-squaredMallow'sCSEEMSEmodelswith2variables0.97476.747.70930.5140x1x20.97844.016.58600.4391x1x30.957619.4612.94640.8631x2x3R-squaredMallow'sCSEEMSEmodelswith3variables0.98114.005.76070.4115x1x2x3浙江财经学院倪伟才20Con’dfitstatMeasuresofFitforregressofyLog-LikInterceptOnly:-51.010Log-LikFullModel:-15.287D(14):30.574LR(3):71.445ProbLR:0.000R2:0.981AdjustedR2:0.977AIC:2.143AIC*n:38.574BIC:-9.891BIC':-62.774
本文标题:第5章 逐步回归与自变量选择
链接地址:https://www.777doc.com/doc-4143132 .html