您好,欢迎访问三七文档
摘要:本文对某地教师薪金与其他影响因素做了合理科学的分析,建立教师薪金与其影响因素的回归模型。问题(1)中我们很难确定到底与薪金哪些因素有关,在模型中我们考虑到了题目给出的所有因素,通过题目给出的数据,我们建立了初步的线性回归模型,用MATLAB软件求解。通过对解出的数据进行分析,我们发现模型存在缺陷,有些变量对因变量的影响不显著,这也就说明这些因素对所调查的教师的薪金影响较小。我们剔除了其中对因变量影响不显著的变量,使模型得到进一步的改进,然后再用对因变量影响显著的X1和X4建立了简单的统计回归模型,求解之后发现,模型依然没有达到理想的效果,然后再利用残差分析法,在前一模型中增加了他们的交互项和平方项,最终得到进一步改进的模型。然后再利用MATLAB软件对其进行求解。关键词:统计回归模型;MATLAB一.问题重述某地人事部门为研究中学教师的薪金与他们的资历,性别,教育程度及培训情况等因素之间的关系,要建立一个数学模型,分析人士策略的合理,特别是考虑女教师是否受到不公平的待遇,以及他们的婚姻状况是否会影响收入。为此,从当地教师中随机选了3414位进行观察,然后从中保留了90个观察对象,得到了下表给出的相关数据。尽管这些数据具有一定的代表性,但是仍有统计分析的必要。现将表中数据的符号介绍如下:Z~月薪(元);X1~工作时间(月);X2=1~男性,X2=0~女性;X3=1~男性或单身女性,X3=0~已婚女性;X4~学历(取值0~6,值越大表示学历越高);X5=1~受雇于重点中学,X5=0~其它;;X6=1~受过培训的毕业生,X6=0~未受过培训的毕业生或受过培训的肄业生;X7=1~以两年以上未从事教学工作,X7=0~其它。注意组合(X2,X3)=(1,1),(0,1),(0,0)的含义。(1)进行变量选择,建立变量X1~X7与Z的回归模型(不一定包括每个自变量),说明教师的薪金与哪些变量关系密切,是否存在性别和婚姻状况上的差异。为了数据处理上的方便,建立对薪金取对数后作为因变量。(2)除了变量X1~X7本身之外,尝试将他们的平方项或交互项加入到模型中,建立更好的模型量。(3)给出变量X1~X7的相关系数,偏向关系,并对z,X1~X7分析因子关系。ZX1X2X3X4X5X6X7ZX1X2X3X4X5X6X719987000000462201158114011210151411000047299215911511131028181101004816951620100004125019110000491792167110100510281901010050169017300000161028190000005118271740000017101827000001522604175112110810723000000053172019901000091290301100005417202090000001012043001000055215920901410011135231012010561852210010000121204310001005721042131101001311043800000058185222000000114111841110000591852222000000151127420000006022102221100001612594211010061226622301000017112742110000622027231100001811274200010063185222700010019109547000001641852232000001201113520000016519952350000012114625201201066261624511311022118254110000672324253110100231404540001006818522570100012411825400000069205426000000025159455112110702617284113110261459660001007119482871100002712376711010072172029001000128123767010100732604308112110291496750100007418523091101013014247811010075194231900010031142479010000762027325110000321347911101007719423261101003313439200000178172032911010034131094000100792048337000000351814103002110802334346112111361534103000000811720355000001371430103110000821942357110000381439111110100832117380110001391946114113110842742387112111402216114114110852740403112111411834114114111861942406110100421414117000001872266437010000432052139110100882436453010000442087140002111892067458010000452264154002111902000464112110图1二.问题分析与模型假设1.问题分析本题要求我们分析教师薪金与他们的资历,性别,教育程度及培训情况等因素之间的关系。按我们日常生活中的常识,教师薪金应该与他们的资历,受教育程度有密切关系,资历高,受教育程度高其薪金也应该相应的要高,性别,婚姻状况可能没有必然的联系。为了说明教师薪金于各个因素之间的关系以及女教师是否收到不公平的待遇,她们的婚姻状况是否影响其收入。我们建立统计回归模型,通过各组数据来说明他们之间的关系,并进一步分析论证来确定影响教师薪金的因素。2.模型假设1.工作时间、性别、教育程度及培训情况之间相互独立,没有交互作用;2.假设教师薪金除题中所列因素之外不再考虑其他因素对教师薪金的影响;3.该地区的人事部门对中学教师的薪金调查是可信的;三.模型建立与求解模型一为了便于研究,假定:培训情况,性别,单身与否,受雇于重点中学与否,以前从事过教师职业与否等之间没有交互作用,建立薪金Z与工作时间(X1),性别(X2),婚姻状况(X3),学历(X4),受雇学校(X5),培训情况(X6)及从事教育年限(X7)之间的多元线性回归模型(为了数据处理上的方便,我们对薪金取对数后作为自变量。)为:y=a0+a1X1+a2X2+a3X3+a4X4+a5X5+a6X6+a7X7+ε(1)其中a0,a1,a2,a3,a4,a5,a6,a7是待估计的回归系数,ε是随机误差。它是由众多的未加考虑的因素(包括随机因素)所产生的影响。利用Matlab统计工具可以得到回归系数及其置信区间(置信水平α=0.05),检验统计的量2R,F,p的结果见图2参数参数估计值参数置信区间a07.0571[6.9923,7.1218]a10.0017[0.0014,0.0019]a20.0094[-0.0759,0.0946]a3-0.0027[-0.0916,0.0863]a40.0884[0.0388,0.1380]a50.0208[-0.0486,0.0902]a60.0354[-0.1103,0.1811]a7-0.0046[-0.0805,0.0712]2R=0.7900F=44.0765p0.00012s=0.0188图2结果分析:从表中2R=0.7900,即因变量(薪金)的79.00%可由模型决定,F值远大于F检验的临界值,P远小于置信水平,所以模型一从整体上看是可用的。模型二进一步的讨论:模型一的结果中我们发现对于a2,a3,a5,a6,a7其置信区间中包含0点;所以该模型是存在缺点,我们将性别,婚姻状况,受雇学校,培训情况及从事教育年限从模型中剔除不予考虑,建立一个只关于工作时间和学历程度的模型。得到模型如下:y=b0+b1X1+b4X4+ε(2)其中b0,b1,b4是待估计的回归系数,ε是随机误差。它是由众多的未加考虑的因素(包括随机因素)所产生的影响。利用Matlab统计工具可以得到回归系数及其置信区间(置信水平α=0.05),检验统计的量2R,F,p的结果见图3参数参数估计值参数置信区间b07.0652[7.0165,7.1138]b10.0017[0.0014,0.0019]b40.1027[0.0794,0.1260]2R=0.7874F=161.1350p0.00012s=0.0180图3在这里就可以大致说明:分析人事策略的合理性,女教师是没有受到不公平的待遇的,同时她们的结婚与否并不会影响其收入。模型三通过上述的分析,为了得到更好的模型,我们先大致分析y与X1,X4的关系,首先利用图1的数据分别作出y对X1,X4的散点图.2.933.13.23.33.43.5050100150200250300350400450500系列1y对X1的散点图2.933.13.23.33.43.50123456系列1y对X2的散点图从图中可以发现,随着X1的增加,y的值增长减小.我们对上面的模型引入自变量的X1的平方项.模型如下y=c0+c1X1+c2X4+c3X1^2++ε(3)其中c0,c1,c2,c3是待估计的回归系数,ε是随机误差。它是由众多的未加考虑的因素(包括随机因素)所产生的影响。利用Matlab统计工具可以得到回归系数及其置信区间(置信水平α=0.05),检验统计的量2R,F,p的结果见图3参数参数估计值参数置信区间c06.91146590704719[6.86302176549634,6.95991004859805]c10.00422392300073[0.00364401902828,0.00480382697319]c20.08997971441637[0.07302164681304,0.10693778201969]c3-0.00000608009796[-0.00000740826516,-0.00000475193076]2R=0.8917F=236.0527p0.00012s=0.0093可以看到2R拟合度增高,因此模型更优模型四前面的模型我们假设各个因素之间没有交互作用,但是现实中可能存在交互作用.我们应该在模型中加入交互项,以提高模型准确度.在模型三基础上增加X1与X4的交互项模型记为y=d0+d1X1+d2X4+d3X1^2+d4X1X4(4)利用Matlab统计工具可以得到回归系数及其置信区间(置信水平α=0.05),检验统计的量2R,F,p的结果见图3参数参数估计值参数置信区间d06.91066633520997[6.86168392730437,6.95964874311557]d10.00421734779121[0.00363272448148,0.00480197110094]d20.09506507480223[0.05805279003974,0.13207735956472]d3-0.00000603312814[-0.00000740260117,-0.00000466365512]d4-0.00002844948544[-0.00021222974895,0.00015533077807]2R=0.8918F=175.1996p0.00012s=0.0094可以看到2R拟合度增高,但是差别不大,因此模型优化十分有限四.模型评价1.对于工作时间,性别,婚姻状况,学历,受雇学校,培训情况及从事教育年限,可以引入0-1变量来处理,从而使复杂的问题变得简单化。2.引入平方项和交互作用项常常能够改善模型,使模型进一步的优化。3.剔除异常数据,有助于得到更好的结果4.在模型四中只用了工龄和学历的交互项,模型优化不大,加入其他
本文标题:教师薪金问题
链接地址:https://www.777doc.com/doc-5902210 .html