您好,欢迎访问三七文档
第三章:总体方差:22()ixN;样本方差:22()1ixxsniixxzs样本协方差Sxy=1))((1nYYXXniii总体协方差()()iixyxyxyN皮尔逊积矩相关系数:rxy=yxSSSxy第五章:离散型概率分布数学期望()()Exxfx,方差22()()()Varxxfxf(x)为概率二项概率函数:f(x)=)()1(xnxppxn5.5泊松概率分布f(x)=!xex,在一个时间区间内事件发生x次的概率,μ为数学期望(与方差相差)第六章:连续型概率分布6.1均匀概率密度函数ab1a≤x≤bf(x)=0其他E(x)=2ba,Var(x)=12)(2ab连续型概率分布6.3二项概率的正态近似均值μ=np,标准差(1)npp,当取概率pp(x)时,x+0.5;当取概率pp(x)时,x-0.5。6.4指数概率分布f(x)=/1xe,表示两起事件之间的时间间隔累积概率:不超过X0分钟P(x≤x0)=1-/0xexz第八章:总体均值区间估计8.1总体标准差σ已知,求总体均值μ的置信区间估计95%置信水平(confidencelevel),0.95置信系数(confidencecoefficient),置信区间(confidenceinterval)x=n,边际误差=2/zx=2/zn,α=1-0.95=0.05,α/2=0.025(上侧面积)总体均值的区间估计=μ=x+2/zn8.2总体标准差σ未知,求总体均值μ的置信区间估计(t分布)用样本标准差s代替总体标准差σ,t代替zμ=x+2/tns,自由度df=n-10/xtsn8.3样本容量的确定n=2222/)(Ez,E为所希望的总体均值μ的边际误差8.4总体比率:只有z,没有tp=npp)1(,边际误差=2/zp=2/znpp)1(=E总体均值的区间估计=p+2/znpp)1(n=(2/z)2p*(1-p*)/E2第九章:假设检验(一个μ)总体均值μ假设检验H0:μ=μ0;Ha:μ≠μ0,μ0为假定值p-value≤α,即z≥z(上侧)或z≤-z(下侧),则拒绝p(z≥1.96)=0.0259.3总体标准差σ已知,求zz=nx/0,x为样本均值置信区间法:x+2/zn,看μ0是否落在该区间内9.4总体标准差σ未知,求t0/xtsn,df=n-19.5总体比率假设检验,求zH0:p=p0;Ha:p≠p0,p0为假定值z=000(1)/ppppn9.7计算第二类错误的概率(1)在显著性水平α下,根据临界值法确定临界值2/z并建立拒绝法则(如,如果z≤2/z,则拒绝);(2)根据2/z,解出样本均值x取值范围(根据z=nx/0≤或≥2/z);(3)建立接受域,如xa;(4)根据接受域(不变)与满足备择假设的新μ,计算概率(z=nx/)。第二类错误概率β,做出拒绝H0的正确结论的概率称为功效,值为1-β越接近原假设均值μ,发生第二类错误的风险越大。9.8确定总体均值μ假设检验的样本容量n=2220()()azzα为第一类错误概率,β为第二类错误概率,μ0为原假设总体均值,μa为第二类错误所用总体均值。双侧检验中,以Zα/2代替Zα第十章:两总体均值和比例的推断(两个μ)10.1两总体均值之差(μ1-μ2)的推断,总体方差σ1和σ2已知标准差12xx=221212nn,Marginoferror=2212/212znnμ1-μ2的区间估计:221212/212xxznnμ1-μ2的假设检验:H0:μ1-μ2=D0;Ha:μ1-μ2≠D0,双侧,求z:120221212()xxDznn10.2两总体均值之差(μ1-μ2)的推断,总体方差σ1和σ2未知μ1-μ2的置信区间估计:221212/212ssxxtnn,df=22212122222121122()11()()11ssnnssnnnn,自由度取小的整数μ1-μ2的假设检验,求t:t=120221212()xxDssnn10.3匹配样本H0:μd=0,Ha:μd≠0,双侧t=/dddsn,df=n-1,d为两组数值之差的平均值,μd为总体数值之差的平均值(一般为0),Sd为两组样本数值之差的标准差置信区间=0.025dsdtn10.4两总体比例之差的推断H0:p1-p2=0;Ha:p1-p2≠D0112212npnppnn,121211(1)()ppzppnn两总体比例之差的置信区间=121212/212(1)(1)ppppppznn第十一章:关于总体方差σ2的统计推断11.1一个σ总体方差的区间估计:22222/2(1/2)(1)(1)nsns假设检验:2222000:;:aHH,双侧检验2220(1)ns,df=n-1,做备择假设使取上侧11.2两个σ总体方差的统计推断:222201212:;:aHH,双侧检验F=2122ss,s1是较大的样本方差numeratordegreesoffreedom=n-1,denominatordegreesoffreedom=n-12取值都取右侧,如α值越小,2越大第十二章:拟合优度检验和独立性检验12.1拟合优度检验:多项总体(总体是否服从k类中每类都有指定的概率)H0:pA=.30,pB=.50,andpC=.20,单侧检验Ha:ThepopulationproportionsarenotpA=.30,pB=.50,andpC=.20221()kiiiifee12.2独立性检验(两个因素是否相关),单侧检验H0:BeerpreferenceisindependentofthegenderofthebeerdrinkerHa:Beerpreferenceisnotindependentofthegenderofthebeerdrinker22()ijijijijfee第十三章:实验设计与方差分析13.2方差分析和完全随机化实验设计(单因素)一个μ对应一个处理j列,多个μ比较是否相等,μ1=μ2=μ3)处理间估计处理平方和21()kjjjSSTRnXX,处理均方MSTR=1SSTRK处理内估计误差平方和21(1)kjjjSSEns,误差均方TSSEMSEnkk为处理数,n为每个处理中样本的个数,nT为总个数MSTRFMSE,上侧检验;SST=SSTR+SSEMSE=s2,s=MSEμ=x+2/tns13.3多重比较方法Fisher的LSD方法(两个μ进行比较)H0:μi=μj;Ha:μi≠μj11()ijijxxtMSEnn,df=nT-k,双侧第二种方法:H0:μi=μj;Ha:μi≠μj如果ijXX>LSD,则拒绝H0/211()ijLSDtMSEnnμ1-μ2的置信区间估计=ijxxLSD13.4随机化区组设计13.4.2ANOVA方法A:处理;B:区组;E:误差SST=SSTR+SSBL+SSE,SSE=SST-SSTR-SSBL211()bkijijSSTxx,2.1()kjjSSTRbxx,2.1()biiSSBLkxx行是i,列是j,j对应处理,i对应区组MSTRFMSE,上侧检验,判断“处理”均值是否相等(多个μ,一个μ对应一个处理)k=thenumberoftreatments,b=thenumberofblocksn,nT=thetotalsamplesize(nT=kb)13.5析因实验2111()abrijkijkSSTxx2.1()aiiSSAbrxx2.1()bjjSSBarxx2..11()abijijijSSABrxxxxSSE=SST-SSA-SSB-SSABF检验体现的是每个因子的显著性行是i,列是j,A对应i,B对应j十四章:简单线性回归简单线性回归方程:))((1111iiiiyxyxnyxL;221)(111iixxxnxL;1111xxyxLLb11121)(xxyxLLxSSR;)()(11xSSRSSTxSSEˆy=01bbx12()()()iiixxyybxx,01bybx总的平方和2()iSSTyy回归平方和2ˆ()iSSRyy误差平方和2ˆ()iiSSEyySST=SSR+SSE,自由度:n-1=1+(n-2)判定系数2SSRrSST,相当于ˆyyyy,所以r2越接近1,ˆy就越接近y,拟合度就越好。Theleastsquareslineaccountedfor74.6%ofthetotalsumofsquares.rxy=(b1的符号)2r,为正,表示正相关;负则负相关。均方误差22SSEsMSEn,估计的标准误差2SSEsMSEnt检验:H0:1=0,Ha:1≠0b1估计的标准差12()bissxxt=11bbs,自由度为n-2,双侧检验1的置信区间:1/21bbtsF检验:H0:1=0,Ha:1≠0上侧检验MSR均方回归;MSE均方误差MSR=SSR/自变量个数MSRFMSE=/2)/(SnSSRSE自变量个数,分子和分母自由度分别为自变量个数和n-2,上侧检验y的平均值的置信区间:confidenceintervalˆ/2ˆppyyts,/2t自由度为n-2ˆpy的估计的标准差2ˆ2()1()ppyixxssnxxy的一个个别值的预测区间:predictioninterval,/2ˆpindyts,/2t自由度为n-222()11()pindixxssnxx回归分析:yi与xi回归方程为yi=0.20+2.60xi自变量系数系数标准误TP常量(b0)0.200(sb0)2.1320.090.931xi(b1)2.6000(sb1)0.6429(t)4.040.027S=2.03306R-Sq=84.5%R-Sq(调整)=79.3%方差分析来源自由度SSMSFP回归R167.60067.60016.350.027残差误差E312.4004.133合计480.000新观测值的预测值新观拟合值测值拟合值标准误95%置信区间95%预测区间110.600ˆpys1.114(7.056,14.144)(3.223,17.977)新观测值的自变量值新观测值xi14.002SSEsMSEn标准化残差:ˆˆiiiiyyyys=sih1杠杆率22()1()iiixxhnxx大约有95%标准化残差介于-2和+2之间。简单线性回归,Forthecaseofsimplelinearregression,Minitabidentifiesobservationsashavinghighleverageifhi6/nor0.99,whicheverissmaller.第十五章:多元回归R2=SSR/SST显著性检验:F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系,上侧检验;ˆiiyyst检验用于确定每一个单个的自变量是不是显著的自变量,双侧检验。t检验:双侧15.8残差分析标准化残差:ˆˆiiiiyyyys=sih122()1()iiixxhnxx杠杆率跟自变量x有关学生化删除残差df=(n-1)-p-1,异常值在±tα/2以外(tα/2或-tα/2)有影响的观测值:多元回归杠杆率,hi3(p+1)/n库克距离,Di1第十六章:建立模型确定什么时候增加或删除变量上侧检验,检验增加的自变量是否是显著的df1=增加的自变量个数;d
本文标题:数据模型公式
链接地址:https://www.777doc.com/doc-2333660 .html