您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 医学统计学课件 第3章 总体均数的区间估计和假设检验
第3章总体均数的区间估计和假设检验目录第二节t分布第三节总体均数的区间估计第四节假设检验的意义和基本步骤第一节均数的抽样误差与标准误第五节均数的t检验第六节两总体方差的齐性检验和t'检验学习要求掌握:抽样误差的概念和计算方法掌握:总体均数区间的概念,意义和计算方法掌握:假设检验的基本步骤及思路掌握:t检验的概念,意义,应用条件和计算方法统计推断(statisticalinference):根据样本信息来推论总体特征。均数的抽样误差:由抽样引起的样本均数与总体均数的差异称为均数的抽样误差。标准误(standarderror):反映均数抽样误差大小的指标。第一节均数的抽样误差与标准误一、标准误的意义及其计算Populationμsample2sample1sample3sample4sample5σ已知:nXnSSX标准误计算公式σ未知:实例:如某年某市120名12岁健康男孩,已求得均数为143.07cm,标准差为5.70cm,按公式计算,则标准误为:52.012070.5XS1.表示抽样误差的大小;2.进行总体均数的区间估计;3.进行均数的假设检验等。二、标准误的应用第二节t分布一、t分布的概念t分布于1908年由英国统计学家W.S.Gosset以“Student”笔名发表,故又称“Studentt”分布正态变量X采用u=(X-μ)/σ变换,则一般的正态分布N(μ,σ)即变换为标准正态分布N(0,1)。又因从正态总体抽取的样本均数服从正态分布N(μ,),同样可作正态变量的u变换,即nXXuX实际工作中由于理论的标准误往往未知,而用样本的标准误作为的估计值,此时就不是u变换而是t变换了,即下式:nSXSXtX二、t分布曲线的特征t分布曲线是单峰分布,以0为中心,左右两侧对称,曲线的中间比标准正态曲线(u分布曲线)低,两侧翘得比标准正态曲线略高。t分布曲线随自由度υ而变化,当样本含量越小(严格地说是自由度υ=n-1越小),t分布与u分布差别越大;当逐渐增大时,t分布逐渐逼近于u分布,当υ=∞时,t分布就完全成正态分布。t分布曲线是一簇曲线,而不是一条曲线。T界值表。t分布示意图t分布曲线下双侧或单侧尾部合计面积我们常把自由度为υ的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定值α时,则横轴上相应的t界值记为tα,υ。如当υ=20,α=0.05时,记为t0.05,20;当υ=22,α=0.01时,记为t0.01,22。对于tα,υ值,可根据α和υ值,查附表,t界值表。t分布是t检验的理论基础。由公式可知,│t│值与样本均数和总体均数之差成正比,与标准误成反比。在t分布中│t│值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就越小,说明在抽样中获得此│t│值以及更大│t│值的机会就越小,这种机会的大小是用概率P来表示的。│t│值越大,则P值越小;反之,│t│值越小,P值越大。根据上述的意义,在同一自由度下,│t│≥tα,则P≤α;反之,│t│<tα,则P>α。第三节总体均数的区间估计参数估计:用样本指标(统计量)估计总体指标(参数)称为参数估计。估计总体均数的方法有两种,即:点值估计(pointestimation)区间估计(intervalestimation)。一、点值估计点值估计:是直接用样本均数作为总体均数的估计值。此法计算简便,但由于存在抽样误差,通过样本均数不可能准确地估计出总体均数大小,也无法确知总体均数的可靠程度。二、区间估计区间估计是按一定的概率(1-α)估计包含总体均数可能的范围,该范围亦称总体均数的可信区间(confidenceinterval,缩写为CI)。1-α称为可信度,常取1-α为0.95和0.99,即总体均数的95%可信区间和99%可信区间。1-α(如95%)可信区间的含义是:总体均数被包含在该区间内的可能性是1-α,即(95%),没有被包含的可能性为α,即(5%)。总体均数的可信区间的计算1.n较小(n100)用t值XStX,2.n较大(n≥100)用U值(或σ已知)XSuX95%的可信区间为123.7±2.064×2.38,即(118.79,128.61)。故该地1岁婴儿血红蛋白平均值95%的可信区间为118.7~128.61(g/L)。例3.1为了了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其血红蛋白的平均数为123.7g/L,标准差为11.9g/L。试求该地1岁婴儿的血红蛋白平均值95%的可信区间。例3.2上述某市120名12岁健康男孩身高均数为143.07cm,标准误为0.52cm,试估计该市12岁康男孩身高均数95%和99%的可信区间。95%的可信区间为143.07±1.96×0.52,即(142.05,144.09)。99%的可信区间为143.07±2.58×0.52,即(141.73,144.41)。注意点标准误愈小,估计总体均数可信区间的范围也愈窄,说明样本均数与总体均数愈接近,对总体均数的估计也愈精确;反之,标准误愈大,估计总体均数可信区间的范围也愈宽,说明样本均数距总体均数愈远,对总体均数的估计也愈差。表3-1标准差和标准误的区别标准差(S)标准误(XS)1.表示个体变量值的变异度大小,即原始变量值的离散程度。公式为:1)(2nXXS2.计算变量值的频数分布范围,如:(SX96.1)。3.可对某一个变量值是否在正常值范围内作出初步判断。4.用于计算标准误。1.表示样本均数抽样误差的大小,即样本均数的离散程度。公式为:nSSX2.计算总体均数的可信区间,如:(XSX96.1)。3.可对总体均数的大小作出初步的判断。4.用于进行假设检验。第四节假设检验的意义和基本步骤假设检验(hypothesistest)亦称显著性检验(significancetest),是统计推断的重要内容。它是指先对总体的参数或分布作出某种假设,再用适当的统计方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。例3.3根据调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机测量了25名健康成年男子脉搏数,求得其均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同?本例两个均数不等有两种可能性:①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏总体均数是相同的,差别仅仅由于抽样误差所致;②受山区某些因素的影响,两个总体的均数是不相同的。如何作出判断呢?按照逻辑推理,如果第一种可能性较大时,可以接受它,统计上称差异无统计学意义;如果第一种可能性较小时,可以拒绝它而接受后者,统计上称差异有统计学意义。假设检验的一般步骤1.建立检验假设一种是无效假设(nullhypothesis)符号为H0;一种是备择假设(alternativehypothesis)符号为H1。00H0:H1:表3-2样本均数所代表的未知总体均数与已知总体均数的比较目的H0H1双侧检验是否000单侧检验是否0是否00000表3-3两样本均数所代表的未知总体均数的比较目的H0H1双侧检验是否212121单侧检验是否21是否21212121212.确定检验水准检验水准(sizeofatest)亦称显著性水准(significancelevel),符号为α。它是判别差异有无统计意义的概率水准,其大小应根据分析的要求确定。通常取α=0.05。3.选定检验方法和计算统计量根据研究设计的类型和统计推断的目的要求选用不同的检验方法。如完全随机设计中,两样本均数的比较可用t检验,样本含量较大时(n100),可用u检验。不同的统计检验方法,可得到不同的统计量,如t值和u值。4.确定概率P值P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或小于)现有统计量的概率。│t│≥tα,υ,则P≤α;│t│tα,υ,则Pα。5.作出推断结论①当P≤α时,表示在H0成立的条件下,出现等于及大于现有统计量的概率是小概率,根据小概率事件原理,现有样本信息不支持H0,因而拒绝H0,结论为:按所取检验水准拒绝H0,接受H1,即差异有统计学意义。如例3.3认为两总体脉搏均数有差别。②当Pα时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,现有样本信息还不能拒绝H0,结论为按所取检验水准不拒绝H0,即差异无统计意义,如例3.3尚不能认为两总体脉搏均数有差别。下结论时的注意点:P≤α,拒绝H0,不能认为H0肯定不成立,因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小,但仍有可能出现;同理,Pα,不拒绝H0,更不能认为H0肯定成立。由此可见,假设检验的结论是具有概率性的,无论拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误第五节均数的t检验小样本的样本均数与总体均数的比较以及两个样本均数的比较要用t检验。t检验的适用条件:①样本来自正态总体或近似正态总体;②两样本总体方差相等。t检验的类型1.单样本t检验(样本均数与总体均数比较t检验)2.配对样本t检验3.独立样本t检验(两样本均数比较t检验)即样本均数代表的未知总体均数与已知的总体均数(一般为理论值、标准值或经过大量观察所得的稳定值等)进行比较。这时检验统计量t值的计算在H0成立的前提条件下为:nSXt0一、单样本t检验(样本均数与总体均数比较的t检验)例3.3根据调查,已知健康成年男子脉搏的均数为72次/分钟,某医生在一山区随机测量了25名健康成年男子脉搏数,求得其均数为74.2次/分钟,标准差为6.5次/分钟,能否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同?例3.6对例3.3资料进行t检验。(1)建立检验假设H0:μ=μ0,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同;H1:μ≠μ0,即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同。α=0.05(双侧)(2)计算t值本例n=25,s=6.5,样本均数=74.2,总体均数=72,代入公式692.1255.6|722.74|t(3)确定P值,作出推断结论本例υ=25-1=24,查t界值表,得t0.05,24=2.064,现t=1.692t0.05,24=2.064,故P0.05。按α=0.05的水准,不拒绝H0,差异无统计学意义。结论:即根据本资料还不能认为此山区健康成年男子脉搏数与一般健康成年男子不同。配对实验设计得到的资料称为配对资料。医学科研中配对资料的四种主要类型:同一批受试对象治疗前后某些生理、生化指标的比较;同一种样品,采用两种不同的方法进行测定,来比较两种方法有无不同;配对动物试验,各对动物试验结果的比较等。同一观察对象的对称部位。二、配对资料的t检验先求出各对子的差值d的均值,若两种处理的效应无差别,理论上差值d的总体均数应为0。所以这类资料的比较可看作是样本均数与总体均数为0的比较。要求差值的总体分布为正态分布。nSdnSdSdtdddd|||0|||配对资料的t检验(pairedsamplest-test)t检验的公式为:例3.7设有12名志愿受试者服用某减肥药,服药前和服药后一个疗程各测量一次体重(kg),数据如表3-4所示。问此减肥药是否有效?(1)建立检验假设H0:μd=0,即该减肥药无效;H1:μd﹤0,即该减肥药有效。单侧α=0.05表3-4某减肥药研究的体重(kg)观察值个体号服药前(X1)服药后(X2)差值(d=X2-X1)d210113113114312413712695906784101100136126150128126116105875774109-15-5
本文标题:医学统计学课件 第3章 总体均数的区间估计和假设检验
链接地址:https://www.777doc.com/doc-3149462 .html