您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 本科“统计学”第六章参数估计
2-18-1第八章参数估计第一节参数估计的一般问题第二节总体参数的区间估计第三节样本容量的确定2-28-2学习目标1.估计量与估计值的概念2.点估计与区间估计的区别3.评价点估计量优良性的标准4.总体参数的区间估计方法5.样本容量的确定方法2-38-3参数估计的概念及其在统计方法中的地位参数估计假设检验统计方法描述统计推断统计参数估计就是用样本统计量去估计总体参数。2-48-4统计推断的基本思路平均数标准差比例参数统计量xsp总体样本2-58-5参数和统计量1.参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示2.统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母表示2-68-6统计推断的过程样本总体样本统计量如:样本均值、比率、方差2-78-7第一节参数估计的一般问题一、估计量与估计值二、点估计与区间估计三、评价估计量的标准2-88-81.估计量:用于估计总体参数的随机变量如样本均值,样本比率、样本方差等例如:样本均值就是总体均值的一个估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是的估计值一、估计量与估计值(estimator&estimatedvalue)ˆ2-98-9二、点估计和区间估计参数估计方法点估计区间估计2-108-10(一)点估计(pointestimate)1.用样本的估计量直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值与总体参数真实值的接近程度信息2-118-11样本统计量与总体参数的对应关系平均数标准差比例参数统计量xsp总体样本2-128-12点估计的优缺点1.优点:点估计直观、自然,估计结果是一个具体的值,在依据估计值制定计划和行动方案时,可以减少许多麻烦;2.缺点:没有给出估计值与总体参数真实值的接近程度信息。由于随机因素的作用,样本统计量恰与总体参数相符是偶然的,而差异则是大量存在、甚至是必然的。因此,有效的统计估计一般要求不仅要给出估计的具体结果,而且还要说明估计结果的精度及其可靠程度——区间估计的提出。2-138-13(二)点估计量的评价标准1.无偏性2.有效性3.一致性2-148-141.无偏性(unbiasedness)无偏性:样本统计量的数学期望等于被估计的总体参数的值,则称该样本统计量是相应总体参数的无偏估计量。P()BA无偏有偏ˆˆ2-158-15例如:)(xEx具有无偏性。,对于22)(11xxnsi22)(sE,2s,则具有无偏性无偏估计量的示例注:样本方差S2要除以自由度(n-1)而不是样本数n,其原因可从多方面来解释,但关键原因是:E(S2)=σ2(即,从实际应用角度看,在抽样估计中,此时的样本方差S2才是总体方差的无偏估计量)2-168-162.有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ注:正态总体中,总体均值与总体中位数相等,但中位数的标准误差大约比确立均值的标准误差大将近25%,所以,本章中突出均值来体现集中趋势。2-178-173.一致性(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数,则称该点估计是一致的。AB较小的样本容量较大的样本容量P()ˆˆ2-188-18(三)区间估计(intervalestimate)1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如某班级平均分数在75~85之间,置信水平是95%样本统计量(点估计)置信区间置信下限置信上限2-198-19区间估计的基本思想由样本的抽样分布可知,在重复抽样或无限总体抽样的情况下,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布,即:由此可知:样本均值落在总体均值的两侧各为一个抽样标准差范围内的概率为0.6827,落在两个标准差范围内的概率为0.9545,落在三个标准差范围内的概率为0.9973等等。实际上,我们可以求出样本均值落在总体均值两侧任何一个抽样标准差范围内的概率。但实际估计时,情况恰好相反。样本均值已知而总体均值未知。nx)(xE2-208-20区间估计的基本思想(续)由于样本均值与总体均值的距离是对称的,如果某个样本均值落在总体均值的两个标准差以内,反过来,总体均值也被包括在以样本均值为中心的两个标准差的范围之内。因此,说95%的样本均值会落在总体均值的两个标准差的范围之内,也就等于说,约有95%的样本均值所构造的两个标准差的区间会包括总体均值。通俗地说,如果我们抽取100个样本来估计总体均值,由100个样本所构造的100区间中,约有95个区间包含总体均值,而另外5个区间则不包含总体均值。在区间估计中,由样本统计量所构造的总体参数的估计区间,称为置信区间。2-218-21区间估计的基本思想(续)但在实际问题中,我们往往只抽取一个样本,所构造的是与该样本相联系的95%的置信区间。由于该样本所构造的区间是一个特定的区间,无法知道这个样本所产生的区间是否包含总体参数的真值。所以,我们只能希望这个区间是大量包含总体参数真值区间中的一个,但本质上说,它也可能是少数几个不包含参数真值的区间中的一个。2-228-22区间估计的基本思想(续)之所以这样来表述置信区间,原因是:总体参数的真值是固定的、未知的;样本构造的区间虽然可求,但却是不固定的,即,抽取不同的样本时,用该方法可以等到不同的区间;从这个意义上,置信区间是一个随机区间,它会因样本的不同而不同,而且不是所有的区间都包含总体参数的真值。例如,用95%的置信水平得到某班学生考试成绩的置信区间为(60,80),这时,不能说(60,80)这个区间以95%的概率包含全班学生平均成绩的真值,只是知道,在多次抽样中,有95%的样本得到的区间包含全班学生平均考试成绩的真值。2-238-23区间估计的基本思想(续)1.从估计效果来看,区间估计只给出总体参数的可能取值范围,并没有明确指出总体参数究竟会取哪一个具体的值。从这一点来看,区间估计似乎没有点估计那样清晰;但点估计的好处是,它能够说明估计结果的把握程度,并能把估计的置信度与估计误差有机地联系起来。2.区间估计的基本特征是,它根据样本资料给总体参数划出一个大致的范围,以期望该范围能覆盖着参数的真实值——估计信度与估计精度的矛盾统一体。2-248-24区间估计的图示总体均值x95%的样本99%的样本90%的样本xxzx2xxx65.1xx65.1xx96.1xx96.1xx58.2xx58.22-258-25对比:3σ原则(68-95-99.7规则)图6-12常用的正态概率值(在一般正态分布及标准正态分布中)-3-2-10+1+2+3z-3σ-2σ-σ+σ+2σ+3σx99.73%95.45%68.27%1.|X-μ|3σ的概率很小,因此可认为正态随机变量的取值几乎全部集中在[μ-3σ,μ+3σ]区间内——但要记住,没有哪组资料是百分之百用正态分布描述的,68-95-99.7规则只是大体正确。2-268-261.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间置信区间(confidenceinterval)样本统计量(点估计)置信水平1-α置信区间置信下限置信上限2-278-271.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平,也称置信系数,表示为1-。2.常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10(01),是区间估计的显著性水平,是事先所确定的一个概率值,也称风险值,是总体参数不被包括在置信区间内的概率。置信水平2-288-28置信区间与置信水平样本均值的抽样分布(1-)区间包含了的区间未包含x1–/2/2xx2-298-29估计区间的定义1.根据置信区间和置信水平的概念,区间估计的定义可表述为:在给定信度1-α下,寻找估计量θ1和θ2,使得下式成立。此时,[θ1,θ2]为θ的1-α的估计区间,或θ的估计区间[θ1,θ2])1ˆˆ21P2-308-30建立估计区间的步骤1.明确待估参数和置信水平;2.根据问题的要求,构造出如下概率事件:3.进行转化处理,以期找出估计量及其分布类型;4.由给定的置信水平,从相应的概率分布表中查出估计量的理论值,并根据样本资料计算出样本的指标值;5.求出估计区间,并做出说明和解释。)1ˆˆ21P2-318-31影响区间宽度的因素1.与总体数据的离散程度有关,用来测度,越大,样本之间的变异性就越大,估计的准确度下降。2.样本均值抽样分布的标准差与样本容量容量有关,样本容量越大,抽样分布的标准差越小:3.置信水平(1-),影响z的大小。通常,置信水平只取接近于1的值,实际应用时,往往只给出一些比较特殊的值,比如:90%、95%、95.45%、99.73%等,它们可作为置信水平低、中、高三个档次的代表。nx2-328-32第二节一个总体参数的区间估计一、总体均值的区间估计二、总体比率的区间估计三、总体方差的区间估计2-338-33一个总体参数的区间估计总体参数样本统计量均值比率方差2xp2s2-348-34(一)总体均值的区间估计(大样本)根据概率知识:1.如果总体服从正态分布,则无论样本容量如何,样本均值的抽样分布都服从正态分布;2.如果总体不是正态分布,但样本容量很大(通常n≥30),此时,样本均值的抽样分布也可视为正态分布。2-358-35总体均值的区间估计(大样本)1.假定条件总体服从正态分布,且方差(2)未知如果不是正态分布,可由正态分布来近似(n30)2.使用正态分布统计量z)(未知3.总体均值在1-置信水平下的置信区间为)1,0(~Nnxz.,;2,)()(2222范围也称为估计误差和误差许误差是估计总体均值时的允值时的积为是标准正态分布上侧面其中未知或已知nszzznszxnzx已知意谓着在估计总体均值之前,我们可以利用历史数据或者其他信息得到总体标准差的一个好的近似2-368-36总体均值区间估计的置信区间与置信水平样本均值的抽样分布(1-)区间包含了的区间未包含x1–/2/2xx注意:对于给定的置信度(1-α),置信区间并不是唯一的,应尽量选取长度最小的作为所求的置信区间。对于标准正态分布而言,易知选择上述对称于原点的区间是最小的。2-378-37总体均值的区间估计(例题分析)【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.01
本文标题:本科“统计学”第六章参数估计
链接地址:https://www.777doc.com/doc-2323770 .html