您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第6章--抽样与抽样分布
6-1统计学STATISTICS(第二版)你不必吃完整一头牛,才知道它的肉是咬不动的。SamelJohnson6-2统计学STATISTICS(第二版)第6章抽样与抽样分布作者:中国人民大学统计学院贾俊平6-3统计学STATISTICS(第二版)统计应用“抓阄”征兵计划在美国的对越战争中,为使前线有足够的士兵,美国政府制定了一个“抓阄”的征兵计划。该计划打算把1到366的号码随机地分配给一年中每一天,然后由军事部门按分配的号码顺序把生日与之对应的年轻人分批征召入伍。这种方法的目的是为了给大家相等的机会卷入这场不受欢迎的战争中,因此被征召的可能性应该是随机的在第一年的征兵计划中,号码1被分配给了9月14日,分配方法是随机抽取一个大容器中的366个写上了日子的乒乓球。结果所有年满18岁且生于9月14日的合格青年将作为第一批被征召入伍。生日被分配为号码2的青年则在第二批被征召入伍,以此类推6-4统计学STATISTICS(第二版)统计应用“抓阄”征兵计划我们知道,并不是所有的人都被征召入伍,因此,生日被分配的号码较大的人也许永远轮不上到军队服役这种抓阄看起来对决定应该被征召入伍是一个相当不错的方法。然而,在抓阄的第二天,当所有的日子和它们对应的号码公布以后,统计学家们开始研究这些数据。经过观察和计算,统计学家们发现了一些规律。例如,我们本应期望应该有差不多一半的较小的号码(1到183)被分配给前半年的日子,即从1月份到6月份;另外一半较小的号码被分配给后半年的日子,从7月到12月份。由于抓阄的随机性,前半年中可能不会分到正好一半较小的号码,但是应当接近一半6-5统计学STATISTICS(第二版)统计应用“抓阄”征兵计划然而结果是,有73个较小的号码被分配给了前半年的日子,同时有110个较小的号码被分配给了后半年的日子。换句话说,如果你生于后半年的某一天,那么,你因为被分配给一个较小号码而去服兵役的机会要大于生于前半年的人在这种情况下,两个数字之间只应该有随机误差,而73和110之间的差别超出了随机性所能解释的范围。这种非随机性是由于乒乓球在被抽取之前没有被充分搅拌造成的。在第二年,主管这件事的部门在抓阄之前去咨询了统计学家(这可能使生于后半年的人感觉稍微舒服些)6-6统计学STATISTICS(第二版)第6章抽样与抽样分布6.1概率抽样方法6.2三种不同性质的分布6.3一个总体参数推断时样本统计量的抽样分布6.4两个总体参数推断时样本统计量的抽样分布6-7统计学STATISTICS(第二版)学习目标1.了解概率抽样方法2.区分总体分布、样本分布、抽样分布3.理解抽样分布与总体分布的关系4.掌握单总体参数推断时样本统计量的分布5.掌握双总体参数推断时样本统计量的分布6-8统计学STATISTICS(第二版)6.1概率抽样方法6.1.1简单随机抽样6.1.2分层抽样6.1.3系统抽样6.1.4整群抽样6-9统计学STATISTICS(第二版)抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式6-10统计学STATISTICS(第二版)概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率6-11统计学STATISTICS(第二版)简单随机抽样(simplerandomsampling)1.从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率6-12统计学STATISTICS(第二版)简单随机样本(simplerandomsample)1.由简单随机抽样形成的样本2.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中3.参数估计和假设检验所依据的主要是简单随机样本6-13统计学STATISTICS(第二版)简单随机抽样(用Excel对分类数据随机抽样)【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本6-14统计学STATISTICS(第二版)简单随机抽样(用Excel对分类数据随机抽样)第1步:将30个学生的名单录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2…,30,并按顺序排列,将代码录入到Excel工作表中的一列,与学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的学生个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本用Excel对分类数据抽样6-15统计学STATISTICS(第二版)简单随机抽样(用Excel对数值型数据随机抽样)第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的数据个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本数据用Excel对数值型数据抽样6-16统计学STATISTICS(第二版)分层抽样(stratifiedsampling)1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计6-17统计学STATISTICS(第二版)系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难6-18统计学STATISTICS(第二版)整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差6-19统计学STATISTICS(第二版)多阶段抽样(multi-stagesampling)1.先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样2.具有整群抽样的优点,保证样本相对集中,节约调查费用3.需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开4.在大规模的抽样调查中,经常被采用的方法6-20统计学STATISTICS(第二版)6.2三种不同性质的分布6.2.1总体分布6.2.2样本分布6.2.3抽样分布6-21统计学STATISTICS(第二版)1.总体中各元素的观察值所形成的分布2.分布通常是未知的3.可以假定它服从某种分布总体分布(populationdistribution)总体6-22统计学STATISTICS(第二版)1.一个样本中各观察值的分布2.也称经验分布3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)样本6-23统计学STATISTICS(第二版)1.样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量样本均值,样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据抽样分布(samplingdistribution)6-24统计学STATISTICS(第二版)抽样分布的形成过程(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本6-25统计学STATISTICS(第二版)6.3样本统计量的抽样分布(一个总体参数推断时)6.3.1样本均值的抽样分布6.3.2样本比例的抽样分布6.3.3样本方差的抽样分布6-26统计学STATISTICS(第二版)样本均值的抽样分布6-27统计学STATISTICS(第二版)1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的抽样分布6-28统计学STATISTICS(第二版)样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii6-29统计学STATISTICS(第二版)样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)6-30统计学STATISTICS(第二版)样本均值的抽样分布(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.56-31统计学STATISTICS(第二版)样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x6-32统计学STATISTICS(第二版)样本均值的抽样分布与中心极限定理=50=10X总体分布n=4抽样分布xn=165x50x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)6-33统计学STATISTICS(第二版)中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体xx6-34统计学STATISTICS(第二版)中心极限定理(centrallimittheorem)x的分布趋于正态分布的过程6-35统计学STATISTICS(第二版)抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本
本文标题:第6章--抽样与抽样分布
链接地址:https://www.777doc.com/doc-7161023 .html