您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 第7章 分析化学中的数据处理 7.1 标准偏差(标准差或均方误差)
第7章分析化学中的数据处理7.1标准偏差(标准差或均方误差)7.2随机误差的正态分布7.3少量数据的统计处理7.4误差的传递7.5回归分析7.6提高分析结果准确度的方法几个概念(术语)1、总体(母体)所研究对象的某特性值的全体。2、个体总体中的每一个单元,指全体中的一个单位或某一次测定。3、样本(子样)从总体中随机抽出的一组测量值或指总体的一个部分。4、样本容量(样本大小)指样本中个体的数目,或样本中测量值数目。总体、个体、样本、样本容量间的关系当n→∞时:又∵n<20次,有限次测量,且无系统误差当n→∞时:n>20次,无限次测量,且无系统误差niixnx11niinxn11lim|)(|1xxndi||1xxn个体样本平均值样本容量总体平均值样本平均偏差总体平均偏差7.1标准偏差(标准差或均方误差)7.1.1总体标准偏差σ当n→∞时:测量值x对总体平均值μ的偏离用σ表示。(此式应用于n→∞,μ=xT;无系统误差)式中:——差方和(它能更好地说明数据的分散程度)nx2)(2()xQ7.1.2样本标准偏差S(n为有限值,一般<20且无系统误差)同样:式中——差方和(即偏差的平方和)S与σ比较:(1)用代替了μ;(2)用n-1代替了n。式中:n-1=f——自由度标准偏差的计算:∵(等效式,可直接利用测量数据计算)∴1)(2nxxS2()xxQ1/)(22nnxxSxnxxxx/)()(2227.1.3相对标准偏差(变异系数或变动系数)相对标准偏差=(或1000‰)7.1.4标准偏差σ(或s)与平均偏差δ(或)的异同点1、不必考虑偏差的正负号2、σ(或s)增强了大偏差数据的作用如P243-二组数据:可见:S>3、δ与σ的关系统计学证明:当n→∞时,δ=0.8σ(即σ>δ),或4δ=3σ(但有的书中也有=0.8S或4=3S)。%100/xSdddXminXmaxS数据1-0.4+0.40.240.28数据2-0.7+0.50.240.33ddd7.1.5平均值的标准偏差统计学上证明:(无限次测量)或:(有限次测量)nXnSSX可见:(1)且是S的倍,即:平均值的误差按测定次数的比例减小;(2)上式的意义:(3)增加测定次数n,可以提高测定结果的精密度,但事实上增加n所取得的效果是有限制的。SSXn1即:4次测量时:是S的1/2倍9次测量时:是S的1/3倍酬答依次减小25次测量时:是S的1/5倍XSXSXS同理:单次测量的(δ)与平均值的间也有:(无限次测量)(有限次测量)d)(XXdnXnddX7.2随机误差的正态分布7.2.1频数分布频数(ni)——每组中出现的数据个数——相对频数(或频率)——频率密度以频数(或频率密度)~组值范围作图,得频数(或频率密度)分布直方图。(见P245-图7-1)iiinnnnsnnisnni7.2.2正态分布(高斯G.F.Gauss分布)对上述分析数据进行整理时,数据具有以下特性:①向某中心值集中的趋势;②偏离此中心值的倾向。为明确表达数据的特性,我们通常用两个特性参数来表征一组数据:(1)——数据的集中趋势(2)——数据的离散倾向1、正态分布曲线2)(222)(xexfy式中:y——相当于测量值x出现的频率密度(或概率密度)μ——相当于总体平均值相当于曲线最高点对应的横坐标值,表征数据的集中趋势σ——总体标准差相当于μ到曲线两拐点之一的距离,表征数据的分散程度x(自变量)——个别测量值x-μ——代表测量值对μ的偏离(表征随机误差)x2)(222)(xexfy随机误差有以下规律:(1)单峰性当x=μ时(无系统误差时μ=xT),ymax体现了测量值的集中趋势,或μ()是最佳值或最可信赖值;(2)对称性曲线以x=μ为对称轴,呈钟形对称,说明正负误差出现的机率相等;(3)有界性当x→+∞或x→-∞时,曲线以x轴为渐近线,即:大误差出现机率小,小误差出现机率大;(4)当x=μ时——概率密度——测量值落在μ±dx范围内的概率x21)(Xydxydx21①当σ↑时,数据分散,分布曲线平坦(矮胖);当σ↓时,数据集中,分布曲线尖锐(高瘦)。②当σ相同,μ不同时,曲线形状一致,而位置发生左(或右)移,所以μ的大小代表数据集中于何处。(5)所以只要μ、σ确定之后,分布曲线便确定下来,这种分布曲线记作:),(2N2、标准正态分布曲线为一方便求出某区间的概率,将横坐标进行变量代换。定义:(即:以σ为单位来表征随机误差)则:∴——概率即这样的曲线称之标准正态分布曲线,记作N(0,1)xu2/221)(uexfydudxuxduudueduedxxfuu)(2121)(2/2/222/221)(ueuy标准正态分布曲线的特征是:(1)当X=μ时,y有极值,当σ=1时(2)正负误差出现的机会均等;(3)大误差出现的概率小,小误差出现的概率大。10.3992y7.2.3随机误差的区间概率实际分析工作中,对误差有两类问题需回答:(1)某一给定范围的测定,这些测定出现的机会是多少?(2)为保证测定有一定把握,这些测定的误差可以要求在什么范围内?以上这些问题的回答都要知道误差的区间概率,(即概率密度的积分)∵正态分布曲线y与横轴所夹面积表示全部数据出现的概率的总和,显然:曲线与横轴间所夹面积=正态分布密度函数在-∞<x<+∞区间的积分值,它代表了各种大小偏差的本样值出现概率的总和。121)()(2/2dueduudxxfPu或:某范围内测量值出现的概率=该部分面积/总面积或:取不同u值对积分得到。P248-表7-2为:的积分值即概率——单边值。2/221ueyuoduu)(注意:(1)表中积分值的上下限为0~u(单边),若考虑±|u|时,应将积分值×2(双边),同样:若考虑±|u|以外的概率=1-2P(双边)或>u的概率=0.5-P。(2)由此表可计算随机误差或测量值出现在某区间内(或外)的概率。(3)此表的另一个应用:可以从概率倒过来找误差界限(范围)∵可见:随机误差超过±3σ的测量值出现的概率很小(仅0.3%),一般这样的极端值可舍弃(所以常将3σ称之随机误差的极限值)。||||xu随机误差出现的区间(双边)测量值(x=μ±σu)出现的区间(双边)概率=±1x=μ±1σ0.3413×2=0.6826=±1.96x=μ±1.96σ0.95=±2x=μ±2σ0.4773×2=0.955=±2.58x=μ±2.58σ0.99=±3x=μ±3σ0.4987×2=0.997uuuuu例1:某年全国参加高考的学生化学成绩平均值为μ=75分,σ=10分,若满分为100分,总分为120分,计算:高于100分和不及格(低于60分)学生的概率。解:∵x=μ±σu∴x=100时:x=60时:查P248-表7-2知:|u|=2.5时,P=0.4938|u|=1.5时,P=0.4332。高于100分学生概率为:0.5000-0.4938=0.062低于60分学生概率为:0.5000-0.4332=0.06685.21075100||||xu5.1107560||||xu例2:求测量值落在区间(μ-0.7σ,μ+0.7σ)的概率。解:∵,∴x=μ±uσ当u=0.7时,查P248-表7-2知:P=0.2580∴求得其概率P=0.2580×2=0.5160=51.6%例3:求测量值落在(μ-0.4σ,μ+1.0σ)区间的概率解:|u1|=0.4时,查P248-表7-2知:P=0.1554|u2|=1.0时,查P248-表7-2知:P=0.3413求得其概率P=0.1554+0.3413=0.4967(49.67%)可见:当两区间宽度相等时,测量值落在对称区间的概率大于不对称区间的概率,这种现象对正态分布来说是普遍的。||||xu例4:某班学生117个数据基本遵从正态分布N(66.62,(0.21)2),求测量值落在(66.15~67.04)中的概率。解:∵μ=66.62,σ=0.21,而∴当x1=67.04时,,查得P1=0.4773当x2=66.15时,,查得P2=0.4861∴P=0.4773+0.4861=0.9634(96.34%)同理:落在66.15~67.04以外的概率=1-96.34%=3.66%(≈4%)理论上约有117×3.66%=4.28=4个数据落在上述范围以外(事实也如此),故:这批数据的确符合正态分布。||||xu0.2|21.062.6604.67|||u24.2|21.062.6615.66|||u7.3少量数据的统计处理只有当n→∞时,,这时才能准确无误地找到μ,显然,这是做不到的,实际工作中,涉及的测量数据通常不多,此时得到的总带有一定的不确定性,由于xT不知,所以σ是算不出来的。若以代替xT,以S代替σ,而又按理论上的正态分布来处理实际问题,是不合理的,甚至可能得到错误的判断。为了解决用统计方法处理有限次测量数据,并能合理的地推断总体的特性问题,英国统计学家兼化学家戈塞特(W.S.Gosset)以笔名“student”发表了其研究工作,提出在统计处理少量实验数据时,为了补偿以S代替σ带来的误差,可以根据测量数据的多少,用另一数值“t”代替“u”,这一代替和补偿的办法称之“t分布”或“学生氏t”法。xxx7.3.1t分布曲线在进行有限次测量时,用S代替σ所带来的误差,用一新的量“t”来补偿。t值的定义为:(对应)注:有些书中定义:在t分布曲线中:纵坐标——概率密度横坐标——t值。SxtxunSxSxtX0.4可见:当n→∞时,t分布→正态分布。同理:t分布曲线下某区间的面积也表示随机误差在该区间内的概率。t分布中,t值随概率和f值变化。(不同概率和f值对应的t值,见P250-表7-3)注意:(1)表中:P——置信度(置信概率),它表示在某t值时,测量值x落在μ±ts范围内的概率(或代表我们相信测量值x的误差不超过±ts的把握);(2)α——显著性水准(危险率):它表示测量值x落在μ±ts以外的概率,显然:α=1-P;(3)当f→∞时,t→u(当f=20时,t与u已很接近)。7.3.2平均值的置信区间∵分析测量结果可表示为:(或:μ=x±ts)∴μ=x±ts或μ=x±uσ表示:在一定置信度时,以测量值x为中心的,包括总体平均值在内的可靠性范围——置信区间。而或表示:在一定置信度下,以样本平均值为中心的,包括总体平均值在内的可靠性范围——平均值的置信区间。以上关系式也表明了平均值(或xT)与总体平均值的关系,即:说明了平均值的可靠性。ntsxtsxXntsxtsxXnuxuxX例1:钢中铬百分含量的测定,先测两次:1.12,1.15,再测三次:1.11,1.16,1.12。试计算按两次和五次测定的数据来表示平均值的置信区间(α=0.05)。解:两次测定:=1.14(%),S=0.021(%)∵,∴三次测定:=1.13(%),S=0.022(%)∵,∴可见:同一置信度下n↑(f↓),置信区间↓;S↓,置信区间↓,平均值的可靠性↑。(%)19.014.12021.071.1214.1(%)03.013.15022.078.213.171.121,05.0t78.24,05.0txx例2:P251-例5。解:P=0.90时,μ=(47.60±0.09)%P=0.95时,μ=(47.60±0.13)%可见P↑,置信区间↑P=0.99时,μ=(47.60±0.23)%所以置信概率越高,置信区间就越宽,判断失误的机会就越小。反之,则判断失误的可能性上升。统计意义上的推断通常不把P定为100%
本文标题:第7章 分析化学中的数据处理 7.1 标准偏差(标准差或均方误差)
链接地址:https://www.777doc.com/doc-3380709 .html