您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 【清华】07-环境数据分析方法-5-987901077
环境数据处理与数学模型环境数据分析方法董欣环境系统分析教研所2015年3月30日01020304基本概念数据处理与展示描述性统计二总体的假设检验05060708回归分析主成分分析聚类分析时间序列分析数据挖掘/大数据介绍(邀请讲座,待定)基本概念一元线性回归分析多元线性回归分析其他回归模型1简介2原理3步骤4应用主成分分析061简介2原理3步骤4应用主成分分析06测量污水中47种抗生素的浓度水平(ng/L),共测量了12个水样水样编号磺胺磺胺甲恶唑诺氟沙星氧氟沙星124.3337.544.6293.523.6124107.5530132.9517522.95136.544229518.7511251320717.1112.561.51421.95359.5712988129.71505.5814.4167.542.3259.5918.35323.51.621.51014.8123.558.15298.51131.34173.0525.5125.81149.5885.54360矩阵表复杂无法认清关系单变量图47幅图无法认清关系双变量图𝑪𝟒𝟕𝟐幅图只能识别两两关系三变量图𝑪𝟒𝟕𝟑幅图只能看到三者之间关系是否有更好的表述信息的方式?是否需要47维的空间来表述数据及其之间的关系?如何找到“最好”的低维度空间来最大化的表征数据蕴含的信息?Principalcomponentanalysis,PCA一种多元统计分析的方法简介主成分分析处理对象:p个变量的n组样本数据处理实质:把多个变量转变成少数几个综合变量,且能最大化保留原有信息12…nX1X11X12…X1nX2X21X22…X2n…………XpXp1Xp2…Xpn如果p个变量是相互独立的:每一个变量单独逐一处理实际大多数情况,p个变量间存在不同程度的相关关系怎么办?使用主成分分析降维如何做?利用全部p个变量构造新的q个综合变量(q≤p),例如:利用线性组合的方式新的q个变量尽可能多地反映原p个变量的信息新的q个变量是相互独立的简介主成分分析简介主成分分析的用途身材与衣服尺码图片压缩简介主成分分析的用途高像素低像素人脸识别简介主成分分析的用途相机自动捕捉人脸文理分科简介主成分分析的用途语文数学英语物理化学历史地理政治……文科理科“人工智能”PCAAPP---DrawSomething简介主成分分析的用途“人工智能”PCAMario?1简介2原理3步骤4应用主成分分析06在二维空间中讨论主成分分析的几何意义设有n个样本,每个样本有两个观测变量x1和x2原理几何解释•2x1x••••••••••••••••••••••••••••••••••••n个样本点无论是沿着x1轴方向和x2轴方向都具有较大的离散性如果只考虑x1和x2中的任何一个,那么包含在原始数据中的信息将会有较大的损失设有n个样本,每个样本有两个观测变量x1和x2原理几何解释•2x1x••••••••••••••••••••••••••••••••••••将x1轴和x2轴先平移,再旋转某个角度,得到新坐标轴F1和F2使得n个点在F1轴方向上离散程度最大变量F1代表了原始数据的绝大部分信息,在研究某具体问题时,即使不考虑变量F2也无损大局1F2F通过平移旋转,使得原始数据的大部分信息集中到F1轴上,对数据中包含的信息起到了浓缩作用——主成分分析原理几何解释二维平面上的各点的方差大部分都归结在F1轴上,而F2轴上的方差很小F1和F2称为原始变量x1和x2的综合变量,简化了系统结构,抓住了主要矛盾F1,F2除了可以对包含在x1和x2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性原理几何解释4个变量:身高X1(cm)、体重X2(kg)、胸围X3(cm)、坐高X4(cm)30个样本:30名同学的相关数据主成分分析结果发现:确定第一和第二两个主成分就可以描述原有四个变量第一主成分贡献率88.5%,第二主成分贡献率7.8%原理主成分分析举例第一主成分=+0.497X1‘+0.515X2‘+0.481X3‘+0.507X4‘第二主成分=-0.543X1‘+0.210X2‘+0.724X3‘-0.368X4‘标准化的变量第一主成分:4个分量均为正值,均在0.5左右一个身材魁梧的学生,他的4个变量取值都大,第一主成分的得分就高;反之大小因子(Sizefactor)原理主成分分析举例第一主成分=+0.497X1‘+0.515X2‘+0.481X3‘+0.507X4‘第二主成分:身高、坐高对应的分量为负值,体重、胸围对应的分量为正值反映学生身材的胖瘦情况形状因子(Shapefactor)第二主成分=-0.543X1‘+0.210X2‘+0.724X3‘-0.368X4‘一项十分著名的工作是美国统计学家斯通(stone)在1947年关于国民经济的研究利用美国1929一1938年各年的数据,整理出17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等利用新的3个变量取代了17个变量,取代程度达到97.4%根据经济学知识,斯通给3个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退趋势F3更有意思的是,这3个变量其实都可以直接测量原理主成分分析举例原理主成分分析举例F1F2F3i⊿itF11F201F3001I0.995-0.0410.0571⊿i-0.0560.948-0.124-0.1021t-0.369-0.282-0.836-0.414-0.1121对于变量X1,X2,…,Xp,寻找小于p个新变量,使其能够解释原来绝大多数信息新变量是变量X1,X2,…,Xp的线性组合新变量间相互独立,避免信息重叠原理主成分分析的任务Max[var(F1)]Fi=α1X1+α2X2+α3X3+…+α4X4Cov(Fi,Fj)=0设有n个样本,p个X1,X2,…,Xp变量寻找p个变量X1,X2,…,Xp的线性组合F1,F2,…,Fk(k≤p),充分反映原变量信息,且相互独立怎么构造F1,F2,…,Fk(k≤p)?原理主成分分析的数学分析111212122212.....................ppnnnpxxxxxxXxxx问题转化为:对X做正交变换,寻求原指标的线性组合Fi(主成分)原理主成分分析的数学分析11112121212122221122............ppppppppppFuXuXuXFuXuXuXFuXuXuX①每个主成分的系数平方和为1②主成分之间相互独立③主成分方差依次递减22212...1iipiuuucov(,)0,,,1,2,...,ijFFijijp12var()var()...var()pFFFX的协方差矩阵为S,S为非负定对称阵,则必存在正交阵U,使得原理主成分分析的数学分析1...0'0...00...PUSUλi为S的特征根,不妨设λ1≥λ2≥…≥λpU是由特征根相对应的特征向量所组成的正交阵111212122211212......(,...,)(,,...,)'...............pppiiipippppuuuuuuUuuUuuuuuu用U构造F,可以满足条件①和②是否满足条件③?U的第一列元素所构成的原始变量的线性组合是否有最大的方差?设有p维正交向量a1=(a11,a21,…,ap1)’原理主成分分析的数学分析111111...'ppFaXaXaX1211111var()'''...PFaSaaUUa11221121221111111111111111'''[,,...,]......'''(')(')''''ppPpppiiiiiiiiipiiiuuauuuauauuaauauauuaaUUa当且仅当a1=u1时,取等号,F1有最大方差,为第一主成分第二主成分,λ2对应的向量u2第三主成分,λ3对应的向量u3……原理主成分分析的数学分析主成分分析求解样本协方差矩阵的特征值与特征向量原理主成分分析的数学分析设S为变量X1,X2,…,Xp的协方差矩阵S的p个非负特征值为λ1≥λ2≥…≥λp≥0第一主成分F1:由最大的特征值λ1对应的特征向量α1为系数来构造F1=α1′X=α11X1+α21X2+…+αp1Xp方差为λ1可以反映原来p个变量的大部分信息,但还并不是全部的第二主成分F2:由次大的特征值λ2对应的特征向量α2为系数来构造F2=α2′X=α12X1+α22X2+…+αp2Xp方差为λ2第一主成分的补充原理主成分的性质各主成分之间的关系主成分之间彼此独立主成分的方差之间存在如下关系:Var(F1)=λ1≥Var(F2)=λ2≥……≥Var(Fp)=λp方差大小客观描述了各个主成分的贡献(即所含原始信息的多少),因而F1,F2,…,Fp所包含的原始信息依次减少原理主成分的性质各主成分的贡献度量方式:贡献率、累积贡献率贡献率•第k个主成分的贡献率•反映了第k个主成分提取全部原始信息的多少累积贡献率•前k个主成分的累积贡献率•反映了前k个主成分共同提取全部原始信息的多少1pkkiip11pkkiiiiG如果前m个主成分的累积贡献率大于等于85%,则取m个主成分就能够反映全部p个变量的绝大部分信息了1简介2原理3步骤4应用主成分分析06步骤Step1对原始数据进行标准化处理标准化处理的目的•使得各变量的均值为0,方差为1•这样得出的方差矩阵与相关矩阵是一样的标准化的方法•设有p个变量,n个样本,观测值为Xij(i=1,…,p;j=1,…,n),则标准化后的值为:2'11111ijnniijiiijiijjjiXXXXXSXXSnn其中,步骤Step2由标准化后的数据求得协方差矩阵相当于获得原始数据的相关矩阵计算方法步骤Step3求协方差矩阵的特征值及其对应的特征向量所有特征根特征根对应的特征向量021pp,,,21步骤Step4确定主成分计算累积贡献率根据累积贡献率大于85%的要求,确定要选取的主成分个数k根据k及每个λi(1≤i≤p)所对应的特征向量αi,构造标准化变量的主成分转化为原始变量的主成分表达式111pkkiiiiGkp步骤Step5&6计算主成分的分值计算累积贡献率将各样本所对应的变量值代入主成分表达式,计算各样本的主成分得分解释结论计算主成分的分值根据样本的主成分得分,结合专业知识进行综合研究,对结论进行解释与推断1简介2原理3步骤4应用主成分分析06应用水质评价例17:下表为某河流9个断面的BOD5、COD、DO的监测值,请根据此表进行主成分分析。断面1#2#3#4#5#6#7#8#9#BOD5(x1)1.593.036.1518.993.323.652.753.595.99COD(x2)2.464.628.5518.976.116.893.464.608.79DO(x3)7.867.687.064.326.657.767.607.337.06应用水质评价计算原始数据的相关矩阵原始变量平均值标准差标准化变量BOD5(x1)5.45115.2844x1’=(x1-5.4511)/5.2844COD(x2)7.16114.9248x2’=(x2-7.1611)/4.9248DO(x3)7.03561.0925x3’=(x3-7.0356)/1.0925相关矩阵R
本文标题:【清华】07-环境数据分析方法-5-987901077
链接地址:https://www.777doc.com/doc-6090861 .html