您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据挖掘及应用数据挖掘概述ppt课件
数据挖掘及应用:数据挖掘概述统计与数学学院:徐雪琪xqxu1027@163.com2010-11-30数据挖掘的原由可怕的数据数据存储成本越来越低,数据库越来越大……数据挖掘有价值的知识数据挖掘的原由数据知识SWA决策模式模型目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计数据挖掘概念的提出现在数据挖掘概念的首次国际学术会议1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,GregoryPiatetsky-Shapiro组织了“数据库中的知识发现”(KDD:KnowledgeDiscoveryinDatabase)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。相继开展的专题讨论会随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。数据挖掘概念的提出第一届KDD国际学术会议随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACMSIGKDD(SpecialInterestedGrouponKnowledgeDiscoveryinDatabases)InternationalConferenceonKnowledgeDiscoveryandDataMining”在这次会议上“数据挖掘”(DataMining)概念第一次由UsamaFayaad提出。UsamaFayaad对数据挖掘概念的界定数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。SQLServer2005数据挖掘指的是分析数据,使用自动化或半自动化的工具来挖掘隐含的模式。《数据挖掘技术:市场营销、销售与客户关系管理领域的应用》数据挖掘指的是一种态度,它表明商业活动应该基于认知,分析获得的决策比没有任何分析所得的决策好得多,经过测算的结果更有利于商业盈利。•SAS软件研究所对数据挖掘所下的定义是:数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。PastKDD(KnowledgeDiscoveryandDataMining)Meetings•KDD-2007,13thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,SanJose,California,Aug12,2007•KDD-2006,12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August20-23,2006,Philadelphia,PA,USA.•KDD-2005,11thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August21-24,2005,Chicago,IL,USA.•KDD-2004,10thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August22-25,2003,Seattle,WA,USA.•KDD-2003,9thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August24-27,2003,Washington,DC,USA.•KDD-2002,8thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,July23-26,2002,Edmonton,Alberta,Canada.•KDD-2001,7thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August26-29,2001,SanFrancisco,CA,USA.•KDD-2000,6thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August20-23,2000,Boston,MA,USA.•KDD-99,5thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,August15-18,1999,SanDiego,CA,USA.•KDD-98,4thInternationalConferenceonKnowledgeDiscoveryandDataMining,August27-31,1998,NewYork,NY,USA.•KDD-97,3rdInternationalConferenceonKnowledgeDiscoveryandDataMining,August14-17,1997,NewportBeach,CA•KDD-96,2ndInternationalConferenceonKnowledgeDiscoveryandDataMining,August4-8,1996,Portland,OR•KDD-95,1stInternationalConferenceonKnowledgeDiscoveryandDataMining,August20-21,1995,Montreal,Canada•KDD-94workshop,Seattle,WA,July31-Aug1,1994•KDD-93workshop,Washington,D.C.,July11-12,1993.•KDD-91workshop,Anaheim,CA,July14-15,1991.•KDD-89workshop,Detroit,MI,August20,1989.其它数据挖掘年会PAKDD(Pacific-Asiaconferenceonknowledgediscoveryanddatamining)亚太平洋地区数据挖掘年会,从1997年开始,每年召开一次,至今已召开了14届,其中1999年的PAKDD在我国北京召开,2007年的也在我国南京召开,最近一届于2010年6月21-24日在印度的Hyderabad召开。PKDD(Europeansymposiumonprinciplesofdataminingandknowledgediscovery)欧洲数据挖掘会议,也是从1997年开始,每年召开一次,至今也已召开了14届,最近一届于2010年9月20-24日在巴塞罗那召开。SIAM-DataMining(SocietyforIndustrialandAppliedMathematics)SIAM组织召开的数据挖掘讨论会,2001年4月召开第1届讨论会,专注于科学数据的数据挖掘,以后每年召开一次,至今已召开了10届,第十届SIAM数据挖掘国际会议于2010年4月29-5月1日在美国Columbus召开。国外数据挖掘工作组(较早)•R.Agrawal领导下的IBMAlmaden实验室的数据挖掘工作组•J.Han带领下的SFU工作组•Stanford大学的Ullman领导的关联规则研究小组•Minnesota大学的Kumar领导的并行数据挖掘研究小组•新西兰IanH.Witten教授领导下的Weka工作组国内数据挖掘研究进展数据挖掘讨论组(可能已关闭)数据挖掘研究院中文站论坛中国人民大学统计学院开辟了“统计学与数据挖掘”研究专栏厦门大学计划统计系数据挖掘中心(DataMiningCenter,DMC),是在台湾辅仁大学统计资讯学系谢邦昌教授的大力倡导下,于2007年底成立的学术研究单位。厦门大学朱建平教授专著《数据挖掘的统计方法与实践》于2005年12月由中国统计出版社出版国内数据挖掘研究进展•1993年国家自然科学基金首次支持我们对该领域的研究项目。•2002年度的国家社会科学基金在统计学类中首次对该领域的研究予以支持。•全国数据库学术会议(NDBC,NationalDataBaseAcademicConference)•重要的杂志有计算机学报、软件学报和计算机研究与发展等。数据挖掘功能功能分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律功能特征描述关联分析聚类分析离群点分析分类和预测数据挖掘学科性质信息科学数据库技术统计学数据挖掘机器学习可视化其它学科数据挖掘学科性质数据挖掘是“智能化的统计”应用理论统计学计算机科学数据挖掘理论基础基础理论数据挖掘过程(jiaweiHan)数据清理(消除噪声或不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库中检索与分析任务相关的数据)数据变换(数据变换或统一成适合挖掘的形式)数据挖掘(使用各种方法提取数据模式)模式评估(使用某种度量,识别真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识《dataminingconceptsandtechniques》从系统设计看数据挖掘过程模型一种是Fayyad等人总结的过程模型另一种是遵循CRISP-DM标准的过程模型Fayyad过程模型CRISP-DM(Cross-IndustryStandardProcessforDataMining)过程模型数据挖掘软件发展的三个阶段GregoryPiatetsky-Shapiro的观点•独立的数据挖掘软件•横向的数据挖掘工具集•纵向的数据挖掘解决方案独立的数据挖掘软件(95年以前)•特点•独立的数据挖掘软件,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。•这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树。横向的数据挖掘工具集(95年开始)•发展原因•随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。•数据挖掘处理的数据源需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。•现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决。•挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型。横向的数据挖掘工具集(95年开始)•发展过程•随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件•特点•此类工具集的特点是提供多种数据挖掘算法•包括数据的转换和可视化•由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(HorizontalDataMiningTools)•典型的横向工具有IBMIntelligentMiner、SPSS的Clementine、SAS的EnterpriseMiner等纵向的数据挖掘解决方案(99年开始)•发展原因•随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型•从1999年开始,大量的数据挖掘工具研制者开
本文标题:数据挖掘及应用数据挖掘概述ppt课件
链接地址:https://www.777doc.com/doc-4244118 .html