您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 数据仓库与数据挖掘(论文)
数据仓库与数据挖掘摘要:数据仓库与数据挖掘的基本概念、特点和体系结构,讨论了数据挖掘的技术算法及数据仓库与数据挖掘的应用领域。主题词数据仓库数据挖掘涵义关系一、引言数据仓库技术的出现是由于决策支持系统发展的需要。它的提出是以关系数据库、并行处理、分布式技术以及INTERNET的飞速发展为基础,它是解决如何利用分散的异构环境数据源,及时得到准确的信息,解决信息技术(IT)在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案。二、数据仓库1.数据仓库的涵义数据仓库的定义:数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据决策形式。从Inmon的定义,我们理解数据仓库具有如下特征:(1)主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。(2)数据进入数据仓库之前,必须经过加工与集成,对不同的数据来源进行统一数据结构和编码,将原始数据由面向应用转向面向主题。(3)数据仓库中存储大量的历史数据,数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库的数据时限在5~10年,故数据的编码包含时间项,因此仓库要时变地收集数据。(5)通常的数据仓库数据量为10GB级,相当于一般数据库100MB的100倍,大型数据仓库是一个TB级数据量。(6)数据仓库支持OLAP(On-lineAnalyticalProcessing)、决策分析及数据挖掘,OLAP决策分析和数据挖掘给出数据仓库中数据的多维逻辑视图,包含交互式查询和对数据的分析,提供分析的建模功能,生成概括数据、聚集、层次,支持功能模型进行预测、趋势分析、统计分析操作。2.数据仓库的结构组成数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成(图1)。数据仓库系统以数据仓库为核心,通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息的提取,以满足决策的需要。三、数据挖掘(datamining)1.数据挖掘的概念数据挖掘是从数据仓库中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。所谓模式,可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。如:成绩优秀的学生学习都非常刻苦;发烧的人是因为患了感冒等。模式的表示方法很多,可以利用图形、文字、表达式等方式表示;所谓处理过程是指数据挖掘是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。如在分析影响信用风险的因素时,先假设几种可能的因素,然后通过不断反复的实验,不断增加和删除因素,最终得到对信用风险最具影响的因素;所谓可信、新颖和具有潜在作用是指通过数据挖掘从当前数据仓库所发现的模式必须有一定的正确程度和新颖性,否则数据挖掘就毫无根据作用。虽然知识发现可以对已有的知识进行验证,但发现新的知识往往更重要,或者对已有的知识进行拓展以得到更全面、更具有实际意义的知识。发现的知识必须经过实践的检验并通过在实际应用中发现的问题对学习数据和策略进行修改,重新进行学习从而得到更精确的知识。2.数据挖掘系统的框架数据挖掘系统中主要的输入是源于数据仓库的数据、分析指导员的指导,以及存储数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供了大量的抽取算法,以便生成辅助的模式和关系。有些发现还要加入知识库中以便后续发现的抽取和进行评价。下面分别介绍各模块的功能:数据挖掘系统管理器,知识发现系统管理器控制并管理知识发现过程。分析员的输入和知识库中的信息,用于驱动以下三个过程:数据选择过程、抽取算法的选择和使用过程、发现的评价过程。系统管理器帮助生成发现结果的描述,并将恰当发现结果存于知识库以备下一次发现。四、数据仓库与数据挖掘的关系:数据仓库就是面向主题的、集成的、不可更改的、随时间不断变化的数据集合。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘出信息。数据仓库的建立并不是要替代数据库,它是建立在一个比较全面和完善的信息应用基础之上的,用于支持高层决策的分析。而数据挖掘是为寻找未知的模式或趋势在数据仓库的细节数据中进行搜索的过程。它并不是让查询语言去找某些特定的事实,而是查看所有的事实,寻找具有某种含义深长的模式或关系来进行决策。
本文标题:数据仓库与数据挖掘(论文)
链接地址:https://www.777doc.com/doc-4882820 .html