您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 专题数据挖掘发现知识的类型
第4章数据挖掘发现知识的类型24.1广义知识4.2关联知识4.3分类知识4.4预测型知识4.5偏差型知识34.1广义知识从数据分析角度出发,数据挖掘可以分为两种类型:描述型数据挖掘——以简洁概述的方式表达数据中的存在一些有意义的性质预测型数据挖掘——通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。44.1广义知识数据库通常包含了大量细节性数据,然而用户却常常想要得到能以简洁描述性方式所提供的概要性总结(summarized)。这样的数据摘要能够提供一类数据的整体情况描述;或与其它类别数据相比较的有关情况的整体描述。此外用户通常希望能轻松灵活地获得从不同角度和分析细度对数据所进行的描述。描述型数据挖掘又称为概念描述,它是数据挖掘中的一个重要组成部分。下面就将主要介绍如何有效地进行定性归纳以获得概念描述的有关内容。12345概念上的层次5第4章数据挖掘发现知识的类型4.1.1广义知识的概念定义广义知识是指类别特征的概括性描述知识,也称为概念描述。它反映同类事物共同性质,是对数据的概括、精炼和抽象。广义知识是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。6第4章数据挖掘发现知识的类型数据库中数据及对象在基本概念层次包含了许多细节性的数据信息。在商场销售数据库的商品信息数据中,就包含了许多诸如:商品编号、商品名称、商品品牌等低层次信息,对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的。例如:对春节所销售商品情况进行概要描述,对于市场和销售主管来讲显然是十分重要的。最简单的描述型数据(广义知识)挖掘就是定性归纳。定性归纳常常也称为概念描述。这里概念描述涉及一组(同一类别)的对象,诸如:商店常客等。概念描述生成对数据的定性描述和对比定性描述。定性概念描述提供了一个有关数据整体的简洁清晰描述(概念内涵)对比定性概念描述提供了基于多组(不同类别)数据的对比概念描述(概念外延)7第4章数据挖掘发现知识的类型给定存储在数据库中的大量数据,能够用简洁清晰的高层次抽象泛化名称来描述相应的定性概念是非常重要的,这样用户就可以利用基于多层次数据抽象的功能对数据中所存在的一般性规律进行探索。例如在商场数据库中,销售主管不用对每个顾客的购买记录进行检查,而只需要对更高抽象层次的数据进行研究即可。如:对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。这种多维多层次的数据泛化分析与数据仓库中的多维数据分析,8第4章数据挖掘发现知识的类型4.1.2广义知识的发现方法要顺利完成概要描述任务,就需要一个十分重要的数据挖掘功能:数据泛化。数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。对大量数据进行有效灵活的概述方法主要有两种1.数据立方体2.面向属性的规约91.数据立方体数据立方的维是通过一系列能够形成层次的属性或网格,例如:日期(date)可以包含属性天、周、月、季和年,这些属性构成了维的网格。利用数据立方方法(又称为OLAP方法)进行数据泛化,就是在数据立方中存放着预先对部分或所有维(属性)的聚合计算结果。通常数据立方中的数据需要经过费时复杂的运算操作(如:sum、count、average),不同的抽象层次均需要进行这类运算,将这些运算与操作结果存放在这些数据立方中,最终所获得的这些数据立方可用于决策支持、知识发现,或其它许多应用。101.数据立方体对多维数据立方的数据泛化和数据细化工作,可以通过rollup或drilldown操作实现上卷(roll-up):汇总数据消减数据立方中的维数(维规约),或将属性值泛化为更高层次的概念(概念分层向上攀升)下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现121.数据立方体数据立方方法提供了一种有效的数据泛化方法,且构成了描述型数据挖掘中一个重要功能。数据立方体方法局限性:数据类型限制多数商用数据立方的实现都是将维的类型限制在数值类型方面,而且将处理限制在简单数值聚合方面。由于许多应用涉及到更加复杂数据类型的分析,此时数据立方体的方法应用有限。缺乏一定的标准数据立方方法并不能解决概念描述所能解决的一些重要问题,诸如:在描述中应该使用哪些维?在泛化过程应该进行到哪个抽象层次上。这些问题均要由用户负责提供答案的。132.面向属性的归约(Attribure-OrientedInduction,简称AOI)数据立方方法是基于数据仓库、预先计算的具体实施方法。该方法在进行OLAP或数据挖掘查询处理之前,就已进行了离线聚合计算。而AOI方法是一种在线数据分析技术方法。1989年首次提出基本思想:首先利用关系数据库查询来收集与任务相关的数据,并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作。数据泛化操作是通过属性消减或属性泛化(又称为概念层次提升)操作来完成的。通过合并(泛化后)相同行并累计它们相应的个数。这就自然减少了泛化后的数据集大小。所获(泛化后)结果以图表和规则等多种不同形式提供给用户。14示例:研究生概念描述从一个大学数据库的学生数据中挖掘出研究生的概念描述。所涉及的属性包括:姓名、性别、专业、出生地、出生日期、居住地、电话和GPA15AOI方法的第一步就是首先利用数据库查询语言从大学数据库中将(与本挖掘任务相关的)学生数据抽取出来;然后指定一组与挖掘任务相关的属性集(这对于用户而言可能比较困难)。例如:假设根据属性城市City、省Province和国家Country定义出生地(BirthPlace)维,在这些属性中,用户或许只考虑了城市属性。为了对出生地进行泛化处理,就必须将出生地泛化所涉及的其它属性也包含进来。换句话说,系统应能自动包含省和国家作为相关属性,以便在归纳过程中可以从城市泛化到更高概念层次。而在另一方面,用户或许会提供过多的属性,这时就需要利用前面数据预处理所介绍的数据清理和维归约方法从描述型数据挖掘中过滤掉无关或弱相关的属性。16AOI的基本操作是数据泛化,其所涉及的操作主要有两种:属性消除•它基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且(a)该属性无法进行泛化操作(如:没有定义相应的概念层次树),或(b)它更高层次概念是用其它属性描述的,这时该属性就可以从数据集中消去.属性泛化•它是基于以下规则进行:若一个属性(在初始数据集中)有许多不同数值,且该属性存在一组泛化操作,则可以选择一个泛化操作对该属性进行处理。17属性消减和属性泛化两条规则都表明:若一个属性有许多不同值,则应对其应用泛化操作。但这也提出一个问题,“究竟一个属性应有多少不同值才能认为是许多呢?”。根据所涉及属性或具体应用情况,一个用户或许选择一些属性仍保留在低层次抽象水平而对其它一些属性进行更高层次的泛化处理。对泛化抽象层次的控制也是相当主观的,这一控制也称为属性泛化控制。若属性被泛化“过高”,就将会导致过分泛化以致所获(结果)规则变得失去意义。另一方面,若属性泛化没有到达“足够高的层次”,那么“亚泛化”也可能同样会变得失去意义。因此在基于属性归纳时掌握泛化平衡是非常重要的。18有许多控制泛化过程的方法,以下就是两种常用的方法属性泛化阈值控制该技术就是对所有属性统一设置一个泛化阈值,或每个属性分别设置一个阈值;若一个属性不同取值个数大于属性泛化阈值,就需要对相应属性作进一步的属性消减或属性泛化操作。数据挖掘系统通常都有一个缺省属性阈值(一般从2到8)泛化关系阈值控制若一个泛化关系中内容不相同的行数(元组数)大于泛化关系阈值,这就需要进一步进行相关属性的泛化工作。否则就不需要作更进一步的泛化。通常数据挖掘系统都预置这一阈值(一般为10到30)这两个技术可以串行使用,即首先应用属性阈值控制来泛化每个属性;然后再应用泛化关系阈值控制来进一步减少泛化关系的(规模)大小。19对原数据集进行泛化的处理过程2021初始数据集结果数据集22面向属性归约的结果表示AOI方法的挖掘结果可以有多种输出表示形式。23组合表表示在二维组合表中,每一行代表属性的一个值;每一列代表其它属性的一个值。在一个n维组合表中,列可能代表多个属性的值并分栏显示各属性累计值24用图(棒图、饼图和曲线)表示25转换为逻辑规则形式通常每个泛化后的数据行代表(概念描述)规则中的一个析取项。由于一个大型数据库中的数据通常具有多种不同的分布;因此一个泛化后的数据行不可能覆盖或表达所有(100%)初始数据集中的数据行。因此定量信息,诸如满足规则条件左边(自然也满足规则右边)数据行数目与初始数据集中总行数之比,可作为所获概念描述规则的一个度量客观价值的重要参量,带有这种参量的概念描述规则就称为定量描述规则。2627第4章数据挖掘发现知识的类型4.2关联知识4.2.1关联知识的概念关联知识反映一个事件和其他事件之间依赖或相互关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。例如:从大量的商业交易记录中发现有价值的关联知识就可帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。挖掘关联知识的一个典型应用实例就是市场购物分析“什么商品组或集合顾客多半会在一次购物时同时购买”28给定:事务数据库,每个事务是一系列商品(一个消费者一次购买的物品)找到:所有的规则,这些规则能够表明这些列商品和另一系列商品相关。E.g.,购买汽车配件的人中有98%会购买汽车服务应用*MaintenanceAgreement(那些商品能够加强日常消费?)家用电器*(那些商品应该保持高库存?)29第4章数据挖掘发现知识的类型4.2.2关联知识的发现方法购物模式的关联规则:支持度与可信度•关联规则的支持度(support)和信任度(confidence)是两个度量有关规则趣味性的方法。支持度描述了一个被挖掘出的关联规则的有用性,信任度描述了一个被挖掘出的关联规则的确定性。•规则(computer-financial_management_software)的支持度为2%,就表示所分析的交易记录数据中有2%交易记录同时包含电脑和金融管理软件(即在一起被购买)。•规则(computer-financial_management_software)的60信任度则表示有60%的顾客在购买电脑的同时还会购买金融管理软件。•通常如果一个关联规则满足最小支持度阈值(min_support)和最小信任度阈值(min_confidence),那么就认为该关联规则是有意义的;而用户或专家可以设置最小支持度阈值和最小信任度阈值。30第4章数据挖掘发现知识的类型4.2.2关联知识的发现方法基本概念:•一个数据项的集合就称为项集(Itemset)•一个包含k个数据项(属性)的项集就称为k−项集。•{computer,financial_management_software}就是一个2-项集。•一个项集的出现频度就是整个交易数据集中包含该项集的交易记录数,这也称为是该项集的支持度(supportcount)。•若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中记录数,那么就称该项集满足最小支持度阈值•满足最小支持度阈值所对应的交易记录数就称为最小支持频度(minimumsupportcount)。•满足最小支持阈值的项集就称为频繁项集(frequentitemset)。•所有频繁k−项集的集合就记为Lk。31Apriori算法一种最有影响的挖掘布尔关联规则频繁集的算法,使用候选项集找频繁项集。基本思想
本文标题:专题数据挖掘发现知识的类型
链接地址:https://www.777doc.com/doc-3396632 .html