您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 数据挖掘决策树算法概述
I决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。本文以决策树为研究对象,主要研究内容有:首先介绍了数据挖掘的历史、现状、理论和过程,然后详细介绍了三种决策树算法,包括其概念、形式模型和优略性,并通过实例对其进行了分析研究目录一、引言........................................................................................................................1二、数据挖掘................................................................................................................2(一)概念.................................................................................................................2(二)数据挖掘的起源.............................................................................................2(三)数据挖掘的对象.............................................................................................3(四)数据挖掘的任务.............................................................................................3(五)数据挖掘的过程.............................................................................................3(六)数据挖掘的常用方法.....................................................................................3(七)数据挖掘的应用.............................................................................................5三、决策树算法介绍....................................................................................................5(一)归纳学习.........................................................................................................5(二)分类算法概述.................................................................................................5(三)决策树学习算法.............................................................................................61、决策树描述............................................................................................72、决策树的类型........................................................................................83、递归方式................................................................................................84、决策树的构造算法................................................................................85、决策树的简化方法................................................................................96、决策树算法的讨论..............................................................................10四、ID3、C4.5和CART算法介绍..........................................................................10(一)ID3学习算法...............................................................................................111、基本原理..............................................................................................112、ID3算法的形式化模型.......................................................................13(二)C4.5算法.................................................................................................14(三)CART算法..............................................................................................171、CART算法理论..................................................................................172、CART树的分支过程..........................................................................17(四)算法比较.................................................................................................19五、结论......................................................................................................................24参考文献.........................................................................................错误!未定义书签。致谢.................................................................................................错误!未定义书签。II1数据挖掘中决策树算法的研究一、引言在激烈的市场竞争中,信息对于企业的生存和发展越来越起到至关重要的作用,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据库中表达信息的数据亦随着时间和业务的发展而急剧膨胀,人们需要对数据进行更高层次的处理,从中找出规律和模式,以帮助人们更好的利用数据进行决策和研究。目前的数据库系统虽然可以实现高效的数据录入、查询、统计等功能,却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘的核心部分是为数据集建立模型的过程,不同的数据挖掘方法构造数据模型的方式也不相同,在进行数据挖掘时可采用许多不同的方法,例如神经网络、决策树、遗传算法和可视化技术等,同时同一方法下又有数以百计的派生方法。决策树算法是数据挖掘常用的方法之一,但它一直未受到人们重视,直到1984年Breiman等人合著出版了《分类和回归树》一书,决策树方法才开始被统计学界接受并获得了信赖,并很快得到推广应用。现在很多公司的数据挖掘产品中都采用了决策树数据挖掘算法,J.R.Quinlan对决策树算法作出了详细的理论描述决策树算法中一种广为人知的算法就是ID3算法,是1986年由Quinlan提出的一种基于信息墒的决策树算法,近年来在很多知识发现领域得到应用,很多学者针对2ID3算法进行研究。本课题主要研究了ID3算法、C4.5算法等的优势和略势,比较了各算法在实际应用中的好处和不足。二、数据挖掘(一)概念图1-1数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(informationretrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。(二)数据挖掘的起源要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。3(三)数据挖掘的对象数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。(四)数据挖掘的任务数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。分类:分类就是按照一定的标准把数据对象划归成不同类别的过程。预测:预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。时间序列模式:时间序
本文标题:数据挖掘决策树算法概述
链接地址:https://www.777doc.com/doc-2542476 .html