您好,欢迎访问三七文档
1全面认识数据仓库1.前言随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。数据仓库(DW)是各行业后线系统发展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量管理是项目成败的关键;另外,数据仓库系统实施后的管理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,使大家对数据仓库有一个全面清晰的认识。22.数据仓库入门介绍应用需求背景随着联机事务处理(OLTP)业务系统的深入应用,企业各类业务数据不断积累和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。管理信息系统(MIS)和早期的决策支持系统注4(DSS)主要是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的查询和修改操作,每笔交易的响应时间和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时间窗口是重要关注点。因此直接采用传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1:事务处理型应用分析处理型应用很多用户少量用户小事务、频率高、时间短大事务、频率低、时间长一次数据操作量小,是小单元的随机数据操作一次数据操作量大,是大集合的批量数据操作更新与插入操作都很频繁更新操作较少,插入操作较多需要当前的细节的业务数据需要历史的整合的综合数据响应时间是关键总的处理时间是关键面向应用、事务驱动,数据范围小面向分析、分析驱动,数据范围大表-1另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向3特定应用建设的,存在着数据平台异构、数据结构和数据标准不统一等问题。传统的数据库技术和事务处理环境对于实现基于个别业务系统的部门级MIS和初级DSS系统尚可支持,而对实现全局范围的离散数据整合和综合信息利用,建设跨部门的企业级分析应用已无能为力。数据仓库的提出麻省理工学院在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范,但没有进行实际的设计。1991年,BillInmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。BillInmon被称为数据仓库之父。Inmon对数据仓库的定义是“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,它用以支持经营管理中的决策制定过程”。这个定义主要描述了数据仓库的四个最基本特征。在数据仓库的整体概念中,这是对最核心部分的狭义定义。我们还应该知道,除了这个最核心的仓库体之外,广义的数据仓库概念,还包括来自各源业务系统的数据经过采集、下传和加载等步骤进行入仓库体的过程,包括仓库体的数据针对各类分析需求进行多维加工、挖掘、利用的过程,并包括全程数据流程设计和数据质量管理等过程。从狭义上说,数据仓库是一个具有四个基本特征的数据仓储体,从广义上说,数据仓库是一种架设企业后线分析类应用的解决方案。伴随着数据仓库,同时期还出现了联机分析处理(OLAP)和数据挖掘(DM)等新技术,从此,DW+OLAP+DM就逐渐形成新决策支持系统的概念。再后来的商务智能(BI)应用需求更是基于DW+OLAP+DM的支持。4两种数据仓库设计思路提出数据仓库的不至Inmon一个人。BillInmon和RalphKimball都是数据仓库的首创者,但对数据仓库设计的观点很不相同。首先需要了解一个数据集市(DM)的概念。相对于数据仓库是一个企业级的高度综合数据集,数据集市就是部门级的轻度综合数据集。Inmon主张建立数据仓库时采用DWDM方式,即先建一个统一数据层(狭义DW,中央数据仓库),将不同的OLTP数据集中到面向主题、集成、稳定、随时间变化的统一数据层中,其中数据可以下钻到最细层,或者上卷到汇总层。再利用中间统一数据层,针对各部门的特殊分析需要设计独立数据集市(数据仓库的子集)。见图2-1:图2-1而Kimball主张DMDW方式,即直接将源数据抽取转换到面向各部门分析需要的数据集市中,然后将一系列维数相同的数据集市联合起来递增地构建数据5仓库,通过一致的维(公共定义的元素)能够共同看到不同数据集市中的信息。也即数据集市的联合=数据仓库。见图2-2:图2-2两种设计思路产生两种不同的数据仓库建设模式,一种是先构建企业中央数据仓库,一次性的完成数据的重构工作,最小化数据冗余度和不一致性,再从中央数据仓库中建造数据集市,数据集市从数据仓库中得到大部分的集成数据,且直接依赖于数据仓库的可用性。这种建设模式的问题在于:投资回报时间如何保证?建设中央数据模型的必要性和可能性?初始费用如何预算?。另一种建设模式是先建数据集市,即由各个部门在各自的主题区域内进行数据重构,快速得到投资收益,然后通过联合数据集市递增地构建数据仓库,把建造数据仓库作为一个长期的目标。这种由数据集市汇成数据仓库的建设模式面临的主要问题是:各个数据集市的数据不一致性难以解决,且存在一定的数据冗余。6这种方法更能满足近期目标的需求,但增加了未来转换为独立的数据仓库的数据体系结构的困难。从总的比较结果来看,Inmon的建设模式起步难度大,但如果走好了第一步,长远利好;Kimbal的建设模式更能满足近期目标的需求,但当未来试图跨数据集市获取联合视图时,可能面临严重问题。数据仓库建设模式的选择主要取决于商业驱动。如果企业正忍受糟糕的数据管理和不一致的数据,那么Inmon的方法就更好一些,可以带来全面革命和解放;如果企业迫切需要给用户提供信息,那么Kimbal的方法更能满足需求,可以通过逐步改革解决问题。大型项目一般会采用Inmon的数据仓库建设策略,全球最资深的数据仓库服务商TERADATA就是这种模式的忠实支持者。数据仓库的四个特征Inmon的数据仓库思想被奉为经典,他在数据仓库定义中描述的四个基本特征是数据仓库之路上的入门概念,是数据仓库区别于事务处理环境和传统独立分析应用的最本质内容。面向主题OLTP应用或独立分析应用都是为满足个别应用需求而建设的,它们的数据是各取所需的、局部的,其数据定义标准和组织方式也各具特色。数据仓库的设计思想与此不同,它不是面向某个具体需求,而是对反映全辖业务经营情况的所有源数据进行分门别类、统一组织,从而为现有和潜在的各类分析需求提供一致范围和一致标准的基础数据支持。主题就是对企业内结构各异的源数据根据可用性、及时性、前瞻性、方便性等需要在较高层次上进行综合、归类的抽象。例如对银行来说,DW包括的主题7域可以分为当事人、协议、产品等。经过按主题重构的数据模型,应当可以支持所有的分析应用。集成共享由于源数据的分散独立、平台异构、标准不统一、模型差别大、冗余度高等状况,在将其提炼、抽取到数据仓库时要进行必要的转换与整合。这样集成后的数据,具有一致的结构和标准,才能为所有分析应用共享。随时间变化除了可能有小部分的业务数据补录,数据仓库自身不产生源数据,而只需要对进入仓库的源数据进行加工和汇总。加载处理后的统一基础数据和汇总数据总是随时间不断增量变化的。不可更新源自业务系统的数据都是已经发生的数据,除了个别分析应用可能需要对错误发生的业务数据进行日后的在应用层的纠错处理外,数据仓库基本不会更新和删除从源系统中传过来的细节数据。3.数据仓库架构两类基本数据仓库架构有两类基本数据仓库架构,一类是Inmon提出的CIF架构(CorporateInformationFactory,即企业信息工厂),一类是Kimball提出的MD架构(MutildimensionalArchitecture,即多维体系结构)。CIF架构主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、8数据集市(DM)、探索仓库(EW)等部件。MD架构主要包括数据准备区(StagingArea)和数据集市。MD的数据准备区在功能上相当于CIF的stagingarea+EDW,主要负责数据准备工作,是一致性维表注5的产生、保存和分发的场所。数据集市主要是采用一致性维表来完成维度建模,多个数据集市一起合并成“虚拟”数据仓库,这些数据集市可以是存在于一个数据库中,也可以是分布在不同机器的不同数据库中。两类数据仓库架构各有优缺点,CIF架构建设周期较长且初始设计复杂,但当建立起企业级数据模型并完成数据清洗整合工作,数据的完整性和一致性问题就能够得到根本解决,后续针对需求变化易于扩展,且成本较低。MD架构是先着眼于某些部门级应用创建快速见效的数据集市,而后以逐步创建和合并数据集市的方式实现企业级数据仓库,这样启动成本较低且初始设计较简单,但是全局数据的一致性和稳定性需要通过对一致性维表的持续维护来保证,后续扩展的工作量和代价较大。在实际的数据仓库项目解决方案中,往往是根据项目规模、实施目标、成本预算等在这两类基本架构上进行取舍调整和变形。多数是采用CIF架构;也有采用CIF架构和MD架构相结合的方法,例如,IBM提出的CDW(CorporateDataWarehouse)就是把CIF架构的EDW与MD架构的DM进行结合的解决方案。解析CIF数据仓库架构典型的CIF数据仓库架构见图3-1,大的层次上主要包括源数据层、ETL层、数据服务层、数据展现层等部分。9源数据层核心数据文件信贷数据文件EHR数据文件其它数据文件加载数据文件任务调度与管理元数据管理作业过程监控数据质量监控ETL层数据服务层源数据缓存区统一基础数据区临时数据缓存区数据集市数据集市数据展现层报表工具海外数据文件补录数据ODS灵活查询工具OLAP工具数据挖掘工具应用开发应用服务器决策人员管理人员分析人员业务人员图3-1源数据层源数据层是数据仓库的源头,包括采集反映企业经营状况的各类业务系统源数据、补录数据以及导入来自外部的数据。源数据可以采用数据库直连方式由ETL抽取到数据服务层,但首选是先采集到接口数据文件,再传给ETL层。ETL层ETL的基本设计任务是完成数据抽取、转换与加载。在各个项目设计中可根据具体环境进行调整,例如在我行已建立通用数据下传平台系统,因此可以不再需要数据抽取功能。ETL作为将整个数据仓库系统的数据处理过程串联起来的生命通道,还负责对整个过程中的批量任务进行调度、管理和监控。另外我们将元数据管理和数据质量管控也归为ETL层的任务。数据服务层数据服务层也可称数据仓库层,其中包含多个层次。源数据缓存区:加载数据先进入源数据缓存区(也称staingarea),在这一层10(数据落地或不落地)经过进一步的清洗和转换之后进入全局统一基础数据区。加载过程中的临时表就属于这一层。ODS区:是可选层,其数据结构跟源数据结构一致,相当于业务数据的快照,保存相对于数据仓库比较实时的数据,主要是针对需要实时数据的操作型应用需求,也可服务于实时
本文标题:全面认识数据仓库
链接地址:https://www.777doc.com/doc-26034 .html