您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 用大数据技术来提高学科建设_培养社会继续的应用型人才94
用大数据技术来提高学科建设,培养社会继续的应用型人才倪军博士2013年3月27日演讲提纲•大数据•项目宗旨•大数据实验平台与学科建设结合•项目进展数据尺度测量•Yottabyte(YB),1024•Zettabye(ZB),1021•Exabyte(EB),1018•Petabyte(PB),1015•Terabyte(TB),1012•Gigabyte(GB),109•Megabyte(MB),106•Kilobyte(KB),103当今未来过去软盘Zip驱动硬盘U盘USB-硬盘RAIDorarray硬盘系列ScaleExamples•2.5Petabytes:人脑的内存容量•13Petabytes:每个美国人同时上网,每二分钟可下载的容量•98Petabytes:谷歌所能检索到的网站容量•4.75Exabytes:全世界总人口的人类基因序列总和•422Exabytes:2008年全球所产生的数据•1Zettabyte:目前全世界数据存储的总容量•1.8Zettabytes:2011年全球所产生的数据资源:PopularScienceandKatiePeek大数据预测思科公司的预测资源:TotalMobileDataTrafficwillbeOffloadedin2017,---CISCOReport2013到2017年,每个月手机的传递量为11.2Exabytes资源:亚太地区和北美地区的手机信息传递量占全球量的二分之三。资源:CiscoVNIMobilReport2013智能手机主导整个手机业资源:CiscoVNIMobilReport2013大数据预测麦肯锡全球研究院报告举例:大数据在以下五个领域发挥巨大价值美国的医疗业欧洲的公共事业美国的零售业全球的个人信息定位资源:大数据预测如果美国医疗保健能够使用大数据创造性地,有效地提高效率和质量,该部门每年可以创造超过三千亿美元的价值。其中三分之二可以用来减少8%的美国医疗保健支出。信息的获取和提炼数据量的剧增数据结构的丰富多彩Rr数据尺度的增大时间进程商业医疗卫生工程教育事业产业服务业大数据的定义定义1:大数据可以被定义为已经生成或正在生成的空前庞大的数据量,这些数据具有同构和异质并存的数据结构。他们可以通过特殊的技术(包括数据的采集,管理,处理和分析等手段,获取非常有价值的信息。大数据的定义定义2:是一种大规模并且复杂的数据的集合,这些数据难以用常规的数据库管理工具或传统的数据处理应用程序来处理。---根据维基百科定义3:“大数据指的是用于特大型数据的流程和程序技术,其中包括数据的建立、操作和管理大型数据集和存储设施”---根据zdnet.com大数据的定义定义4:大数据指的是新兴的、针对巨大的数据集的信息技术,其中包括各种工具、流程和程序,用于收集、管理、处理、分析和挖掘这些数据集大数据的定义这些定义的共同点:数据中必须蕴藏信息、数据量巨大、数据结构复杂、数据量快速增长常规的数据处理和管理的方法无法解决大数据不仅仅是指数据,它包容相关的技术大数据的定义定义:大数据可以定义为前所未有、迅速增长的、结构复杂的、具有信息价值的庞大数据之集,以及与其相关的紧急而又特殊的数据技术,使人们能够采用这些技术来获取、管理、处理、分配、分析和挖掘这些数据,其宗旨是为机构的运作和决策提供服务。举例:医疗卫生也的大数据由来医疗仪器设备的数值化医疗实践从相对传统的个人观察、主管经验判断走向标准化、和科学依据为基础的医疗医疗系统的数字化和信息化举例:医疗卫生也的大数据由来采纳系统化电子医疗记录(EHR)技术和标准(DICOM,HL7,IHE等)临床医学、转化医学、生物医学信息学、医疗信息学等领域的加盟和新科技的转化应用医学科学的数值化进程所引发的数据剧增资源:美国伯克利大学细细管理系统学院0C.E.200340,000BCEcavepaintingsbonetools3500writingpaper1051450printing1870electricity,telephonetransistor1947computing19501993TheWeb数字心脏病学ElectronicMedicalRecord电子-医疗卫生遗传工程数值放射学1999Late1960sInternetPetabytes数值病理学医疗卫生大数据的来源数字医疗服务、信息流程和管理的普及应用转化医学和生物医学所带来的新知识、新成果,以及医学的新探索和新发现社会网络和数字通讯高速发展来源:BigDataAnalyticsforHealthcarebyJimengSunandChandanK.Reddy,TutorialpresentationattheSIAMInternationalConferenceonDataMining,Austin,TX,2013;Sarkar,IndraNeil.Biomedicalinformaticsandtranslationalmedicine.JournalofTranslationalMedicine8.1(2010):22.医疗卫生大数据的来源全尺度的医疗服务微观尺度性的临床基因诊断和基因治疗生物信息学的成就和发展人体组织和器官尺度的医学影像数字化和病理数字化进程和应用医学影像信息学和病理信息学的成熟和广泛应用宏观大尺度下的、基于社会网络的医疗服务信息化和公共卫生健康信息化医疗信息学和公共医疗卫生信息学大数据的定义IBM最近的报告预测在2020年之前大约有万亿个新的设备连接到互联网:其中80%的数据将是非结构性的,这一趋势将有助于推动数字数据的增长,同时要求大力发展大规模数字分析技术大数据的特性归纳为四点,既4H或4V数据尺度和量级上非常巨大Hugedatavolume在数据结构上具有混合多样性和复杂性Hybridstructureandcomplexityformatvariety大数据的特性归纳为四点,既4H或4V在数据量的迅速扩展上具有高速性、动态定、和实时性High-speedanddynamicgrowthinbothvolumeanddimensions,real-timestreamingprocessing在数据的内涵中,存有巨大的信息价值Hiddeninformation(compriseinformationofvalidityorveracity)大数据的特性第一个特征:巨大数据量前所未有的数据量数据量太大而无法用常规的技术对其处理和分析在数据的存储、调配、管理等方面超越传统的数据库管理技术Source:Reading:Hilbert,Martin;López,Priscila(2011).TheWorld'sTechnologicalCapacitytoStore,Communicate,andComputeInformation.Science332(6025):60–65.大数据的特性大数据增长的技术因素:信息技术(硬软件和网络技术)的迅猛发展无处不在的信息资源、感知移动设备剧增传感技术的成熟应用摄像机的普及应用射频识别器的普及应用无线传感器网络的迅猛发展数字建模和仿真计算(科学探索中除理论和实验之外的第三种方法)大数据的特性比如全球性海洋流动观测数据的汇总和可视化Source:NASA'smovie:大数据的特性第二个特征:数据结构的多样和异构性结构性数据:列式性数据,比如关系型数据MSAccess,Excel,SQL表常用于数据记录和交易数据(RecordandTransaction)非结构性数据:关系型数据文本(Text):互联网语言,微博,聊天,短信log,internet,tweetsandchatting,textmessageXML(半结构化)多媒体(Multimedia):图像,视频,音频image,video,audio,XML(semi-structured)etc.大数据的特性第二个特征:数据结构的多样和异构性(继续)大数据往往是不同数据结构系统的混合组合或集成比如非结构、半结构、结构包含非结构性、半结构型、和结构型数据的交通、合并、分解、融合等。比如非结构的短信和日志和结构型数据的融合医院诊断报告、病人病例、病人信息等等在大数据分析中的关系大数据的特性第二个特征:数据结构的多样和异构性(继续)举例:医疗卫生和放射信息系统中的大数据应用范例的思考兼容非结构型DICOM影像图片的PACS系统数据和结构型病人病例数据之间的大数据分析基因治疗和遗传临床诊断之间的关系分析非结构型基因序列和储存在电子医疗记录系统(eHR)中的结构型病人记录文本之间大数据分析非结构型病例诊断实验分析报告医院信息系统中的病人记录档案数据分析大数据的特性第二个特征:数据结构的多样和异构性(继续)很难用当前的数据库管理系统来管理比如基于SQL的关系型数据搜索很难用传统的数据处理和应用系统来分析大数据的特性要求1:需要研发一种特殊的处理机制和平台,使得可以管理和处理不同数据结构的数据,比如维基(wiki)、博客、网络日志、来源于网络的任何信息要求2:需要合适地设计一种相应的分析和挖掘流程机制和平台这种平台必须建立在系统工程的理念上大数据的特性系统工程的技术理念带来异常的技术挑战分布式大数据存储基于SQO/NoSQL并存的数据搜索大数据的表达和可视化大数据的分配和网络设计大数据的分析流程动态管理大数据的处理和分析大数据信息挖掘和决策HugedatavolumeHybriddatastructureHiddeninformationdiscoveryHigh-speeddatagrowth大数据的特性第三个特征:数据结构的多样和异构性快速增长数据流的动态性要求:高性能数据计算系统用大数据过滤、压缩、删除来解决大数据堆积采用大数据的转化、移植、和变化技术正确选择中央型和分布型计算机平行计算的数据处理平台实时性信息挖掘和智能决策大数据的特性第四个特征含有信息的价值需要高性能的数据统计和挖掘采用智能计算技术迅速转化为决策的依据、增强企业的竞争力和产业大数据的优势和效益重新设计相关的数据信息属性结构和行为,特别是各类数据之间的接口和关系,确保大数据信息的应用扩展性改造高性能数据处理和分析的流程,以便直接为产业和服务业实时服务建立崭新的决策机制,有利于锐化组织运营与管理、和企业的利益大数据应用范例气象学基因学和基因工程应用神经科学物理数学建模与仿真生物技术环境研究和改善大数据应用范例网络搜索财经商务信息生物医学与医疗健康石油勘探宇航和太空探索大数据应用范例IBM大数据和分析解决方案个人银行管理和商业收益来源:
本文标题:用大数据技术来提高学科建设_培养社会继续的应用型人才94
链接地址:https://www.777doc.com/doc-1031386 .html