您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 基于K最短路径的中文分词算法
基于K最短路径的中文分词算法研究与实现作者:李兆福学位授予单位:哈尔滨工程大学相似文献(10条)1.期刊论文王坚.赵恒永专业搜索引擎中文分词算法的实现与研究-福建电脑2005,(7)为实现专业信息查询的中文搜索引擎;首要的问题就是中文分词.本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法;然后提出了一种基于最短路径的改进分词算法.实验证明;利用该算法;可以消除大量歧义;取得较好的分词效果.2.学位论文王硕适用于化工专业搜索引擎的中文分词系统的研究与实现2008中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个重要环节,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎而言,中文分词作为其核心技术之一,重要性不言而喻。同样,对于专业化的搜索引擎而言,针对专业词汇进行的分词优化尤其重要。本文在对现有中文分词技术研究的基础上,设计并实现了一种应用于化工领域专业搜索引擎的中文分词系统,为实现互联网上化工类信息的快速准确获取提供了基础。本文分别对中文分词系统的外部接口、系统界面、分词器进行了设计和实现,重点介绍了分词器的实现:分别介绍了包含大量化工词汇的分词词典的物理结构及其逻辑结构的设计和实现,分词算法对待切分文本的预处理,首字哈希结合二分查找的词典优化查询,以及结合路径选择机制而改进了的层进式最短路径切词算法;经过对分词系统分词速度与精度的实验分析,实验结果显示,在保证切分效率的同时,在一定程度上达到了消除歧义的效果。经实践证明,本分词系统达到了设计目标,可以为化工专业的搜索引擎提供良好的分词服务功能。3.学位论文明丽宏N-最短路径中文分词与基于最大熵模型的中文名实体识别2004名实体最初是在MUC(MessageUnderstandingConference)上被提出的.根据最近的1997年名实体任务的定义,名实体识别包括三个子任务:实体名、时间表示语、数字表示语.其中实体名包括:人名、地名、机构名;时间表示语包括:日期短语和时间短语;数字表示语包括:货币短语和比例值.在信息检索、问答系统、文本分类、信息抽取等中文信息处理领域中,如何正确地识别和分类名实体是一项关键、困难的工作.特别是随着INTERNET的普及,对高速运行的名识体识别系统的要求不断增长.近几年,英文名实体识别做了大量工作,取得了一定的成效.目前,中文名实体识别还处于起步阶段.中文名实体识别由于两个原因使其比英文名实体识别困难得多,第一,在中文句子中,词与词之间没有空格,导致分词的精确度不高;第二,各类名实体没有明显的特征可以区分开(如:英文人名、地名的第一个字母大写).这些都对正确地分类和识别中文名识体提出了挑战.中文词语分析一般包括三个过程:预处理过程的词语粗切分,切分排歧与未登录词识别、词性标注.预处理过程产生的粗分结果是后续过程的处理对象,粗分结果的准确性与包容性,直接影响系统最终的准确率、召回率.采用当前常用的粗分方法,词语粗切分的召回率均不足93.5%.该文实现一种旨在提高召回率同时兼顾准确率的词语粗分模型——基于N-最短路径方法的中文词语粗分模型.根据我们对大规模真实语料库的对比测试,粗分结果的召回率比目前最好的方法至少高出6.4%,与最大匹配法比较,句子召回率提高将近15%.该文将最大熵模型应用到中文名实体识别中,提出了前向和后向(即双向)相结合的最大熵模型训练方法.实验结果表明双向名实体模型比前向名实体模型在地名和组织机构名上的精确度平均提高3%.同时,结合中文名实体的特点,综合考虑上下文信息、词本身信息、词典信息、标记信息和词的构成信息等对中文名实体的影响,给出了适合于中文名实体识别的特征模板,通过对原子特征模板的组合,得到复合特征模板,并以此生成候选特征空间.进而给出特征选择和特征引入算法,对候选特征删选得到有效特征.实验结果表明,考虑特征选择后系统精确度提高2-3%.4.期刊论文王坚.赵恒永专业搜索引擎的实现与研究--中文分词算法-电子科学技术评论2005,(3)为实现专业信息查询的中文搜索引擎,首要的问题就是中文分词.本文首先介绍了分词用词典数据结构的组织以及使用二分查找的查询算法,然后提出了一种基于最短路径的改进分词算法.实验证明,利用该算法,可以消除大量歧义,取得较好的分词效果.5.学位论文王坚化工类专业搜索引擎中的中文分词设计2005本文中提出了一种基于常规最短路径方法的分词算法:层进式最短路径分词方法。使用该算法可以消除大量歧义,取得较好的分词效果。文中还详细介绍了整个分词模块的设计结构。包括分词用词典的结构设计实现,词典中包含有大量化工类专业词汇,可以用于优化针对化工专业的分词并实现了高效的词典查询算法;为避免相似功能的重复开发,实现代码重用的对象复用架构和基于该架构的线程池实现方案;组成分词模块的层次结构,其中使用了相关技术以优化分词的效率;分词算法的具体实现。实践证明该模块可为化工类专业搜索引擎提供良好的分词服务功能。6.期刊论文王硕.尤枫.山岚.赵恒永.WANGShuo.YOUFeng.SHANLan.ZHAOHeng-yong一种适用于专业搜索引擎的中文分词系统研究-计算机工程与应用2008,44(19)在对现有中文分词技术研究的基础上,提出了一种应用于化工专业领域的中文分词系统,先后介绍了首字哈希结合二分查找的词典机制,以及结合路径选择机制而改进了的层进式最短路径切词算法,并经过实验分析,在保证切分效率的同时,在一定程度上达到了消除歧义的效果.7.学位论文曹聪聪中文分词算法研究2007中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分词系统的性能紧密相关。目前的分词算法可以分为基于字符串匹配的分词算法、基于规则的分词算法以及基于统计的分词算法三种。中文分词技术的重点和难点是歧义排除和未登录词的识别。本文对这两个问题作了介绍并分析讨论了FMM算法、最少分词法、最大概率分词法、隐马尔可夫模型(HMM)、蚁群算法(AntColonyAlgorithm),并着重对蚁群分词算法作了深入的分析和研究。描述了蚁群分词算法的收敛性,在不考虑参数α、β的影响下,讨论了交集型歧义字段和组合型歧义字段的收敛性,接着讨论了参数α、β的选取对蚁群算法的影响,得到在中文分词算法研究中蚁群算法处理交集型和组合型歧义字段的效果并不理想的结论。并且该算法并没有解决未登录词的识别问题。这些都说明了现在所提出的蚁群分词算法只是将蚁群算法用于中文分词的简单尝试,要想将蚁群算法真正高效率的用于分词还需要做更进一步的研究。对中、科院汉语词法分析系统ICTCLAS采用的N-最短路径粗分模块提出改进:在考虑到词频的基础上,结合宏观的统计语义和微观的规则语义,采用二元文法对粗分模块进行优化。改进的分词策略对于歧义的消除表现出一定的优势。在本文最后介绍了中文分词系统的理论模型及其评测指标。8.学位论文曹卫峰中文分词关键技术研究2009中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列的过程。其作为中文信息处理的基础,已经被广泛应用于相关领域。因此,对中文分词的研究具有重要的理论和现实意义。本文将重点研究中文分词的词典机制、歧义消除、切分算法等技术。本文鉴于语言的统计规律性,中文分词算法使用词典和统计相结合的方法。在核心词典的组织方面,考虑到词典查找的时间效率、存储的空间效率、汉语词组的统计规律等特点,使用双字Hash索引分词词典机制,仅对词组的前两个字符依次建立Hash索引,构成深度为2的Trie树,词组的剩余字串则按序组成词典正文。歧义消除和未登录词识别是中文分词的两大技术难点,本文重点研究交叉型歧义的检测和消除。本文提出一种新的方法来检测交叉型歧义产生的位置,即将所有候选词条表示成二元切分词图,若原子字符的上方和右方同时不为空,则此处存在交叉型歧义。对于交叉型歧义的消除,则使用双字耦合度和t-测试差相结合的方法来判断是否切分。最后,把所有候选词条以及它们之间的相邻共现概率表示成带权有向无环图,来计算图中始末结点间的最短路径来达到最优分词。实验表明,该中文分词算法在CPU2.0GHz,内存256MB的环境下,切分速度达到35000字/秒,分词准确率达到97.2%,召回率达到93.7%,算法的性能能够满足大部分上层应用的要求。9.期刊论文佟晓筠.宋国龙.刘强.张俐.姜伟.TONGXiao-Jun.SONGGuo-Long.LIUQiang.ZHANGLi.JIANGWei中文分词及词性标注一体化模型研究-计算机科学2007,34(9)本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器.初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%.10.学位论文黄浩锋基于SVM的智能邮件过滤系统研究与设计2006随着电子邮件的广泛应用,垃圾邮件越来越对系统的安全和人们的生活造成很大的不便,反垃圾邮件问题已经成为具有重要现实意义的课题。本文介绍了垃圾邮件的背景知识理论,并简要介绍了目前现有的邮件过滤手段以及其它相关的理论知识。对文本分类的相关技术,包括中文文本分词、文本特征提取、文本分类算法的性能评估方法等,进行探讨研究。本文的主要工作:1、对中文文本分词进行研究,并初步实现了一个汉语分词测试系统本文在汉语自动分词方面,我们研究了分词系统实现的基本思想和组成框架,包括词语粗切分、未登录词识别、词性标注排歧等技术。在词语粗切分的研究中,综合最短路径方法与全切分方法,提出了一种基于N-最短路径一元统计的粗分模型对中文词语进行粗分,句子粗分召回率比常用方法有较大幅度的提高。在词性标注排歧的研究中,我们采用了CLAWS算法的思想,结合每个词的各个词性标记具有不同概率的特点,基于隐马尔科夫模型进行词性的标注排歧。2、比较三种分类算法在垃圾邮件过滤的情况本文阐明了邮件的特征表示方法和支持向量机理论,讨论了基于支持向量机的邮件过滤算法,并通过实验比较了支持向量机算法与简单向量距离法、贝叶斯算法在垃圾邮件过滤中的情况。结果表明,支持向量机算法的过滤效果明显优于另外两种算法。3、本文设计并初步实现了一个基于支持向量机的智能邮件过滤系统该系统位于邮件客户端,能对邮件样本进行自动学习,并自动登录服务器检测新邮件。本文所实现系统的特点在于:采用两级过滤方式,从而在过滤速度与效果上有较优的表现;在第一级过滤中不仅能按好友列表、地址黑名单过滤,还能按邮件主题的相似性过滤;在第二级过滤中不仅考虑邮件内容特征词条,还综合考虑了邮件的专项特征,因此,其过滤效果优于单纯的规则过滤和内容统计过滤;系统还采取了多项措施来减少因误判而带给用户的损失,如,保存可疑邮件,发送回执信息等。本文链接:授权使用:武汉大学(whdx),授权号:8b9dcd42-a58b-40f4-82f5-9e3300e95e38下载时间:2010年11月19日
本文标题:基于K最短路径的中文分词算法
链接地址:https://www.777doc.com/doc-4604485 .html