您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 中软译星翻译质量改进策略
中软译星翻译质量改进策略任燕洪忻中国软件与技术服务股份有限公司北京100081renyan@transtar.com.cnhongxin@transtar.com.cn摘要:本文总结了译星翻译系统所采用的技术方法,以及译星系统针对一般篇章翻译所采取的一些策略。在技术方法中,介绍了译星系统的语言模型、结构设计、源文分析与译文生成思想。对于翻译策略,提出了基于词组的语言单元分析方法,以及语义结构优先语法结构的处理原则,从而加强了词组和语义在机器翻译中的地位与作用。同时还介绍了如何加强语义分析的具体实施方法。以这些翻译策略为改进原则,译星翻译系统的翻译质量得到了提高。其中,译星汉英系统的篇章翻译忠实度达到了54%,译星英汉系统篇章翻译达到了51%。关键词:词组、语义结构TranstarApproachesforTranslationImprovementYanRenXinHongChinaNationalSoftware&ServiceCo.,LtdNo.55XueyuanNanlu,Haidian,Beijing100081,ChinaAbstract:ThispapersummarizesthetechnicalmodelinTranstarsystem.ItalsointroducessomeimprovingapproachesofTranstarinitsgeneral-articletranslation.Intermsoftechnicalmodel,itintroducesTranstarlinguisticmodel,structuraldesign,basicideaonsourceanalysisandtargetgeneration.Intermsoftranslationapproach,itputsforwardtheideaofPhraseasSentenceUnitandSemanticFunctionasAnalysisPreference.Therefore,itputsmorestressesonphraseandsemanticsduringmachinetranslation.Italsogivesabriefintroductiononhowtoconductsemanticfunctionanalysis.Withthesenewapproaches,Transtarhasimproveditstranslationperformance.TranstarChinese-Englishtranslationaccuracyreaches54%.AndTranstarEnglish-Chinesetranslationreaches51%.Keywords:Phrase,SemanticFunction我国的机器翻译产品是于上个世纪八十年代正式投入市场的。当时推出机器翻译产品的目的和服务方向主要是为了满足科技类外文资料的大规模翻译的需求,而且当时直至以后相当长的阶段,机器翻译的目标都是以简单句为主,对于真正意义的“自然语言”,并没有做广泛而深入的研究与处理。其语言规则和分析算法的形成是根据一些简单的例句。这种作法使得一些商品化机译系统远远落后于用户的需要。实际上,用户对机译系统的需要包括了人类生活的各个方面的活动,如社会、政治、经济、科技、商务等等。这些方面的语言现象都是极其复杂的,经常出现好几十字甚至上百字的长句,用户希望机器翻译系统能正确地处理这样的长句,因此,我们认为,机器翻译系统的开发者首先要把自己摆在用户的位置上,力争对实际应用中所碰到的各种复杂长句都能给出高质量的翻译。以面向用户的实际需要,努力提高翻译质量作为基本的出发点,这几年我们在系统开发时从报章、杂志及书籍中搜集了各个方面的资料,建立了有关政治、经济、科技和商务各个方面的开发语料库。在分析这些语料库的基础上,形成了我们的语法、语义、规则框架,在这一过程中,我们尤其注意了框架的易调试性和可扩充性,这使得我们在开发过程中能通过大量调试不断地修正、完善和扩充我们的规则系统。具体来讲,译星系统的翻译目标,从过去的为科技类翻译服务,转向一般篇章翻译服务,从只处理简单句,向处理复杂句过渡。为此,译星系统在语言翻译质量的改进上,主要做了以下工作:1.由于一般篇章涉猎范围几乎无所不包,译星系统大大扩充了其词汇量,新添词汇10余万条,词汇范围涉及科技、政治、历史、军事、文化等等,从而使得译星系统对不同内容的篇章信息的翻译能力得到加强。2.由于一般篇章是纯粹的“自然语言”,而不是人为编写的简单句,因而必须使得译星系统对于真正意义的自然语言的处理能力得到加强。为此,译星系统对以往的规则体系做了相应的调整,使得译星的规则体系可以尽可能支持翻译自然语言。一、译星系统的技术方法中软译星机器翻译系统所采用的语言模型是转换模型,翻译目前采用基于规则的“转换法”,即从源语言的语法形式翻译成为目标语的语法形式。这种分析方法的分析重点是语言的语法结构和语义功能结构。“转换法”实际上是在源语言和目标语言之间做结构的转换。同时,由于人脑翻译更侧重于对语言意义(语义)的理解,为了提高译星机器翻译的人工智能程度,译星机器翻译技术又加强了对语言的语义分析,吸取了逻辑语义学(LogicalSemantics)思想。这种技术就是在语法分析的基础上,融入大量的语义分析,即对源语言进行语法分析的同时,结合尽可能多的语义信息,从语言的意义上对语言做更深层次的分析,因而更接近人对语言的分析和理解过程,具有更高的人工智能程度。译星系统采用模块化的结构设计,系统由各自独立的模块组合而成。根据用户的不同使用领域、运行环境以及软硬设备的配置,可以组装成灵活多变的系统。由于这种设计特点,译星系统可以翻译不同领域、不同专业的文章。译星系统的知识库是由词典数据库和规则数据库两部分组成的。知识库完全独立于系统程序。词典数据库针对不同应用领域包含基础词典、专业词典和用户定义的专用词典。在源文分析方面,译星系统的基本思想是:利用词典的丰富语法和语义功能信息以及规则库中的语法逻辑规则及语义功能结构分析规则,可以分析出句子中的各个逻辑语段(名词语段,动词语段等),得出各个语段之间的逻辑关系,以及各个语段的功能描述。在译文生成方面,其实质是按目标语言的特点把源语言的语句还原回规范的目标语言语句,据此有序地输出各个语段,同时处理好多义词的义项选择,选用恰当的对译词,给出正确的翻译结果。这就是目标语生成的基本思想。二、译星系统关键技术的改进语法规则体系(由语法逻辑规则及语义功能结构分析规则构成)和词典知识库是机器翻译的核心。机器翻译从源语言的分析到目标语言的生成,其整个过程是靠语法规则体系完成的,可以说,机器翻译的整个过程都是依靠语法规则体系的支持与控制,而机器翻译的质量高低也决定于语法规则体系的完善程度。在调试过程中,我们感到要提高复杂句的翻译质量,其关键还是要使简单句的翻译能够过关,只有在简单句的翻译质量有了保证后,才谈得上翻译复杂的句子,因为所有复杂的句子都是由简单的句子扩展、延伸出来的,只要简单句的语法关系处理好了,对复杂句的语法关系的处理就有了基础。具体来讲,机器翻译的关键点在于对源语言的分析,一般说只要对源语言的分析成功了,那么生成的目标语在语法上也会是正确的,尽管可能不符合目标语言的表达习惯。而要保证对源语言的分析正确,有两个要点要把握好,即语言单位的正确合成及语言单位之间关系的正确分析,因为任何一句话,都是由其语言单位及这些单位之间的关系构成的,因而只要把源语言的语言单位正确地找出来,并正确分析出这些单位之间的关系,就可以正确分析出源语言的语法结构。译星系统在改进翻译质量的过程中,抓住的就是这两个要点。以下我们详细分析我们是如何解决这两个要点的。1、语言单位的分析:语言单位通常分为词素、词、词组和句子四级单位。在译星翻译系统中,我们把语言单位的分析主要放在了提高词组即语段的合成能力,为此我们提出了以词组为基本单位的分析原则,即不同于把“词”作为语言分析的基本单位,我们认为词组应该被当作语言分析的基本单位。词组是介于词与句子中间的一级语言单位,如果没有把词组作为一个整体、一个单位来处理,在机器翻译的结果中,源文一个词组内的几个词就可能分散在译文各处,从而使得译文语序混乱。因此,我们认为,词组在语言分析中应该作为一个整体、一个基本单位,即词并不直接组成句子,而是先组成词组,然后再由词组直接组成句子。在机器翻译中应该尽可能加强词组合成能力。而一旦句子内的词组被正确分析出来,就可以大大减少计算机分析句子的难度,因为,一个句子可能有不少词,但是一旦词被合成为词组后,词组的数量就大大少于词的数量,这样由许多词组成的句子就被简化为由少数词组组成的句子,因而为计算机的分析减少了难度。以上是从简化、明晰句子结构的角度考虑的,即认为词组是句子的基本“语法单位”。其实,词组不仅是基本的语法单位,一个完整的词组还表达了一个完整的语义概念,如果词组在机器翻译中被打乱或拆散,那么它所表达的语义概念就被破坏了,因此从语义角度讲,也应该把词组作为分析句子的基本组成单位。另外,以词组为基本句子单位对于解决词的多义性问题也是最佳的解决方法,因为一个词在没有进入词组之前,其语法属性和语义属性都是不确定的,而一旦进入词组之后,由于词组内上下文的语义和语法信息的制约,其语法和语义的歧义是可以排除的,因而其语法和语义属性就可以确定下来。2、语言单位之间关系的分析:如何正确处理语言单位之间的关系,我们认为对于语言单位的关系,即不能处理少了,也不能处理多了,因为一句话内部语言单位的关系是客观存在的,而不是人为构想的,如果该有的关系机器没有找出来,那么翻译出来的句子就会语法松散,如果没有的关系机器给添加了,那么翻译出来的句子在语法上会冗余冲突,因而能够不多不少的分析出语言单位的关系,翻译出来的目标语就会清晰明朗。为了尽可能将语言单位之间的关系正确分析出来,译星系统提出了语义功能结构优先语法结构的分析策略。这是由于从实质上讲,所谓“翻译”,包括机器翻译,其目的不是简单的进行语言形式的转换,而是在“意义等价”的前提下,进行从源语言到目标语言的转换。因而正确的传达“语义”才是翻译的真正目的,也是检验翻译质量的最终标准。对于机器翻译,在从源语言的语法形式转换到目标语言的语法形式的过程中,“语义”应该是处于中心地位。语法功能分析只是给出了语句中各个短语之间的语法联系,并没有给出他们之间的语义关系,我们通过功能结构的分析,可以分析出短语之间的内涵,从而能确定出比较准确的分析结果。在机器翻译中,对于“语义功能结构优先语法结构”的具体实施,我们认为可以从以下几个方面入手。1).加强机器翻译系统中的词的语义分类,尤其是动词与名词,因为在任何语言中,动词和名词都是最主要的词,在机器翻译系统中,动词和名词语义分类的详细程度及合理程度直接影响机器翻译的质量。2).在英语分析中,运用语义信息加强动词与介词、名词与介词的关系研究。英文的最大特点之一,就是其介词的运用极其重要和广泛。事实上,介词是英语语法结构的支柱,正确分析出英语介词的语法功能是提高机器翻译的一大关键。而英语介词的语法功能则主要体现在它与动词和名词的关系,而要正确分析出这种关系则主要靠动词和名词的语义信息。在汉语分析中,汉语与英语不同,它的介词虽然也有,但运用的程度远不及英语。对于汉语,其分析难点之一在于词性歧义的排除上,因为如果不能正确分析出词的词性,句子结构就难以分析正确,翻译结果也往往是错误的。为此,我们首先建立针对汉语的词的语义分类系统,然后把这些语义信息运用到句子的分析中。使用“语义功能结构优先”策略,来排除歧义,而解决句子结构的分析难点。汉语分析的另一个难点是语句结构的歧义,而语句结构的歧义往往可以通过语义功能的区分来排除。下面通过两个实例进行具体的说明,在这两个例子里,语句中词的词性、语序完全一样,但它们却有截然不同的语法结构关系和语义功能结构关系:例1.工程师,老师更了解
本文标题:中软译星翻译质量改进策略
链接地址:https://www.777doc.com/doc-806007 .html