例句检索论文-于康

例句检索论文-于康

导读:本文包含了例句检索论文开题报告文献综述及选题提纲参考文献,主要关键词:语料库,语库,例句,点击

例句检索论文文献综述

于康[1](2011)在《【自制语料库】第5讲 语料库的启动与例句检索和保存》一文中研究指出(本文来源于《日语知识》期刊2011年12期)

卢延科[2](2009)在《面向中文专利文献的相似例句检索算法的研究》一文中研究指出句子检索在自然语言处理领域有着广泛的应用,一直以来都为人们所关注。在问答系统、自动文摘、EBMT、翻译记忆、新信息检测中,句子检索模块的检索质量会直接影响到上述系统的性能。然而,如何去衡量两个句子相似没有一个统一的标准,从不同领域出发,看待句子相似度的角度也就不同,这就导致了度量标准的不同。总之,到目前为止,不存在统一的度量标准;也可能不存在这样的标准,因为具体的度量准则是与具体的应用相关的。例如:在英汉双语例句检索系统中,两个句子语法结构相似,就可以认为这两个句子是相似的;而在基于FAQ的自动问答中,则需要两个句子意思基本相同。同时,随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,这在一定程度上阻碍了我国与国际专利技术的推广和交流。近年来,随着机器翻译技术的飞速发展,使得机器自动翻译和人机协同翻译成为了解决这一问题的有效途径。本文主要任务是:针对专利文献的自身特点,为人机协同翻译系统设计一种句子检索算法,以提高人机协同翻译系统的性能和效率。本文针对专利文献专业术语相对较多、形式规范、语言严谨、句子长度较长的特点,提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串算法(LCS)进行改进,并加入了词汇语义信息,使其具有模糊对齐的能力。同时,由于专利中术语较多本文提出了一种术语相似度计算方法,并把它加入到了句子的相似度计算中;为将语义相似与结构相似进行一定的结合,在计算句子相似度时加入了词类信息。这些都使得本文算法更适合专利文献中句子相似度的计算。实验结果表明该方法在专利句子相似度计算方面取得了较好效果,查准率达到了83.5%,比改进编辑距离和传统向量空间模型分别高出20%和17%。(本文来源于《沈阳航空工业学院》期刊2009-12-15)

张钰虹[3](2008)在《面向辅助写作的英汉例句检索系统的设计与实现》一文中研究指出非英语为母语的人们在用英文写作的时候,经常会遇到一个句子不知道怎么说,或者一个意思不知如何表达的情况。目前的机器翻译系统由于准确率太低,翻译结果不通顺而很难实际应用;在线词典系统由于只能以单词为单位进行检索,对于整句的查找没有什么帮助。英汉例句检索系统通过让用户输入母语句子,系统查找意思最相近的英文例句的方式,帮助人们解决英文写作过程中遇到的困难。虽然检索得到的例句与用户输入的母语句子不完全相同,但用户可以利用人类的智慧,举一反叁的找到需要的英文表达。英汉例句检索系统的核心是一个例句搜索引擎。与网页搜索引擎不同的是,例句检索系统首先对用户查询进行同义词扩展,对扩展后得到的查询进行初步检索,然后采用改进编辑距离的方法计算每个初步检索结果与用户查询之间的相似程度,返回相似程度最高的若干个结果。英汉例句检索系统使用了一个包含50万中英英汉例句对的例句库。为了得到每个中文单词具体与哪个英文单词互为对应,对50万中英句对进行了自动单词对齐处理。系统直接使用了着名的词对齐系统——GIZA++作为预处理系统。针对GIZA++只能得到一对一或者一对多的对齐结果的弱点,通过“中到英”和“英到中”双向对齐结果的融合,获得了多对多的对齐,同时还把对齐错误率降低到了23.3%。对于用户输入的查询,系统通过计算各个单词之间二元语言模型的概率,找到最高频的单词组合,并作为查询提示返回给用户。由于系统使用的技术与具体的语言相关性不高,所以只要拥有足够的语料资源,可以很容易的移植到其他语言平台上。(本文来源于《东北大学》期刊2008-12-01)

例句检索论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

句子检索在自然语言处理领域有着广泛的应用,一直以来都为人们所关注。在问答系统、自动文摘、EBMT、翻译记忆、新信息检测中,句子检索模块的检索质量会直接影响到上述系统的性能。然而,如何去衡量两个句子相似没有一个统一的标准,从不同领域出发,看待句子相似度的角度也就不同,这就导致了度量标准的不同。总之,到目前为止,不存在统一的度量标准;也可能不存在这样的标准,因为具体的度量准则是与具体的应用相关的。例如:在英汉双语例句检索系统中,两个句子语法结构相似,就可以认为这两个句子是相似的;而在基于FAQ的自动问答中,则需要两个句子意思基本相同。同时,随着我国对知识产权认识的不断提高以及国际交流的迫切需要,传统的由专利翻译人员进行手工翻译的方式已经不能满足目前急剧增长的专利文献翻译需求,这在一定程度上阻碍了我国与国际专利技术的推广和交流。近年来,随着机器翻译技术的飞速发展,使得机器自动翻译和人机协同翻译成为了解决这一问题的有效途径。本文主要任务是:针对专利文献的自身特点,为人机协同翻译系统设计一种句子检索算法,以提高人机协同翻译系统的性能和效率。本文针对专利文献专业术语相对较多、形式规范、语言严谨、句子长度较长的特点,提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串算法(LCS)进行改进,并加入了词汇语义信息,使其具有模糊对齐的能力。同时,由于专利中术语较多本文提出了一种术语相似度计算方法,并把它加入到了句子的相似度计算中;为将语义相似与结构相似进行一定的结合,在计算句子相似度时加入了词类信息。这些都使得本文算法更适合专利文献中句子相似度的计算。实验结果表明该方法在专利句子相似度计算方面取得了较好效果,查准率达到了83.5%,比改进编辑距离和传统向量空间模型分别高出20%和17%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

例句检索论文参考文献

[1].于康.【自制语料库】第5讲语料库的启动与例句检索和保存[J].日语知识.2011

[2].卢延科.面向中文专利文献的相似例句检索算法的研究[D].沈阳航空工业学院.2009

[3].张钰虹.面向辅助写作的英汉例句检索系统的设计与实现[D].东北大学.2008

标签:;  ;  ;  ;  

例句检索论文-于康
下载Doc文档

猜你喜欢