双语对获取论文-严馨,王若兰,余正涛,潘丽同,郭剑毅

双语对获取论文-严馨,王若兰,余正涛,潘丽同,郭剑毅

导读:本文包含了双语对获取论文开题报告文献综述及选题提纲参考文献,主要关键词:英柬双语平行语料库,最大熵分类器,平行句对

双语对获取论文文献综述

严馨,王若兰,余正涛,潘丽同,郭剑毅[1](2015)在《基于最大熵模型的英柬双语平行句对获取》一文中研究指出英语-柬埔寨语双语平行语料库资源是柬埔寨语信息处理的一项基础资源,对于促进柬埔寨语言信息处理技术的发展具有非常重要的研究意义。在得到平行的双语网页之后,将平行句对的获取问题看作是对候选平行句对的分类问题。为了从候选平行句对中识别出平行句对,构造了二分类的最大熵分类器。采用句子长度特征、词汇化比例特征、句子位置特征、符号特征等进行英柬双语句对分类器的训练。最后利用该分类器对英柬候选平行句对进行分类,从而确定出英柬双语平行句对资源。实验结果表明通过加入不同的特征进行比较,最终的准确率和召回率达到了90%以上,证明利用该分类器进行平行句对识别取得了比较好的效果。(本文来源于《山西大学学报(自然科学版)》期刊2015年04期)

潘丽同[2](2015)在《基于Web的英柬双语平行句对获取》一文中研究指出目前双语平行语料库已经成为跨语言自然语言处理工作中非常重要的资源。在自然语言处理领域,它已经得到了越来越多的认可。英语-柬埔寨语(英-柬)双语平行语料库资源是柬埔寨自然语言信息处理的一项基础资源,对于促进柬埔寨语言信息处理技术的发展具有非常重要的研究意义。本文围绕基于Web的英柬双语网页的获取、英柬双语候选平行网页生成、英柬双语平行网页识别、英柬双语平行句对的识别等关键问题开展了相关研究,主要完成以下特色研究工作:(1)针对目前网页下载工具获取网页资源所含噪声较多的问题,使用开源的java页面分析工具HtmlUnit开发了一个通用的网络爬虫。它能根据制定的网站模板准确的定位和抽取我们需要的网页内容信息,并将得到的数据存入数据库,为后续的平行网页获取提供网页文档资源。(2)针对大多数候选网页获取方法过度依赖网页URL命名相似性的问题,设计了两种候选网页的生成方法:第一种方法利用网页标题的相似性来确定候选双语平行网页,该方法适用于双语网页中无明显约束条件的情况;第二种方法,从获取的结构化数据中选择明确的约束条件,利用结构化查询的方法从数据库中检索出符合这些限定条件的英柬网页对作为候选双语平行网页。(3)英柬双语平行网页的识别。利用向量空间模型将候选网页对表示成两个空间向量,通过计算英柬双语候选网页的相似性,来获取平行网页的方法。该方法虽然准确率高,但计算量较大,不适用于候选网页数量庞大的情况。为了获取大规模的平行网页,提出将英柬平行网页的识别问题看做是候选网页的分类问题。通过训练一个有效的最大熵分类模型对候选网页分类,然后选取分类结果中平行的部分即为英柬双语平行网页。(4)英柬双语平行句对的识别。为了从候选平行句对中识别出平行句对,构造了一个二分类的最大熵分类器。采用句子长度特征、词汇化比例特征、句子位置特征、符号特征等进行英柬双语句对分类器的训练。最后利用该分类器对英柬候选平行句对进行分类,从而确定出英柬双语平行句对资源。(5)利用上述研究成果,设计实现了英柬双语平行句对获取的原型系统。(本文来源于《昆明理工大学》期刊2015-03-01)

茹旷[3](2014)在《日汉双语命名实体对获取方法及其应用研究》一文中研究指出命名实体翻译对的自动抽取研究对自动文摘、机器翻译和跨语言信息检索等意义重大。传统方法往往建立在大规模平行语料库或可比语料库基础上,由于双语语料库资源相对匮乏导致研究成果的实用性受到约束。本文总结了该领域的研究现状,并结合汉语和日语的特点,提出了一种新的基于归纳学习法的单语语料库命名实体翻译对自动抽取方法。该方法使用汉语和日语汉字对照表计算命名实体实例间的相似度,使用归纳学习法,抽取相似度较高的汉语和日命名实体实例间的共同部分和差异部分,来获取命名实体的局部翻译规则,再通过反馈处理更新汉日命名实体对的相似度和规则集合。实验结果显示,提出方法简单有效,克服了传统方法对双语资源具有依赖性这一缺点,可有效利用单语语料库构筑大规模汉日命名实体翻译词典。相比与其他的方法,本文结合汉语和日语的特点,提出了一种基于归纳学习法的单语语料库汉日命名实体翻译对自动抽取方法。使用了弱相关的双语文本、极少的额外知识(中日汉字对照表)来抽取命名实体翻译等价对,有效的减少了构筑语料的花费和对额外知识的依赖。此外在数据量不足的情况下,面对纯假名命名实体时有很大可能无法抽取出局部翻译规则。我们提出了一种基于传统统计机器翻译的音译方法,有效改善了假名上的等价对抽取效果。我们未来的工作主要将关注如何从海量、冗余、异构、不规范、含有大量噪声的网页中抽取出可靠的翻译对应。(本文来源于《北京交通大学》期刊2014-03-24)

周辉[4](2009)在《基于WEB挖掘的双语对获取技术研究》一文中研究指出互联网上各种语言的文本数据在以几何级数不断增加,这些文本数据自然成为自然语言处理研究的宝贵资源。本文先从互联网上获取感兴趣的语言资源,然后进一步获取互联网上的双语对。双语短语对齐在机器翻译领域具有重要意义。本文在词性标注时,针对兼类词与其前驱词以及后继词搭配时满足的规则不同的情况,采用统计和规则相结合的方法,设置规则的优先级,从而确定当前词的词性,提高了词性标注的正确率。在短语切分中,将汉语短语切分概率化,并结合一些成词率高的规则,通过求N-最短路径方法进行短语切分。本方法对于一个已经分词的句子,根据短语库找到这个句子中所有可能的短语,并构造有向无环图,求得最优路径,从而提高了短语切分的正确率。本文还利用从搜索引擎中自动获取共现短语对网络频率数的方法进行短语对齐。本方法利用词性标注和短语切分的结果,使用网络共现频率数来判断两个汉英短语是否互为翻译,然后根据贪心规则选出最佳候选。该方法能够获得双语语料库未能充分覆盖的部分新短语,将其作为双语语料库的补充,实验证明,这种方法有效的提高短语对齐的准确率和召回率。另一方面,本文基于Web挖掘技术,采用迭代策略实现汉英双语对获取,从而实现领域词典的自动扩充。本方法把一个有限的计算机专业词典中的英文短语及其中文解释组合成中英文二元组提交给搜索引擎,从返回的诸片段(snippets)中提取出相似的中英文二元组,选择置信度高的一个二元组,再次提交给搜索引擎进行相同的操作,多次迭代,直到计算机专业词典中的每个二元组都处理完毕。实验表明,该方法当用于扩充语料库的时候,能够有效地提高词典获取的正确率,同时也可以提高双语词典编撰效率。(本文来源于《天津大学》期刊2009-08-01)

郭稷,吕雅娟,刘群[5](2008)在《一种有效的基于Web的双语翻译对获取方法》一文中研究指出命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。(本文来源于《中文信息学报》期刊2008年06期)

郭稷,吕雅娟,刘群[6](2008)在《一种有效的基于Web的双语翻译对获取方法》一文中研究指出命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。本文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。(本文来源于《第四届全国学生计算语言学研讨会会议论文集》期刊2008-07-01)

双语对获取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目前双语平行语料库已经成为跨语言自然语言处理工作中非常重要的资源。在自然语言处理领域,它已经得到了越来越多的认可。英语-柬埔寨语(英-柬)双语平行语料库资源是柬埔寨自然语言信息处理的一项基础资源,对于促进柬埔寨语言信息处理技术的发展具有非常重要的研究意义。本文围绕基于Web的英柬双语网页的获取、英柬双语候选平行网页生成、英柬双语平行网页识别、英柬双语平行句对的识别等关键问题开展了相关研究,主要完成以下特色研究工作:(1)针对目前网页下载工具获取网页资源所含噪声较多的问题,使用开源的java页面分析工具HtmlUnit开发了一个通用的网络爬虫。它能根据制定的网站模板准确的定位和抽取我们需要的网页内容信息,并将得到的数据存入数据库,为后续的平行网页获取提供网页文档资源。(2)针对大多数候选网页获取方法过度依赖网页URL命名相似性的问题,设计了两种候选网页的生成方法:第一种方法利用网页标题的相似性来确定候选双语平行网页,该方法适用于双语网页中无明显约束条件的情况;第二种方法,从获取的结构化数据中选择明确的约束条件,利用结构化查询的方法从数据库中检索出符合这些限定条件的英柬网页对作为候选双语平行网页。(3)英柬双语平行网页的识别。利用向量空间模型将候选网页对表示成两个空间向量,通过计算英柬双语候选网页的相似性,来获取平行网页的方法。该方法虽然准确率高,但计算量较大,不适用于候选网页数量庞大的情况。为了获取大规模的平行网页,提出将英柬平行网页的识别问题看做是候选网页的分类问题。通过训练一个有效的最大熵分类模型对候选网页分类,然后选取分类结果中平行的部分即为英柬双语平行网页。(4)英柬双语平行句对的识别。为了从候选平行句对中识别出平行句对,构造了一个二分类的最大熵分类器。采用句子长度特征、词汇化比例特征、句子位置特征、符号特征等进行英柬双语句对分类器的训练。最后利用该分类器对英柬候选平行句对进行分类,从而确定出英柬双语平行句对资源。(5)利用上述研究成果,设计实现了英柬双语平行句对获取的原型系统。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

双语对获取论文参考文献

[1].严馨,王若兰,余正涛,潘丽同,郭剑毅.基于最大熵模型的英柬双语平行句对获取[J].山西大学学报(自然科学版).2015

[2].潘丽同.基于Web的英柬双语平行句对获取[D].昆明理工大学.2015

[3].茹旷.日汉双语命名实体对获取方法及其应用研究[D].北京交通大学.2014

[4].周辉.基于WEB挖掘的双语对获取技术研究[D].天津大学.2009

[5].郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取方法[J].中文信息学报.2008

[6].郭稷,吕雅娟,刘群.一种有效的基于Web的双语翻译对获取方法[C].第四届全国学生计算语言学研讨会会议论文集.2008

标签:;  ;  ;  

双语对获取论文-严馨,王若兰,余正涛,潘丽同,郭剑毅
下载Doc文档

猜你喜欢