导读:本文包含了双语资源论文开题报告文献综述及选题提纲参考文献,主要关键词:互联网,英汉双语语料,搜索引擎,批量对齐
双语资源论文文献综述
廉勇[1](2016)在《利用互联网搜集海量双语资源实现Trados英汉双语语料批量对齐的方法研究》一文中研究指出本文介绍了互联网对于批量制作英汉双语术语库和记忆库的巨大帮助,指出了应注意的问题,并简要说明了核心方法。(本文来源于《读书文摘》期刊2016年24期)
赵西娅[2](2015)在《我区双语资源电视点播教育覆盖6900个双语班》一文中研究指出本报乌鲁木齐3月1日讯赵西娅从自治区教育信息化工作会议获悉:目前,我区开展的双语资源电视点播教育(IPTV)实验已覆盖6900个双语班级,远程教育资源城乡共享机制已初步形成。 长期以来,教师队伍数量短缺、质量不高、教学能力不强已成为制约我区(本文来源于《新疆日报(汉)》期刊2015-03-02)
马国俊[3](2011)在《甘南藏区现代远程教育现状及双语资源建设研究》一文中研究指出甘肃甘南藏区地广人稀,山大沟深,农牧区居住分散、地处偏僻、环境艰苦,教育资源相对短缺,教育教学质量较低。通过对甘南藏区现代远程教育资源的使用状况进行调查探讨,研究适合藏区教育的藏汉双语网络资源库建设。(本文来源于《煤炭技术》期刊2011年12期)
罗阳,季铎,张桂平,王莹莹[4](2011)在《面向单一双语网页的双语资源挖掘方法》一文中研究指出双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,该方法能够有效改进双语资源挖掘的质量。(本文来源于《中文信息学报》期刊2011年01期)
罗阳[5](2010)在《基于Web数据的双语资源挖掘技术研究》一文中研究指出随着统计方法在自然语言处理中的广泛应用,双语语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可,尤其在机器翻译、跨语言信息检索和双语术语翻译等领域具有不可或缺的重要作用。以互联网为数据源挖掘双语资源可以有效解决传统人工构建语料库的规模不足,时效性、真实性、语种灵活性差等问题。现有的双语资源挖掘技术主要针对双语平行网页,从中提取相同位置的互译资源。由于这类网页数量少,对齐模型复杂,本文提出针对单一双语网页进行双语资源挖掘方法,通过介绍重点技术来描述双语资源挖掘的过程。本文提出了一种基于联合策略的双语网页获取方法。该方法通过启发条件扩展搜索项、过滤不相关网页,得到含有双语信息的网页,以频繁序列模式为特征,使用支持向量机对网页进行二分类,判断所得网页是否为双语网页。然后根据双语网页特点提出用频繁序列模式和种子模式构建规则库,通过规则匹配的方法提取出双语片段,同时使用非规则文本归属度来度量一个无法与规则相匹配的片段模式能否作为规则加入规则库。这样可以扩充规则库,满足双语资源存在的多样性与特殊性要求。在双语资源抽取的过程中,考虑到语言的差异性,对于难以通过编码区分的语言,加入语言特征,并在抽取信息时考虑语言特征的优先级等因素来完成双语资源的最终抽取。最后,本文构建了“基于Web数据的双语资源挖掘系统”,该系统不仅实现了上述双语资源挖掘方法,以可视化的方式展示实验效果,更加入了方便用户使用的查词、浏览网页、用户添加、指定网址抓取以及种子选择等功能,成为完整的面向用户的使用程序。(本文来源于《沈阳航空航天大学》期刊2010-12-08)
罗阳,季铎,张桂平,王莹莹[6](2010)在《面向单一网页的双语资源挖掘方法》一文中研究指出双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。(本文来源于《第六届全国信息检索学术会议论文集》期刊2010-08-12)
颜振祥[7](2010)在《互联网双语资源挖掘关键技术研究》一文中研究指出机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文致力于基于Web的大规模双语平行语料库自动获取算法研究。双语资源挖掘需要克服Internet中网页存在大量重复网页的问题。通过关键词检索相似文章,再从相似文章检测重复文章,此方法有效的解决了效率和准确率平衡问题。通过句子、词之间相互促进的迭代方式选择关键词。网页的有效去重为双语资源挖掘的高效奠定了坚实的基础。大量双语平行句对存在于双语混合网页内。本文通过充分分析网页的结构和网页的内容挖掘双语句对。首先基于搜索引擎摘要获取双语言混合网页,其次通过网页分块选取双语候选资源,基于双语单词互译度、句子之间度量、M-N网页HTML节点对齐候选双语平行句对。最后基于最大熵模型结合长度、双语单词互译度、存在于网页内的距离、词对齐特征有效的鉴别了双语平行句对。网络作者在进行双语平行网页URL命名时往往具有一定的规律性,本文通过分析URL获取双语网站内候选平行网页对。利用编辑距离算法计算和预定义字符串相似度发现双语网站。通过分析网页文本长度、锚文本双语单词互译度、词对齐,采用分类器鉴别平行文本。(本文来源于《苏州大学》期刊2010-04-01)
廖晓玲[8](2008)在《基于Web论文库的学术领域双语资源研究》一文中研究指出双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下叁个问题:如何获取双语资源?如何对双语资源进行加工处理?如何使用双语资源构建应用?本文基于学术领域双语资源对这叁个问题进行了探讨和解决。基于Web论文库获取学术领域双语资源是一种自然而然的方法。本文设计并实现了Web论文库爬行器,对Web论文库进行增量爬行,高效地获取学术领域双语资源,从而构建动态更新的学术领域双语资源库。接着探讨了如何在获取到的学术领域双语资源库上进行句子对齐处理。本文实现了经典的基于统计的句子对齐算法,并对算法进行了一系列改进,包括断句不采用冒号为边界、选用更好的句对评价函数、结合学术领域双语资源自有的关键字信息、增加处理的匹配模式等,显着地提高了句子对齐算法的准确率和召回率。经过句子对齐处理的学术领域双语资源库采用xml文件的格式组织存储。最后,本文尝试在学术领域双语资源库上构建基于短语的统计机器翻译系统,证实了学术领域双语资源的可用性。基于Web论文库的学术领域双语资源研究,对双语资源的获取、加工处理以及应用这叁个问题的解决提供了一个新的思路。如何更好地解决这叁个问题将是下一步的研究方向。(本文来源于《天津大学》期刊2008-05-01)
庞珊娜[9](2008)在《基于Web的双语资源信息抽取研究》一文中研究指出在信息爆炸的现代社会,要从浩如烟海的文献、资源中找到真正需要且有价值的内容,是一个重要的课题。为了解决这一课题,信息检索、信息抽取等技术的研究成为当前的热点方向。信息检索能够找出满足一定检索条件的所有的文档,而人们仍需阅读所找到的每一个段落才能获得所需要的信息;而信息抽取是一种直接从自然语言文本中抽取事实的方法,即从一段文本中抽取指定的一类信息,将其形成结构化的数据,并填入一个数据库中供用户查询使用。为某一个或多个应用而专门收集的、有一定结构的、可被计算机程序检索的、具有一定规模的语料的集合称之为语料库。因特网的发展使信息传播的领域从真实世界拓展到网络空间,各种类型的数字化语言材料,包括双语对照的材料,都更容易获得。这为进行信息抽取实验创造了更好的条件。本文通过构建完整的下载、加工、抽取过程来研究如何从因特网的双语文本中抽取有价值的信息。主要工作包括:收集资源是进行信息抽取的前提条件,在这一阶段,讨论在因特网上定位和识别双语语料的方法,分析并获取某个站点检索程序的结构,对于没有提供检索功能的站点,利用爬行程序链接下载。将网页中的动态数据区域与正文部分相区分,给出基于分块的网页正文信息抽取算法,将网页中包含的噪音内容,如导航链接及商业广告链接等尽量屏蔽掉。在版权许可的情况下,储存两种语言的网页资料,使之成为双语平行的语料资源。在加工形成的双语语料中,进行知识抽取。介绍并分析抽取词汇表、术语的算法以及抽取翻译模板的方法。最后总结全文并展望今后进一步的工作。(本文来源于《天津大学》期刊2008-01-01)
双语资源论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本报乌鲁木齐3月1日讯赵西娅从自治区教育信息化工作会议获悉:目前,我区开展的双语资源电视点播教育(IPTV)实验已覆盖6900个双语班级,远程教育资源城乡共享机制已初步形成。 长期以来,教师队伍数量短缺、质量不高、教学能力不强已成为制约我区
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
双语资源论文参考文献
[1].廉勇.利用互联网搜集海量双语资源实现Trados英汉双语语料批量对齐的方法研究[J].读书文摘.2016
[2].赵西娅.我区双语资源电视点播教育覆盖6900个双语班[N].新疆日报(汉).2015
[3].马国俊.甘南藏区现代远程教育现状及双语资源建设研究[J].煤炭技术.2011
[4].罗阳,季铎,张桂平,王莹莹.面向单一双语网页的双语资源挖掘方法[J].中文信息学报.2011
[5].罗阳.基于Web数据的双语资源挖掘技术研究[D].沈阳航空航天大学.2010
[6].罗阳,季铎,张桂平,王莹莹.面向单一网页的双语资源挖掘方法[C].第六届全国信息检索学术会议论文集.2010
[7].颜振祥.互联网双语资源挖掘关键技术研究[D].苏州大学.2010
[8].廖晓玲.基于Web论文库的学术领域双语资源研究[D].天津大学.2008
[9].庞珊娜.基于Web的双语资源信息抽取研究[D].天津大学.2008