自动消歧论文-张旺强,祝忠明,李雅梅,卢利农,刘巍

自动消歧论文-张旺强,祝忠明,李雅梅,卢利农,刘巍

导读:本文包含了自动消歧论文开题报告文献综述及选题提纲参考文献,主要关键词:机构知识库,人名消歧,作者名消歧,CSpace

自动消歧论文文献综述

张旺强,祝忠明,李雅梅,卢利农,刘巍[1](2019)在《机构知识库作者名自动消歧框架设计与实践》一文中研究指出【目的】实现对机构知识库作者名消歧的高度自动化处理,并在适当的时机提供人工介入机制。【方法】分析机构知识库作者名消歧的特殊性与消歧特征项,依此构建机构知识库作者名通用消歧框架并实践部署。【结果】该框架在实际应用中取得良好的成效,准确率达到99%以上。【局限】对缺失单位信息的作者名未进行处理;作者别名与机构别名可能存在例外情况。【结论】该框架能够有效地解决机构知识库作者名消歧的难题,在此基础上可构建更多的精准增值服务。(本文来源于《数据分析与知识发现》期刊2019年06期)

卓玛吉[2](2018)在《藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究》一文中研究指出虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度。本文通过传统藏文文法和语法规则,主要研究并提出了叁种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库。使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率。(本文来源于《电脑与电信》期刊2018年12期)

姜新民[3](2015)在《基于汉藏平行语料的藏文词义自动消歧方法研究》一文中研究指出词义消歧是词语语义分析的重要内容,也是整个自然语言处理研究中的一个值得关注的问题,对机器翻译、信息检索、舆情监测等各项高层应用提供有力的支持。藏文自然语言处理应用需求的不断提高,要求作为基础关键技术的词义消歧技术必需得到充分发展,但受限于藏文信息处理研究现状,藏文词语消歧研究依然处于起步阶段。词义消歧研究方法可以分为统计方法和规则方法两类。基于统计的方法包括有监督和无监督两类方法,有监督方法需要具有一定规模的带词义标注的语料库支持,无监督方法需要大规模语料库作为支撑材料。根据当前藏文信息处理进展,带词义标注的语料库和无标注语料库的获取都非常困难。基于语义知识库的方法从基于规则方法衍生而来,在英语中已逐渐开始用机器学习方法获取知识,是词义消歧研究最具活力的研究方向之一,且在英语和汉语等语言的词义消歧研究中被证明有效。鉴于以上原因,本文提出将语义知识库HowNet与藏汉平行语料库结合,利用HowNet提供的语义知识和藏汉平行语料库提供的藏汉对译信息,为藏汉平行语料库藏语句子中歧义词汇选择合适汉语义项的方法,以此初步构建带有词义标注信息的藏汉平行语料库。本文主要做了如下工作:1)改进词语相似度计算方法:在传统使用义原语义距离计算相似度方法基础上,将最低公共父节点高度与义原层次高度差融入计算方法中。同时提出一种建立在HowNet语义角色上的辅助性相关度计算方法。2)结合藏汉平行语料库与HowNet研究藏文词义消歧方法:该方法的主要步骤是:在对语料进行分词和词性标注等预处理后,通过藏汉词典为藏文语料中词汇收集汉语义项,确定歧义词汇;通过计算藏文语料对应汉语译文中上下文词汇与义项的相似度和相关度选择合适词义。在经过词法分析预处理的藏汉对照句子上实验可得到55.04%的平均词语级准确率,在选择的语料上实验获得50.4%的平均句级准确率。3)结合基于语义知识的网络图方法研究藏文词义消歧方法:针对前一种方法中存在的上下文环境与义项之间数据稀疏问题,提出利用HowNet提供的丰富语义信息为义项构建语义关系图,通过计算上下文环境与语义关系图中关系项的相关度得到义项选择参数,根据义项选择参数选择当前歧义词汇的合适义项。经过实验,该方法的平均句级消歧准确率比使用上下文环境与义项计算相似度与相关度消歧方法提升3.7%,词汇级平均消歧准确率提升3.12%。(本文来源于《中央民族大学》期刊2015-05-10)

鹿文鹏,黄河燕[4](2013)在《基于依存适配度的知识自动获取词义消歧方法》一文中研究指出针对困扰词义消歧技术发展的知识匮乏问题,提出一种基于依存适配度的知识自动获取词义消歧方法.该方法充分利用依存句法分析技术的优势,首先对大规模语料进行依存句法分析,统计其中的依存元组信息构建依存知识库;然后对歧义词所在的句子进行依存句法分析,获得歧义词的依存约束集合;并根据WordNet获得歧义词各个词义的各类词义代表词;最后,根据依存知识库,综合考虑词义代表词在依存约束集合中的依存适配度,选择正确的词义.该方法在SemEval 2007的Task#7粗粒度词义消歧任务上取得了74.53%的消歧正确率;在不使用任何人工标注语料的无监督和基于知识库的同类方法中,取得了最佳的消歧效果.(本文来源于《软件学报》期刊2013年10期)

常娥,张长秀,侯汉清,惠富平[5](2013)在《基于向量空间模型的古汉语词义自动消歧研究》一文中研究指出借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。(本文来源于《图书情报工作》期刊2013年02期)

吴志隆[6](2012)在《信息处理用“一X”词的自动识别与消歧研究》一文中研究指出本文以信息处理为目标,以“一X”词为研究对象,在考察大规模语料的基础上,研究“一X”词的自动识别与识别过程中可能遇到的歧义消解问题。全文共分为叁个部分:第一部分是绪论,确定研究对象,阐述选题的目的和意义,综述“一X”词的研究现状,介绍本文的研究思路与拟采用的理论方法,最后交代语料来源。第二部分是正文,包括第一章至第五章。第一章是“一X”词的用法考察。本章依据“一X”词的词性对其进行分类,逐一考察它们的用法,分析其句法分布与制约因素,并进行词频统计。然后,对各种句法环境做总结,为下文提取算法规则服务。第二章是非句法结构“一X”的考察与歧解。本章首先考察非句法结构“一X”的左右边界特征,以及“一X”作为语素组的情况,然后在此基础上研究非句法结构“一X”的歧义消解策略。第叁章是短语结构“一X”的考察与歧解。本章首先考察短语结构“一X”的用法特征,并进行频度统计,再对比分析同形“一X”作为短语和词的异同。然后在此基础上探讨短语结构“一X”的歧义消解策略。第四章是词表与规则库构建。本章在前叁章的基础上,建立“一X”词自动识别时所需的词表,总结提取相应的规则,并对规则表述进行形式化。第五章是算法设计与实现。本章在第四章的基础上,进行算法设计,并编写程序代码,进行编程测试,然后报告测试结果。第叁部分是结语(即第六章)。本章总结全文研究成果和研究意义,分析存在的不足和尚需解决的问题,并展望后续研究努力的方向。(本文来源于《上海师范大学》期刊2012-04-01)

车超[7](2010)在《知识自动获取的词义消歧方法》一文中研究指出随着互联网的兴起,以论坛、博客等自然语言形式保存的知识以指数级的速度增长,对这些知识的挖掘和利用对自然语言处理技术提出了更高的要求。人类语言中广泛存在的歧义性给自然语言处理技术带来了困难。作为在词语级别消除语言歧义性的方法,词义消歧在机器翻译、信息检索、信息抽取等许多自然语言处理任务中有广泛的应用,并对提高其性能有关键的作用。但知识获取瓶颈问题影响了词义消歧在实践中的推广和应用。知识获取瓶颈问题是指词义消歧方法由于获取消歧知识困难或缺乏消歧知识而对某些歧义词不能消歧或不能正确消歧的问题。该问题严重限制了词义消歧系统的性能提升,是词义消歧系统走向实用化的绊脚石。基于上述应用背景,在国家863高技术发展计划和国家自然科学基金的资助下,以面向创新设计的专利检索系统为背景,本文研究自动获取消歧知识的词义消歧方法。本文试图从不同的角度,以及以不同方法从不同的知识源中获取知识,并将不同的知识糅合在一起,缓解词义消歧中的知识获取瓶颈问题。本文工作主要分为以下方面:(1)为了充分利用知网中所蕴藏的消歧知识,本文提出了一种基于知网中义原关系的多策略相结合的词义消歧方法。该方法在对歧义词根据词性进行类别消歧后,再根据歧义词的上下文中存在的义原关系,分别利用义原间的部件.整体关系、属性.宿主关系和值-属性关系进行消歧。如果不能消除歧义,则继续进行基于中文信息结构和语义相关度的消歧。该方法使用的多种策略特点不一,基于部件.整体关系的消歧和基于属性.宿主关系的消歧作用于名词,基于值-属性关系的消歧对形容词作用,基于中文信息结构和语义相关度的消歧通用性较强。多种策略结合在一起消歧,既能使这些不同特点的策略互为补充,又能最大限度的挖掘知网中的消歧知识以提高消歧的准确率。(2)为了提高使用等价伪词自动获取标注语料的质量,本文提出一种双层过滤的自动获取标注语料的方法。“双层过滤”是对自动获取的语料从等价伪词和句子两个层面上对样本(句子)进行过滤。在等价伪词层面上,该方法根据候选词和目标词的上下文相似度,在目标词的单义同义词中筛选出语义和目标词最接近的词作为等价伪词。在句子层面上,对使用等价伪词获取的例句,根据样本与目标词的上下文共现频度进行过滤,删除了不适合用作消歧的噪声实例。两种粒度不同的过滤措施结合在一起使用,使我们获得了质量更好的标注语料。(3)针对自动标注语料和人工标注语料的缺点,本文给出了一种将自动标注语料和人工标注实例相结合的词义消歧方法。该方法一方面借助人工标注语料为某些无等价伪词的词义提供消歧实例,并利用标注语料计算各词义的分布概率。另一方面使用等价伪词自动获取大量的标注语料,弥补人工标注语料数量上的不足。该方法使两种语料相辅相成,更好的发挥了它们在词义消歧中的作用。此外,本文还提出一种基于语义关联图的词义消歧方法,尝试将知网、未标注语料和标注语料综合在一起表示为语义关联图进行消歧。最后,本文将词义消歧方法应用在文本分类中,提出一种概念与词形相结合的特征表示方法。本文提出的四种消歧方法都在词义消歧评测会议Senseval-3 (2004)的汉语词汇采样任务进行了测试。所有方法都接近或超过当时参加评测的其它有指导方法,表明了本文方法的有效性。本文第一种方法利用知网中义原间的语义关系和语义距离进行消歧,充分挖掘了知网中的消歧知识,第二种方法利用等价伪词自动获取标注语料,解决了基于语料库的方法缺乏标注语料的问题,第叁种方法将自动标注语料和人工标注语料结合在一起消歧,分别发挥了自动标注语料的数量优势和人工标注语料的质量优势。本文针对词义消歧的知识获取瓶颈问题,从不同的方面获取消歧知识,提高词义消歧的覆盖率和准确率,期望有助于词义消歧的知识获取瓶颈问题的研究。(本文来源于《大连理工大学》期刊2010-04-01)

史天艺,李明禄[8](2009)在《基于维基百科的自动词义消歧方法》一文中研究指出针对传统词义消歧仅基于上下文语境而导致准确率低的问题,提出一种多策略的无监督自动词义消歧方法。利用从维基百科在线中提炼出的丰富语义知识,线性融合上下文语境、背景知识和语义信息3大特征,根据逻辑回归算法学习各特征的权重,选取最大融合值所对应的候选项作为最优词义。在SENSEVAL数据集上取得了85.50%的平均准确率,验证了该方法的有效性。(本文来源于《计算机工程》期刊2009年18期)

何径舟,王厚峰[9](2008)在《基于特征自动选取的汉语词义消歧》一文中研究指出自然语言处理的许多问题都可以归结为分类问题,汉语词义消歧是一类典型的分类问题。在分类问题中,特征的选择至关重要。通常情况下,特征的选择由人工直接确定。这样的选取方式,要求选取者对于分类问题本身和机器学习模型的特点都有比较深刻的认识。本文设计了一套基于特征自动选取的Na(?)ve Bayes模型用于汉语词义消歧问题。大量的实验测试表明,自动特征选取方法选取的特征,在相同的训练数据集上.可以改进词义消歧效果。(本文来源于《第四届全国学生计算语言学研讨会会议论文集》期刊2008-07-01)

刘鹏远[10](2008)在《基于知识自动获取的无指导译文消歧方法研究》一文中研究指出这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了叁种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。(本文来源于《哈尔滨工业大学》期刊2008-06-01)

自动消歧论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度。本文通过传统藏文文法和语法规则,主要研究并提出了叁种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库。使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自动消歧论文参考文献

[1].张旺强,祝忠明,李雅梅,卢利农,刘巍.机构知识库作者名自动消歧框架设计与实践[J].数据分析与知识发现.2019

[2].卓玛吉.藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究[J].电脑与电信.2018

[3].姜新民.基于汉藏平行语料的藏文词义自动消歧方法研究[D].中央民族大学.2015

[4].鹿文鹏,黄河燕.基于依存适配度的知识自动获取词义消歧方法[J].软件学报.2013

[5].常娥,张长秀,侯汉清,惠富平.基于向量空间模型的古汉语词义自动消歧研究[J].图书情报工作.2013

[6].吴志隆.信息处理用“一X”词的自动识别与消歧研究[D].上海师范大学.2012

[7].车超.知识自动获取的词义消歧方法[D].大连理工大学.2010

[8].史天艺,李明禄.基于维基百科的自动词义消歧方法[J].计算机工程.2009

[9].何径舟,王厚峰.基于特征自动选取的汉语词义消歧[C].第四届全国学生计算语言学研讨会会议论文集.2008

[10].刘鹏远.基于知识自动获取的无指导译文消歧方法研究[D].哈尔滨工业大学.2008

标签:;  ;  ;  ;  

自动消歧论文-张旺强,祝忠明,李雅梅,卢利农,刘巍
下载Doc文档

猜你喜欢