二元关系抽取论文-徐力

二元关系抽取论文-徐力

导读:本文包含了二元关系抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:人物实体,关系抽取,信息增益,机器学习

二元关系抽取论文文献综述

徐力[1](2016)在《面向Web2.0的二元人物关系抽取研究》一文中研究指出随着计算机的发展,越来越多的信息出现在互联网上。但是如何从海量知识里通过自动化的手段,获取自己需求的信息成为了一个计算机领域的难题,在这种强烈的需求下,信息抽取技术应运而生。人物实体关系抽取作为信息抽取的一个重要分支,因为有着广阔的应用前景,而受到众多研究人员的关注。本文根据以往人物关系抽取的研究成果,针对传统关系抽取流程中存在关系描述词“多词同义”、抽取模板质量不高与判断人物实体关系计算量大等现象,融合了机器学习里半监督学习的特性、信息论里信息增益的特点与向量空间模型里文本相似性计算的性质,提出了一种新的面向Web2.0的二元人物关系抽取方法。针对上述不足,本文提出了以下改进方案:(1)针对中文语句中“多词同义”的现象,本文提出了一种基于众包模式的关系描述词扩展方法。通过人工给定部分特定关系描述词,利用《知网》与《同义词词林》进行第一次扩充,并把扩充后的集合分发给大众网络,让语言爱好者们对该集合进行第二次扩充,然后选取经过验证的同义词作为关系描述词。(2)本文提出了一种半监督学习与信息增益相融合的关系抽取模板生成算法。对于以往手工创造模板费时费力的不足,本文在模板创建的过程中,融入了半监督学习的方法。首先建立部分手工标注样本,在关系抽取模板建立过程中不断地自举迭代,从而产生更多的关系抽取模板,针对语句中每个词语由于所处位置的不同而携带不一样的信息量这一特点,本文利用信息增益相关理论来确定模板的上下文窗口值。(3)针对句子中含有多个可能包含目标关系的人物实体对的现象,本文提出了一种基于模板匹配的候选实体对筛选方法。该方法通过判断模板里的实体对与关系描述词之间的相对位置,进而筛选出句子中包含该相对位置信息的实体对作为候选实体对。(4)针对向量空间模型文本相似度计算中存在大量0*0=0的无效运算,本文提出了一种基于非零权重筛选优化的候选实体对验证方法,通过该方法可有效地优化特征权重矩阵的维度,并在相似性计算前进行非零权重判断,从而减少计算量。(本文来源于《华东交通大学》期刊2016-06-30)

刘一正[2](2014)在《基于信息增益的互联网二元关系抽取》一文中研究指出作为近年来自然语言处理领域的研究热点,关系抽取受到了越来越多研究学者的关注,已经发展成了信息抽取的子任务和关键技术之一。在以往关系抽取研究的基础上,本文针对关系抽取展开了一系列深入研究,结合信息论中信息增益的特性,提出了基于信息增益的互联网二元关系抽取方法,主要解决了关系关键词扩展、关系抽取模板获取、关系新元组生成等关键问题。本文的主要内容主要包括以下几个方面:1.本文提出了一种基于《知网》及《同义词词林》的关系关键词扩展方法。通过基于《知网》及《同义词词林》的词语相似度计算,该方法能在语义层面上,有效对关系关键词进行扩展,从而有效丰富关系挖掘语料。2.本文提出了一种基于信息增益的关系抽取模板的获取方法。该方法充分考虑了不同关系间语义特征及位置特征的差异,能针对某类关系的某个种子元组共现句生成对应关系抽取模板。3.本文提出了一种基于关系抽取模板分类的新元组生成方法。该方法能有效解决含多个实体的模板共现句的实体甄别问题。该方法首先根据模板的关系关键词位置,将关系抽取模板分类。根据此类别,从模板共现句中匹配得到候选实体对。然后,再根据一种基于上下文位置信息增益的模糊匹配算法得到最终关系新元组。基于以上方法,在传统半监督关系抽取过程的基础上,本文提出了一种基于信息增益的关系抽取流程。将2013年12月到2014年3月间百度的搜索结果作为实验数据集,实验结果表明,本文提出的关系抽取方法有效可行,对于给定的关系类型,能挖掘出实验数据集中的关系新元组,其中平均准确率达到92.3%,最高准确率可达96%,平均召回率达到86%,最高可达89%。(本文来源于《华东师范大学》期刊2014-03-01)

陈超[3](2013)在《基于互联网的二元实体关系抽取研究》一文中研究指出随着信息技术的快速发展和日益成熟,互联网得到了充分的发展并取得了长足的进步。越来越多的信息先于传统媒体被发布到互联网上从而带来了互联网数据的极大繁荣。然而,数据的急剧增加并没有带来知识的快速增长,反而为知识的获取带来极大的不便。因此,人们迫切地希望找到一种自动化的工具来对海量的数据和信息进行处理,从而实现知识的快速检索和定位。信息抽取正是在这种背景下产生的。而实体关系抽取作为信息抽取的一个重要环节和关键性子任务,也受到了众多研究者的青睐。目前,实体关系抽取技术主要分为基于知识工程的方法和基于机器学习的方法。基于知识工程的方法由于需要大量的人工参与,并且具有较强的领域相关性,因此,不适于在互联网等场合采用。而基于机器学习的方法按所需人工参与的多少分为监督的学习方法、半监督的学习方法和无监督的学习方法。其中,半监督的学习方法由于所需要的人工参与较少,并且具有较高的准确率和召回率,从而得到了广泛地应用。二元实体关系抽取问题是实体关系抽取中的基本问题,即运用自然语言处理的相关技术抽取两个实体间的关系。本文重点研究基于互联网的二元实体关系抽取问题,并探索了一种基于自举技术的实体关系抽取方法:首先,该方法对现有的基于自举技术的实体关系抽取过程中的两个关键的处理环节进行了改进;其次,该方法对现有的抽取过程进行了扩展。本文的研究主要包括:1.对现有的关系描述模式的构成和获取技术进行了分析和研究,并通过与信息增益的相关理论和研究成果相结合,提出并实现了一种基于信息增益的关系描述模式获取方法。通过该方法获取的关系描述模式能够有效地表达实体对间的关系。2.对现有的获取新关系元组的方法进行了研究,结合基于信息增益的关系描述模式获取方法,设计并实现了一种基于模式匹配的新关系元组获取方法。该方法能够有效地提高新关系元组获取的准确率和召回率。3.通过对中文中二元关系的表达方式进行深入的观察和统计分析,提出并实现了一种基于最小覆盖的关系元组验证方法。该验证方法能够大幅提高返回的关系元组的准确率。最后,本文以互联网作为基础语料库对提出的各种方法进行了性能评测,实验结果表明,本文提出的方法能够有效地提高二元实体关系抽取的准确率和召回率,从而验证了所提出的各个方法的有效性。(本文来源于《华东师范大学》期刊2013-04-01)

赵小明,朱洪波,陈黎,王亚强,秦湘清[4](2011)在《基于多分类器的金融领域多元关系信息抽取算法》一文中研究指出为深入分析金融领域文本信息给投资决策提供支持,研究了从中文文本中识别收购类事件描述句及抽取事件角色(即识别关系及关系的元)相关问题。在事件句的识别上,提出了基于SVM的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器算法使用不同的分类器来识别具有不同语义约束的角色。实验结果表明,多分类器的算法明显优于单分类的算法,角色识别的F-Measure可以提高1.9%。(本文来源于《计算机工程与设计》期刊2011年07期)

李志圣[5](2008)在《单类中心学习及其在二元关系抽取中的应用》一文中研究指出在互联网上进行二元关系抽取,是当前信息抽取的重要研究方向。为利用互联网的大量未标定语料,许多文献提出了基于self-training机制的学习方法:即在小标注集上训练初始系统,然后在系统运行过程中,自动标定可靠候选,重新训练,以改进系统性能。实践证明:上述方法在二元关系抽取中是行之有效的,但已有文献缺乏对学习过程的理论分析。本文首先将在二元关系抽取中的模式学习问题转化为单类文本中心的学习问题。在文本向量空间中,当初始中心被给定后,可将其足够小邻域内的文本向量作为自动标定数据。本文要解决的核心问题是:当数据集具有何种特性时,利用自动标定数据能确定地改进对单类中心的学习?为解决该问题,本文研究文本向量空间的分布特性。为克服高斯混合模型在描述具有硬聚类特性的数据分布时的缺点,本文提出了基于k-means算法划分区域的TGMK模型,并揭示了TGMK模型与k-means算法、高斯混合模型的密切联系。实验结果表明:TGMK模型适合描述多类文本数据。本文在k-means算法基础上提出了single-mean算法。文中证明:当多类数据集适合被1-TGMK的泛化模型—1-TGMR模型所描述时,新算法从目标类的初始中心出发,将收敛到实际中心。至此,完成了对核心问题的解答。实验表明了新算法在文本数据上的有效性,从而说明了self-training机制在二元关系抽取中的有效性。本文为二元关系抽取工作建立了基于single-mean算法的形式化学习模型,并针对在互联网上进行二元关系抽取的特殊性,提出了新的候选评分方法和自动标定方法。本文将学习模型应用到中文问答对和中英文术语对的抽取中。与前人工作不同的是:本文将self-training机制引入中文问答模式和中英文术语模式的学习中,使得系统对人工标定语料的依赖度减到最小;本文利用启发规则,改进模式和候选的评分方法。实验表明:与同类系统相比,新系统能在更小的标注集上,实现更优的性能。(本文来源于《天津大学》期刊2008-05-01)

二元关系抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

作为近年来自然语言处理领域的研究热点,关系抽取受到了越来越多研究学者的关注,已经发展成了信息抽取的子任务和关键技术之一。在以往关系抽取研究的基础上,本文针对关系抽取展开了一系列深入研究,结合信息论中信息增益的特性,提出了基于信息增益的互联网二元关系抽取方法,主要解决了关系关键词扩展、关系抽取模板获取、关系新元组生成等关键问题。本文的主要内容主要包括以下几个方面:1.本文提出了一种基于《知网》及《同义词词林》的关系关键词扩展方法。通过基于《知网》及《同义词词林》的词语相似度计算,该方法能在语义层面上,有效对关系关键词进行扩展,从而有效丰富关系挖掘语料。2.本文提出了一种基于信息增益的关系抽取模板的获取方法。该方法充分考虑了不同关系间语义特征及位置特征的差异,能针对某类关系的某个种子元组共现句生成对应关系抽取模板。3.本文提出了一种基于关系抽取模板分类的新元组生成方法。该方法能有效解决含多个实体的模板共现句的实体甄别问题。该方法首先根据模板的关系关键词位置,将关系抽取模板分类。根据此类别,从模板共现句中匹配得到候选实体对。然后,再根据一种基于上下文位置信息增益的模糊匹配算法得到最终关系新元组。基于以上方法,在传统半监督关系抽取过程的基础上,本文提出了一种基于信息增益的关系抽取流程。将2013年12月到2014年3月间百度的搜索结果作为实验数据集,实验结果表明,本文提出的关系抽取方法有效可行,对于给定的关系类型,能挖掘出实验数据集中的关系新元组,其中平均准确率达到92.3%,最高准确率可达96%,平均召回率达到86%,最高可达89%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

二元关系抽取论文参考文献

[1].徐力.面向Web2.0的二元人物关系抽取研究[D].华东交通大学.2016

[2].刘一正.基于信息增益的互联网二元关系抽取[D].华东师范大学.2014

[3].陈超.基于互联网的二元实体关系抽取研究[D].华东师范大学.2013

[4].赵小明,朱洪波,陈黎,王亚强,秦湘清.基于多分类器的金融领域多元关系信息抽取算法[J].计算机工程与设计.2011

[5].李志圣.单类中心学习及其在二元关系抽取中的应用[D].天津大学.2008

标签:;  ;  ;  ;  

二元关系抽取论文-徐力
下载Doc文档

猜你喜欢