名实体抽取论文-陈宇,郑德权,赵铁军

名实体抽取论文-陈宇,郑德权,赵铁军

导读:本文包含了名实体抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:DBN(deep,belief,nets),神经网络,关系抽取,深层网络

名实体抽取论文文献综述

陈宇,郑德权,赵铁军[1](2012)在《基于Deep Belief Nets的中文名实体关系抽取》一文中研究指出关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的语义关系.提出一种利用DBN(deepbelief nets)模型进行基于特征的实体关系抽取方法,该模型是由多层无监督的RBM(restricted Boltzmann machine)网络和一层有监督的BP(back-propagation)网络组成的神经网络分类器.RBM网络以确保特征向量映射达到最优,最后一层BP网络分类RBM网络的输出特征向量,从而训练实体关系分类器.在ACE04语料上进行的相关测试,一方面证明了字特征比词特征更适用于中文关系抽取任务;另一方面设计了3组不同的实验,分别使用正确的实体类别信息、通过实体类型分类器得到实体类型信息和不使用实体类型信息,用以比较实体类型信息对关系抽取效果的影响.实验结果表明,DBN非常适用于基于高维空间特征的信息抽取任务,获得的效果比SVM和反向传播网络更好.(本文来源于《软件学报》期刊2012年10期)

郑逢强[2](2009)在《本体在名实体信息抽取中的应用研究》一文中研究指出伴随着Internet的飞速发展,Web上出现了海量的信息资源,如何从这些浩如烟海的信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战。对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。本文首先简述了基于本体的信息抽取技术研究现状,分析了信息抽取系统体系结构,介绍了本体的基本知识,在此基础上,提出了一种基于本体的名实体信息抽取方法。在本方法中,将名实体信息抽取技术和本体结合起来,抽取自由文本、半结构文本中的名实体信息。本文具体的研究内容包括以下叁个方面:1.通用本体HowNet与最大熵相结合的名实体信息抽取。在最大熵模型的基础上,利用通用本体HowNet,抽取自由文本中的人名、地名、机构名等名实体信息。本文有两种策略使用HowNet:第一种将HowNet中概念的首义原作为特征加入到最大熵模型,用于提高最大熵模型的泛化性能。第二种利用HowNet提供的概念相似度接口,在不重新训练最大熵模型的情况下,利用概念相似度计算未抽取词语与模型中概念的相似度,以提高抽取效果。2.构建电子产品领域本体。首先介绍了领域本体的基本设计,领域本体有四层,包括有包含关系,概念与实例的关系,属性关系等叁种关系。然后收集领域术语,进行文档解析和模式提取,寻找概念间的关系,建立产品树,最后利用最小描述距离算法切分产品树,自动构建领域本体。3.基于领域本体的名实体信息抽取。本文使用了领域本体与改进的正向最大匹配算法,让其能够适应四层的本体库,本文采用的语料是百度知道的网络公共资源,抽取结果与手工抽取的结果对比,取得的实验效果从侧面验证了电子产品领域本体的效果,达到了相应的要求。(本文来源于《哈尔滨工业大学》期刊2009-06-01)

名实体抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

伴随着Internet的飞速发展,Web上出现了海量的信息资源,如何从这些浩如烟海的信息资源中寻找并获取有价值的信息和知识模式,已经成为信息处理领域的一个亟待解决的问题。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要挑战。对于一个领域的特殊应用来说,本体是一个非常有价值的资源,尤其在需要领域知识的情况下。本文首先简述了基于本体的信息抽取技术研究现状,分析了信息抽取系统体系结构,介绍了本体的基本知识,在此基础上,提出了一种基于本体的名实体信息抽取方法。在本方法中,将名实体信息抽取技术和本体结合起来,抽取自由文本、半结构文本中的名实体信息。本文具体的研究内容包括以下叁个方面:1.通用本体HowNet与最大熵相结合的名实体信息抽取。在最大熵模型的基础上,利用通用本体HowNet,抽取自由文本中的人名、地名、机构名等名实体信息。本文有两种策略使用HowNet:第一种将HowNet中概念的首义原作为特征加入到最大熵模型,用于提高最大熵模型的泛化性能。第二种利用HowNet提供的概念相似度接口,在不重新训练最大熵模型的情况下,利用概念相似度计算未抽取词语与模型中概念的相似度,以提高抽取效果。2.构建电子产品领域本体。首先介绍了领域本体的基本设计,领域本体有四层,包括有包含关系,概念与实例的关系,属性关系等叁种关系。然后收集领域术语,进行文档解析和模式提取,寻找概念间的关系,建立产品树,最后利用最小描述距离算法切分产品树,自动构建领域本体。3.基于领域本体的名实体信息抽取。本文使用了领域本体与改进的正向最大匹配算法,让其能够适应四层的本体库,本文采用的语料是百度知道的网络公共资源,抽取结果与手工抽取的结果对比,取得的实验效果从侧面验证了电子产品领域本体的效果,达到了相应的要求。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

名实体抽取论文参考文献

[1].陈宇,郑德权,赵铁军.基于DeepBeliefNets的中文名实体关系抽取[J].软件学报.2012

[2].郑逢强.本体在名实体信息抽取中的应用研究[D].哈尔滨工业大学.2009

标签:;  ;  ;  ;  ;  ;  

名实体抽取论文-陈宇,郑德权,赵铁军
下载Doc文档

猜你喜欢