导读:本文包含了实体属性抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:实体属性抽取,GRU,循环神经网络,条件随机场
实体属性抽取论文文献综述
王仁武,孟现茹,孔琦[1](2018)在《实体—属性抽取的GRU+CRF方法》一文中研究指出[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体—属性。[方法 /过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体—属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。(本文来源于《现代情报》期刊2018年10期)
尚琪[2](2017)在《特定领域实体属性关系抽取方法研究》一文中研究指出实体关系抽取是信息抽取的重要部分,它能够识别出实体之间的语义关系,作为语义网的基础,实体关系抽取被广泛应用在自动问答系统,信息检索,机器翻译等领域。关系抽取还是构建知识图谱的重要基础,随着万维网转变成语义网,知识图谱的构建变得尤为重要。领域实体间的属性关系是构建知识图谱的重要组成部分之一。对特定领域而言,领域实体属性关系对表达实体之间的语义关系有着重要的意义。本文主要针对中文领域的实体属性关系抽取,作了以下工作:(1)基于Distant Supervision(距离监督)的领域实体属性关系抽取方法,基于领域知识库和相关文本集来获取实体属性关系。关系类型为:景点-实例-属性值。针对旅游领域中的“景点”这个类型,抽取出与“景点”这个类型相关属性,如门票价格、面积等等。距离监督就是通过将知识库映射到文本集中实现关系抽取的过程,即如果一个实体对出现在知识库中,则将文本集中包含这两个实体的句子全部抽取出来,从这些句子中提取特征,训练分类器。本文首先构建一个小型的中文旅游领域知识库,在知识库中预先定义好属性关系和关系实例,并用这个知识库对应地从百度百科或维基百科网页上爬取得到的文本集。本文使用多种特征以提高分类器的性能,提高分类的性能。(2)基于卷积神经网络的领域实体属性关系抽取方法研究。本文提出基于卷积神经网络对领域实体属性关系进行抽取,其中属性关系类型为实例-属性、属性-属性值、实例-属性值。利用卷积神经网络的自动学习表征领域实体属性关系的句法特征、层级特征以及实体所在句子的文本特征,形成特征向量,加入到卷积神经网络中,训练实体属性关系分类模型。实验结果表明,所提出的方法能有效提高实体属性关系抽取性能。(本文来源于《昆明理工大学》期刊2017-05-01)
王潇斌[3](2017)在《基于语义分析的实体属性抽取方法研究》一文中研究指出实体属性抽取旨在从大规模语料中抽取给定实体的指定属性值。该任务有两个重要环节:从语料中检索实体的相关文档和从相关文档中抽取实体的属性值。针对前者存在的实体名称歧义问题,以及后者存在的标注数据缺乏问题,本文研究内容如下:(1)基于共指消解的实体归档方法研究实体属性抽取中的基本检索模型受限于实体名称歧义,检索结果准确率较低。因此,本文提出基于跨文档实体共指消解的实体归档方法,首先借助伪反馈机制对查询的背景信息进行补充,丰富共指消解的参考信息,然后使用共指消解方法对基本检索结果过滤优化。实验表明,本文提出的方法能够有效提高检索模块的性能。(2)基于定义语义约束的属性抽取方法针对实体属性抽取环节高质量训练语料缺乏的问题,本文提出一种基于定义语义约束的属性抽取方法。本文以属性的定义作为属性源的语义约束,借助反映待测句子与属性定义语义关系的特征,识别符合属性定义的约束的句子并从中抽取属性。实验证明该方法能够利用极少的训练语料获得优于基准系统的性能。(3)基于信息选择的属性抽取提升方法继续优化基于定义语义约束的属性抽取方法。针对其面临的“属性源重合”问题,通过句法树剪枝去除噪音信息,通过关键词识别保留关键信息,实现句子信息的精简。实验证明,这些改进有效提高了属性抽取的性能。(本文来源于《苏州大学》期刊2017-05-01)
刘倩,伍大勇,刘悦,程学旗,庞琳[4](2016)在《结合全局特征的命名实体属性值抽取》一文中研究指出关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力.(本文来源于《计算机研究与发展》期刊2016年04期)
刘倩,刘冰洋,贺敏,伍大勇,刘悦[5](2016)在《基于同义扩展的在线百科中实体属性抽取》一文中研究指出实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。(本文来源于《中文信息学报》期刊2016年01期)
苏丰龙,谢庆华,邱继远,岳振军[6](2016)在《基于深度学习的领域实体属性词聚类抽取研究》一文中研究指出属性词的聚类是领域实体属性抽取中的一个重要步骤。在未知领域和大量文本中,人工标注寻找十分困难。本文将一种基于深度学习框架的词语嵌入表示方法 (Word Embedding)引入到领域实体属性词聚类研究中,在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题,并进行了适当的扩展,取得了较好的效果,可以为信息抽取等后续高级任务提供较好服务。(本文来源于《微型机与应用》期刊2016年01期)
刘丽佳[7](2015)在《领域实体属性关系抽取方法研究》一文中研究指出领域实体属性关系抽取是信息抽取、构建特定领域的本体知识库和知识图谱的重要基础。因此,研究领域实体属性关系的抽取方法,是一项非常有意义的工作。本文对特定领域的非结构化自由文本中的领域实体属性关系抽取做了以下几方面的工作:(1)本文提出了一种基于LM算法的领域概念实体属性关系抽取方法。该方法将关系识别问题看作分类问题,利用BP神经网络的非线性映射能力强、自主学习能力强、可以反馈训练的优点,以及LM算法的全局优化性和收敛速度快等优点,构造神经网络分类器,对经过预处理的旅游领域语料进行实体属性关系抽取。相对于传统的SVM加推理规则的方法,该方法提高了实体属性关系抽取的性能。(2)为了加快神经网络的收敛速度,提高关系识别与抽取性能,在(1)的基础上,本文提出了一种基于PSO的改进LM算法的关系抽取方法。该方法在利用BP神经网络构造分类模型,并采用LM算法构造分类器的基础上,利用粒子群优化算法(PSO)对神经网络的初始连接权值进行优化,从而加快网络收敛速度,提高关系抽取的准确率。利用旅游领域的语料集进行测试,实验表明,相对于LM算法和PSO算法,这两个算法相融合的改进算法具有更好的可行性和准确率,适合用于实体属性关系识别与抽取中。(3)由于深度学习方法可以自动学习文本组合特征,比人工选取的特征更利于分类,本文提出了基于深度信念网络(DBN)的实体属性关系抽取方法。该方法利用多层无监督的RBM网络自动学习组合特征,利用一层有监督的BP神经网络训练关系分类器,并对DBN的参数进行微调,实现实体属性关系的识别与抽取。与(1)、(2)中的方法相比,该方法更适合于具有高维空间特征的信息抽取任务,具有良好的关系抽取效果。实验结果表明,以上方法提高了旅游领域自由文本中的实体属性关系的识别与抽取性能,为下一步构建旅游领域的本体知识库奠定了良好的基础。(本文来源于《昆明理工大学》期刊2015-03-01)
刘丽佳,郭剑毅,周兰江,余正涛,邵发[8](2014)在《基于LM算法的领域概念实体属性关系抽取》一文中研究指出针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果,F值提高了12.8%。(本文来源于《中文信息学报》期刊2014年06期)
曾道建,来斯惟,张元哲,刘康,赵军[9](2013)在《面向非结构化文本的开放式实体属性抽取》一文中研究指出从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.(本文来源于《江西师范大学学报(自然科学版)》期刊2013年03期)
冯二波[10](2008)在《领域实体属性及事件抽取技术研究》一文中研究指出目前,在自然语言处理领域中,信息抽取已经成为人们研究的热点。信息抽取系统获得的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。实体属性抽取和事件抽取作为信息抽取的两个方面,都侧重于为一些具体应用提供前期操作。实体属性抽取可以应用于定义新的实体、数据挖掘等实际应用,而事件抽取则可以应用于事件分类、事件跟踪等实际应用。本文采用自学习的方法进行实体属性抽取,利用最大熵模型进行事件抽取,具体的研究工作主要集中在以下几个方面:1.领域特征识别。领域特征识别是实体属性抽取的准备工作。本文采用自学习的方法进行领域特征识别,首先使用领域词汇作为种子词识别领域特征;然后根据领域特征总结得到的规则识别领域特征和相应的领域词汇;最后将新的领域词汇当作新种子词重新进行领域特征的识别,直到没有新的领域词汇出现。实验结果达到预期的效果。2.实体属性抽取。实体属性抽取的任务是抽取属性及属性值。本文的实体属性抽取建立在句法分析的基础之上,利用规则与统计相结合的方法实现。首先对已识别领域特征的文本流进行词法分析和句法分析,从得到的句法树中抽取出可能包含属性与属性值的句法块,进而从句法块中抽取出属性及相应的属性值。3.事件抽取。本文利用最大熵模型进行特定领域的事件抽取,首先分别使用统计和规则的方法识别事件元素对应的实体,然后通过最大熵模型判断事件元素是否属于该事件,从而实现事件抽取。该方法取得较好的实验结果。(本文来源于《哈尔滨工业大学》期刊2008-06-01)
实体属性抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
实体关系抽取是信息抽取的重要部分,它能够识别出实体之间的语义关系,作为语义网的基础,实体关系抽取被广泛应用在自动问答系统,信息检索,机器翻译等领域。关系抽取还是构建知识图谱的重要基础,随着万维网转变成语义网,知识图谱的构建变得尤为重要。领域实体间的属性关系是构建知识图谱的重要组成部分之一。对特定领域而言,领域实体属性关系对表达实体之间的语义关系有着重要的意义。本文主要针对中文领域的实体属性关系抽取,作了以下工作:(1)基于Distant Supervision(距离监督)的领域实体属性关系抽取方法,基于领域知识库和相关文本集来获取实体属性关系。关系类型为:景点-实例-属性值。针对旅游领域中的“景点”这个类型,抽取出与“景点”这个类型相关属性,如门票价格、面积等等。距离监督就是通过将知识库映射到文本集中实现关系抽取的过程,即如果一个实体对出现在知识库中,则将文本集中包含这两个实体的句子全部抽取出来,从这些句子中提取特征,训练分类器。本文首先构建一个小型的中文旅游领域知识库,在知识库中预先定义好属性关系和关系实例,并用这个知识库对应地从百度百科或维基百科网页上爬取得到的文本集。本文使用多种特征以提高分类器的性能,提高分类的性能。(2)基于卷积神经网络的领域实体属性关系抽取方法研究。本文提出基于卷积神经网络对领域实体属性关系进行抽取,其中属性关系类型为实例-属性、属性-属性值、实例-属性值。利用卷积神经网络的自动学习表征领域实体属性关系的句法特征、层级特征以及实体所在句子的文本特征,形成特征向量,加入到卷积神经网络中,训练实体属性关系分类模型。实验结果表明,所提出的方法能有效提高实体属性关系抽取性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
实体属性抽取论文参考文献
[1].王仁武,孟现茹,孔琦.实体—属性抽取的GRU+CRF方法[J].现代情报.2018
[2].尚琪.特定领域实体属性关系抽取方法研究[D].昆明理工大学.2017
[3].王潇斌.基于语义分析的实体属性抽取方法研究[D].苏州大学.2017
[4].刘倩,伍大勇,刘悦,程学旗,庞琳.结合全局特征的命名实体属性值抽取[J].计算机研究与发展.2016
[5].刘倩,刘冰洋,贺敏,伍大勇,刘悦.基于同义扩展的在线百科中实体属性抽取[J].中文信息学报.2016
[6].苏丰龙,谢庆华,邱继远,岳振军.基于深度学习的领域实体属性词聚类抽取研究[J].微型机与应用.2016
[7].刘丽佳.领域实体属性关系抽取方法研究[D].昆明理工大学.2015
[8].刘丽佳,郭剑毅,周兰江,余正涛,邵发.基于LM算法的领域概念实体属性关系抽取[J].中文信息学报.2014
[9].曾道建,来斯惟,张元哲,刘康,赵军.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报(自然科学版).2013
[10].冯二波.领域实体属性及事件抽取技术研究[D].哈尔滨工业大学.2008