导读:本文包含了多特征抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:观点句抽取,双语词嵌入,注意力机制
多特征抽取论文文献综述
林思琦,余正涛,郭军军,高盛祥[1](2019)在《融入多特征的汉越新闻观点句抽取方法》一文中研究指出该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用,因此将这些特征分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合。实验表明,该方法可有效提升越南语新闻观点句抽取的准确率。(本文来源于《中文信息学报》期刊2019年11期)
李卫疆,李涛,漆芳[2](2019)在《基于多特征自注意力BLSTM的中文实体关系抽取》一文中研究指出实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016Task 3和英文SemEval 2010Task 8数据集上的实验表明该方法表现出了较好的性能。(本文来源于《中文信息学报》期刊2019年10期)
陈振彬,叶颖雅,冯浩男,李明轩,陈珂[3](2019)在《多特征融合与注意力机制的中文文本关系抽取》一文中研究指出在中文关系抽取任务中,数据稀疏和噪声传播问题是其研究难点。基于此,提出了在文本特征组织方面融合位置特征、最短依存特征和N-gram特征等多元特征,并提升关键性特征的权重,以缓解传统词特征的数据稀疏问题。这种组合特征进一步改善了文本中噪声传播问题,提高了句法特征在稀疏性问题下的可靠性。此外,在传统的双向LSTM神经网络中加入注意力机制,使模型更关注较为重要的特征,降低噪声对抽取任务的影响。在人物关系公开语料集上进行实验,结果表明采用该方法进行中文文本关系抽取的效果较好,并为信息抽取、知识图谱等领域提供了方法支持。(本文来源于《广东石油化工学院学报》期刊2019年04期)
戴玉珠[4](2019)在《基于词嵌入和多特征融合的自动关键词抽取算法》一文中研究指出信息技术的飞速发展使得各个领域的信息呈现爆炸式增长。为了快速有效地从海量文本中获取所需的信息,人们通常需要借助能涵盖文本主旨的若干重要词汇,亦即,关键词。然而,目前绝大多数文本尚未提供关键词,这不利于文本信息的有效获取和处理。为了解决这个问题,人们提出了自动关键词抽取技术,即,由计算机根据某种方法从文本中自动抽取相应的关键词,并设计了为数众多的关键词抽取算法。然而,现有的关键词抽取算法大多需要依赖文本语料数据集,而且存在计算复杂度高、适用性弱、抽取精度低等问题。因此,针对自动关键词抽取算法的研究方兴未艾,而且在大数据时代背景下获得愈来愈多的关注。基于上述背景,本文对自动关键词抽取展开研究,主要提出了两种自动关键词抽取算法,即,基于位置加权词频统计的关键词抽取算法(PW_TF)以及基于多特征融合和图模型的关键词抽取算法(MF_Rank)。PW_TF的主要思想是利用词语的统计特征和结构特征来表征关键词,其中,统计特征刻画的是词语在文本中出现的频次信息,结构特征体现的是词语在文本中出现的位置信息,而且,不同位置的词语具有不同的重要性。PW_TF简单易行,但只考虑了词语的位置和频次信息,而没有考虑词语的语义信息。MF_Rank是在经典的图模型算法(如,TextRank)基础上进行改进而提出的,其主要思想是除了利用词语的统计特征和结构特征,还利用通过词嵌入技术提取的词语语义特征,亦即进行多特征融合,获得词语自身(图的节点)的重要性权重以及词语之间(图的边)的吸引力权重,进而通过图模型算法迭代计算每个词语的最终权重,以此确定抽取的关键词。为了验证算法的性能,在叁个不同类型的数据集上进行了大量的仿真实验研究。实验结果表明,与已有的词频统计方法和图模型方法相比,本文提出的关键词抽取算法在性能方面最大分别能提升6.45%和20.36%;与PW_TF相比,MF_Rank可在性能方面获得1.76%的最大提升。本文提出的PW_TF和MF_Rank两种算法,无需依赖语料数据集,能直接用于单文本的关键词抽取,具有良好的适应性,实验结果也表明了它们是可行且有效的。(本文来源于《广东技术师范大学》期刊2019-06-27)
孙康康[5](2019)在《多特征融合的中文实体关系抽取研究》一文中研究指出词性等特征在句子中扮演着重要的角色,往往能揭示命名实体之间的关系,而当前的实体关系抽取任务大多仅基于词向量进行,忽视了词性等对实体关系抽取任务有益的特征。因此,文章采用了一种多特征融合的方式进行中文实体关系抽取模型的训练,在以词向量作为输入单元的前提下融合了句子中词语的词性、距离实体对的位置、实体标注相关特征,并以双向长短期记忆网络结合注意力机制的模型进行了中文实体关系抽取的实验,实验结果表明,基于多特征融合的训练方式提升了中文实体关系抽取的效果。(本文来源于《无线互联科技》期刊2019年09期)
王斌,郭剑毅,线岩团,王红斌,余正涛[6](2019)在《融合多特征的基于远程监督的中文领域实体关系抽取》一文中研究指出针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系叁元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.(本文来源于《模式识别与人工智能》期刊2019年02期)
杨雪梅,李静毅[7](2018)在《显微模糊图像多特征信息精准抽取方法》一文中研究指出显微图像具有对比度小,模糊度高,畸变影响性大等弊端,为了更好地提升显微图像的识别质量。需要进行显微模糊图像多特征信息抽取方法的研究。但是采用当前方法进行显微模糊图像多特征信息抽取时,无法抽取图像不同方向上的特征信息,存在特征信息抽取误差大的问题。为此,提出一种基于Gabor的显微模糊图像多特征信息精准抽取方法。该方法先利用分水岭的思想提取显微模糊图像中的最稳定极值区域,采用融合Canny算子及ROA算子给出图像不同方位特征点,计算出Log-Gabor径向滤波器传递函数和角度滤波器传递函数,利用Gabor滤波融合显微模糊图像各方向上的多特征信息,在此基础上进行显微模糊图像多特征信息精准抽取。仿真证明,所提方法特征信息抽取精度高,有效地提升了显微模糊图像的识别质量。(本文来源于《计算机仿真》期刊2018年04期)
高兆远[8](2017)在《基于多特征挖掘的网页信息抽取方法研究》一文中研究指出随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSS DOM节点选择算法来选择出网页正文内容所在节点。针对网页的CSS DOM节点的分类问题,本文提出基于多特征挖掘的CSS DOM节点分类算法。这个算法首先对网页CSS DOM节点提取网页文本统计特征、结构特征和视觉信息特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSS DOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSS DOM节点选择算法。该算法和基于多特征挖掘的CSS DOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。(本文来源于《哈尔滨工业大学》期刊2017-12-01)
王东波,叶文豪,吴毅,刘伙玉,苏新宁[9](2017)在《基于多特征时间抽取模型的食品安全事件演化序列生成研究》一文中研究指出为了更深入地挖掘食品安全事件中的特征和规律,本文提出了食品安全事件时间演化序列自动生成方法。首先从食品安全事件的时间构成、时间表达式左右边界特征、时间常用词叁方面分析了食品安全事件时间的表达特征。基于时间表达式的多种特征,采用基于条件随机场模型的方法对时间表达式进行识别,F值最高达90%。然后以含有时间表达式的"句"为单位,将一个事件分为多个"时间-事件"的组合,最后采用基于时间戳的逆向匹配法生成事件时间演化序列。该方法可用于分析食品安全事件的发展脉络与特征,以期为政府实施食品安全事件监控提供理论与技术支撑。(本文来源于《情报学报》期刊2017年09期)
叶辉,姬东鸿[10](2016)在《基于多特征条件随机场的《金匮要略》症状药物信息抽取研究》一文中研究指出目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法。方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注。结果基于多特征CRF自动标注的结果准确率达到84.5%,召回率达到70.9%,F测度值达到77.1%。结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息。(本文来源于《中国中医药图书情报杂志》期刊2016年05期)
多特征抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016Task 3和英文SemEval 2010Task 8数据集上的实验表明该方法表现出了较好的性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多特征抽取论文参考文献
[1].林思琦,余正涛,郭军军,高盛祥.融入多特征的汉越新闻观点句抽取方法[J].中文信息学报.2019
[2].李卫疆,李涛,漆芳.基于多特征自注意力BLSTM的中文实体关系抽取[J].中文信息学报.2019
[3].陈振彬,叶颖雅,冯浩男,李明轩,陈珂.多特征融合与注意力机制的中文文本关系抽取[J].广东石油化工学院学报.2019
[4].戴玉珠.基于词嵌入和多特征融合的自动关键词抽取算法[D].广东技术师范大学.2019
[5].孙康康.多特征融合的中文实体关系抽取研究[J].无线互联科技.2019
[6].王斌,郭剑毅,线岩团,王红斌,余正涛.融合多特征的基于远程监督的中文领域实体关系抽取[J].模式识别与人工智能.2019
[7].杨雪梅,李静毅.显微模糊图像多特征信息精准抽取方法[J].计算机仿真.2018
[8].高兆远.基于多特征挖掘的网页信息抽取方法研究[D].哈尔滨工业大学.2017
[9].王东波,叶文豪,吴毅,刘伙玉,苏新宁.基于多特征时间抽取模型的食品安全事件演化序列生成研究[J].情报学报.2017
[10].叶辉,姬东鸿.基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].中国中医药图书情报杂志.2016