导读:本文包含了句子特征论文开题报告文献综述及选题提纲参考文献,主要关键词:句子相似度,结构相似度,语义相似度,本体
句子特征论文文献综述
翟社平,李兆兆,段宏宇,李婧,董迪迪[1](2019)在《多特征融合的句子语义相似度计算方法》一文中研究指出针对句子语义相似度计算问题,综合考虑句子的结构信息与语义信息,提出一种多特征融合的句子语义相似度计算方法。提取句子的词形特征、词序特征及句长特征,使用层次分析法进行权重分配,计算结构相似度;利用本体图中最短路径定义语义距离,基于语义距离计算句子语义相似度;对结构相似度和语义相似度进行特征加权,构建多特征融合的句子语义相似度计算方法。实验结果表明,该方法取得了72.5%的F-度量值,与传统余弦相似度和基于关键词的相似度算法相比提高了12%。(本文来源于《计算机工程与设计》期刊2019年10期)
翟家欣,高盛祥,余正涛,文永华,郭军军[2](2019)在《基于句子特征向量的汉-越伪平行句对抽取》一文中研究指出从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显着提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。(本文来源于《山西大学学报(自然科学版)》期刊2019年04期)
马语丹[3](2019)在《结合实体共现信息与句子语义特征的关系抽取》一文中研究指出随着信息技术的迅猛发展,互联网的广泛使用降低了信息的生产和传播成本,为群众获取信息带来了极大的便利。但随之而来的信息爆炸等问题,也给有效信息的获取和管理带来了艰巨的挑战。因此,如何从互联网上海量文字信息中,采用信息抽取方法获取信息的本质,服务于后续的信息管理与应用,具有重要意义。关系抽取作为信息抽取领域的重要任务,得到了研究学者的广泛关注。目前主流的关系抽取方法多以实体对所在句子为输入,使用神经网络的方法,为实体对提取语义特征,或加入外部信息作为补充,来进行关系分类。这类方法忽略了语料中可能存在句子长度较短、外部信息获取困难等问题。为了克服这些问题,本文从语料集的角度出发,认为其包含了对关系抽取可能有用的全局信息,并以此为基础提出了新颖的关系抽取方法,通过构建实体共现网络,同时提取全局上下文特征和句子级上下文特征,充分挖掘语料集中的宏观和微观上下文信息,实现关系分类。首先,标注了两个中文关系分类数据集。当前关系分类实验数据集较为匮乏,己有研究中使用的数据集多为英文数据集,如SemEval-2010和NYT-2010。考虑到中文和英文之间存在一定的差异,根据百度百科和新闻语料人工标注了两个用于关系分类的中文数据集,目前己将数据集开源。其次,提出了融合关系影响力与句子级特征的关系抽取模型(RASNN)。考虑到关系与关系之间的相互影响和制约,语料集中任意实体对之间的弱关系都可能成为关系分类的依据,本文提出了关系影响力的概念,通过使用注意力机制为实体共现网络中的共现关系计算影响力权重,并结合句子级上下文特征进行关系分类。该模型能够从宏观和微观两个角度为实体对抽取上下文特征,弥补了可能存在的因句子长度太短而造成的上下文信息不充分的问题。接着,提出了基于实体共现网络与句子语义信息的关系抽取模型(CNSSNN)。鉴于关系有强弱之分,实体的不同共现实体也应该有不同的重要程度,CNSSNN模型采用注意力机制为实体的不同邻居实体和实体对的共同邻居实体计算关系权重,并通过Bi-GRU和自注意力机制提取句子级上下文特征,深度挖掘实体对的宏观语料级上下文特征和微观句子级上下文特征。最后,将本文提出的RASNN模型、CNSSNN模型和当前主流的关系抽取方法在四个数据集上进行了对比实验和分析,结果表明,本文提出的模型能够通过实体共现网络挖掘实体对的语料级上下文特征,为句子级上下文特征提供有效的补充,关系抽取效果明显优于现有的关系抽取方法。(本文来源于《北京交通大学》期刊2019-05-01)
郭宝震[4](2019)在《基于深度特征提取的句子分类模型研究》一文中研究指出随着互联网的蓬勃发展,海量的文本信息正在不断涌现,这些信息在新闻资讯、电子商务、舆情监测等场景具有重要的价值。分类是对文本信息有效利用并解决上述实际场景需求的重要技术手段,而这些文本信息作为分类对象往往以单个语句或若干个词语拼接成的短句的形式出现,因此构建一个具有良好性能的句子分类模型是尤为关键的。句子分类的研究具有重要的应用价值。由于句子普遍具有长度短、新词多、重复成分少等特点,基于统计学习思想的句子分类方法往往需要耗费大量精力针对具体分类任务中句子的特点进行特征提取和选择,同时对于新的分类场景,需要重新构建特征,普适性较差。这些缺点在一定程度上限制了此类方法在句子分类问题中的应用。深度学习在自然语言处理领域的应用推动了句子分类问题的研究,近年来的研究表明,卷积神经网络能够通过词向量有效地应用在句子分类问题中。用于句子分类的卷积神经网络虽然能够提取句子中的局部特征,但忽视了在具体分类任务下,句子中不同的词语对分类结果的重要性有所不同,同时不同部分的词语间往往存在关联信息,此外,每个词对应的词向量表示受限于单一词向量训练方法,以上方面均影响最终提取的用于分类的句子特征。本文针对上述存在的问题进行了深入研究,主要内容如下:1)提出基于强化语义特征提取的卷积循环神经网络句子分类模型。该模型首先通过选取训练集每个类别中重要的词序列构造带有语义特征的卷积核,强化句子中对分类结果重要的词序列的语义特征提取,然后通过对词向量矩阵的卷积和局部池化提取句子的局部特征并保留句子的序列性,之后将局部特征作为循环神经网络的输入获取句子中的长距离依赖信息得到句子全局特征表示,最后通过全连接层和Softmax函数得到分类结果。模型强化了语义特征的提取能力,同时结合了卷积神经网络和循环神经网络的优势。2)提出基于强化语义特征提取的双路神经网络句子分类模型。针对句子中每个词对应的词向量表示受限于单一词向量训练方法的问题,在强化语义特征提取的基础上,以不同训练方法得到的词向量同时作为输入,构建双路卷积循环神经网络句子分类模型,并提出双路卷积神经网络句子分类模型作为对比,有效利用了不同种类的词向量得到更加丰富的句子特征。本文在多个公开数据集上对所提出的模型进行实验,并与多个已有的用于句子分类的模型进行对比。实验结果表明,本文所提出的模型在句子级情感分类和问题分类等不同的分类任务中具有良好的效果。(本文来源于《吉林大学》期刊2019-04-01)
刘小路[5](2018)在《重庆巫溪五句子歌的艺术特征及艺术价值探析》一文中研究指出巫溪五句子山歌是当地人民非常喜爱的一种山歌形式,它的艺术特征主要有方言声调悠长高亢、节奏自由、非方正非对称结构、歌词内容源于生活、川味十足、通俗易懂等。其艺术特征鲜明,演唱形式融合多民族唱法,地域特征明显。对于研究民族民间音乐,传承优秀民族民间文化,丰富民族民间音乐内容,保护民族民间文化遗产,具有较高的艺术价值。(本文来源于《黄河之声》期刊2018年21期)
扎西吉,罗巴[6](2018)在《基于虚词和句尾词特征的藏语句子抽取方法》一文中研究指出语料中抽取句子是藏语自然语言处理领域中一项关键技术,在句型研究、句法分析、语义分析、语用分析、问答系统和机器翻译等很多领域都有广泛的应用前景.文章在分析藏语句尾词性和虚词特征的基础上,提出了一种基于虚词和句尾词特征的藏语句子抽取方法,即从文本串的单垂符或双垂符开始,通过逆向搜索虚词的位置节点和句尾词性抽取藏语句子.实验表明,该方法抽取藏语句子的准确率可达98.9%以上,抽取句子的数量明显提高.(本文来源于《西北民族大学学报(自然科学版)》期刊2018年04期)
马语丹,赵义,金婧,万怀宇[7](2018)在《结合实体共现信息与句子语义特征的关系抽取方法》一文中研究指出实体关系抽取是信息抽取领域的重要任务之一,也是知识图谱构建的一个关键环节.现有的关系抽取方法大多都是围绕实体对从句子中抽取上下文语义特征,然后进行关系分类,这忽略了实体在整个语料集中的全局上下文特征.本文提出了一种新颖的结合实体共现信息与句子语义信息的神经网络(CNSSNN)模型,用于实体关系抽取.该模型首先构造整个语料集蕴含的实体共现关系网络,并通过引入注意力机制有侧重地提取实体的网络环境信息,从而为各个实体生成语料级全局上下文特征,同时利用双向门控循环单元网络(bi-GRU)为实体对提取句子级上下文语义特征,最后将语料级特征和句子级特征结合起来,进行实体关系抽取.在公开数据集和人工标注的数据集上的实验结果表明,本文提出的方法其准确率和召回率要明显优于其他现有方法.(本文来源于《中国科学:信息科学》期刊2018年11期)
陈志明[8](2018)在《基于神经网络特征的句子级别译文质量估计》一文中研究指出机器翻译质量估计对于机器翻译的发展起着重要的作用,它是最近兴起的一个研究方向。不同于传统的机器翻译自动评价方法,使用质量估计方法评价机器译文的质量不需要借助人工参考译文,这一特性使得质量估计方法相比于传统自动评价方法,具有更强的灵活性和实用性。目前常见的句子级别译文质量估计方法大多依赖于句子的语言学分析提取特征,这些方法不能在所有语言之间通用。针对这个问题,有部分研究者开始提出利用神经网络的方法提取特征用于句子级别质量估计任务。Shah等人提出利用连续空间语言模型提取句子语言模型概率、句子向量特征、句子交叉熵特征用于句子级别质量估计任务。连续空间语言模型是一种前馈神经网络语言模型,输入是固定长度的词序列,随着隐层数目和隐单元数目的增加该模型计算复杂度将急剧增加。本文在Shah等人的工作基础上进行研究,首先,我们分别利用连续空间语言模型、上下文单词预测模型、基于词语共现关系模型提取句子向量特征,并对他们提取的句子向量特征进行对比。其次,我们利用循环神经网络语言模型提取句子交叉熵特征,与句子向量特征共同用于句子级别译文质量估计任务。考虑到句子向量特征和句子交叉熵特征都是单语特征,适用于反映翻译难度和流利度,但是在翻译的忠实度信息方面作用很小。为了进一步提取反映翻译忠实度的特征,我们训练一个神经机器翻译系统,利用此系统提取翻译词对齐特征,来衡量翻译的忠实度。最终,在基准特征的基础之上,我们将本文提取的神经网络特征与之组合,发现评估结果相比于baseline系统有了巨大的提升,并且我们获得的结果优于Shah等人,说明本文提取的神经网络特征能够捕获更多的翻译质量信息。(本文来源于《江西师范大学》期刊2018-06-01)
马建红,杨浩,姚爽[9](2018)在《基于自动编码器的句子语义特征提取及相似度计算》一文中研究指出句子特征提取与相似度计算是自然语言处理中的重要问题.目前汉语句子相似度计算方法不能全面考虑句子语义,因而导致相似度计算结果不够准确.提出了基于深层稀疏自动编码器的句子语义特征提取及相似度计算算法.首先将句子表示为高维、稀疏向量,进一步利用深度无监督学习句子非线性特征,即将高维、稀疏向量变换到低维、本质特征空间,此过程是一种更为纯粹的端到端的学习,避免了建立停用词表、分词等工作,最终得到可直接用于句子相似度计算的低维特征表示.实验结果表明,提取到的句子特征应用于句子相似度计算,与基于关系向量模型的句子相似度计算方法相比,提高了相似度计算准确率,计算的时间复杂度仅为O(n).(本文来源于《郑州大学学报(理学版)》期刊2018年02期)
王茂全[10](2018)在《深度特征学习在句子文本分类中的研究及应用》一文中研究指出文本分类是自然语言处理(Natural Language Processing,NLP)中的一项基础研究任务,而文本特征表示是分类任务的基石,其表征质量直接影响分类器性能。因此,研究高质量的文本特征表示尤为重要。近年,如火如荼的深度学习技术展现出强大的特征自动提取能力,并在多数自然语言处理任务中取得令人满意的效果。将深度特征学习应用到文本分类任务的过程中,存在以下叁个影响模型最终分类性能的挑战:1)如何得到较好的词向量来表征单词;2)如何更好的提取并结合单词之间的信息;3)如何使最终句子向量能准确、全面地包含文本语义。针对以上叁个机遇,本文依次展开以下叁方面的工作:首先,本文提出一种新的门机制用于在单词表征的过程中字符(Character)和词(Word)的结合,以得到信息更加丰富的词向量。在词向量化的过程中,大量未登录词(Out of Vocabulary,OOV)被模型直接抛弃或随机初始化的做法严重影响模型最终分类性能。为解决这一问题,并且考虑到从字的角度构建单词更容易捕获词的形态学特征,本文同时从字级别和词级别的角度去建模单词,提出一个新的基于双边门机制的文本表征与分类模型。该工作在2018年国际标准语义测评SemEval的多语言绘文字(Emoji)预测任务中,取得远超过基准模型的成绩。相关系统描述论文发表于2018年的SemEval研讨会(Workshop)。然后,本文提出一种基于多注意力矩阵的句子表征方法进行文本分类。在文本分类任务中,注意力机制因其出色表现已得到广泛应用,但现存的注意力机制仍存在局限:利用单一向量同时提取文本在多类别下的特征,导致模型混乱度高。本文提出基于类别的多注意力机制矩阵从各个类别角度分别提取文本特征,提升注意力机制的纯度来优化分类模型。相关系统在2017年NLPCC的新闻标题分类任务中获得第四名,其论文发表于2018年IJCNN(CCF-C类)会议。最后,本文提出一种基于句子中心的文本表征优化方法。现存的深度学习分类模型在得到文本表征后直接将文本向量通过Softmax函数进行分类,没有考虑在得到文本向量后的优化问题。但在文本表征空间,相同类别下的样本应具有相似的实数向量,换而言之,类似的样本向量应当聚在一起。于是本文提出一个由全局类别中心向量约束的神经网络框架来优化文本表征,并进行文本分类。本文提出的类别中心向量用于辅助神经网络模型从类别全局的视角来抽取文本的类别特征,这部分工作发表在2018年的PAKDD(CCF-C类)会议上。本文在SST2、Yelp13、Yelp14、NLPCC2017、Twitter Emoje等多个真实公开的文本分类数据集和不同的文本分类任务上完成了大量实验。充足的实验结果表明,本文所提的叁个模型都很好地应对了前文所述的叁个挑战,并都获得模型分类性能的提升。(本文来源于《华东师范大学》期刊2018-05-01)
句子特征论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显着提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
句子特征论文参考文献
[1].翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计.2019
[2].翟家欣,高盛祥,余正涛,文永华,郭军军.基于句子特征向量的汉-越伪平行句对抽取[J].山西大学学报(自然科学版).2019
[3].马语丹.结合实体共现信息与句子语义特征的关系抽取[D].北京交通大学.2019
[4].郭宝震.基于深度特征提取的句子分类模型研究[D].吉林大学.2019
[5].刘小路.重庆巫溪五句子歌的艺术特征及艺术价值探析[J].黄河之声.2018
[6].扎西吉,罗巴.基于虚词和句尾词特征的藏语句子抽取方法[J].西北民族大学学报(自然科学版).2018
[7].马语丹,赵义,金婧,万怀宇.结合实体共现信息与句子语义特征的关系抽取方法[J].中国科学:信息科学.2018
[8].陈志明.基于神经网络特征的句子级别译文质量估计[D].江西师范大学.2018
[9].马建红,杨浩,姚爽.基于自动编码器的句子语义特征提取及相似度计算[J].郑州大学学报(理学版).2018
[10].王茂全.深度特征学习在句子文本分类中的研究及应用[D].华东师范大学.2018