导读:本文包含了句子相似度论文开题报告文献综述及选题提纲参考文献,主要关键词:句子相似度,词法层,句法层,语义层
句子相似度论文文献综述
翟社平,李兆兆,段宏宇,李婧,董迪迪[1](2019)在《基于词法、句法和语义的句子相似度计算方法》一文中研究指出为了解决现有句子相似度算法未考虑句子语义信息的问题,提出了一种基于词法、句法和语义的句子相似度计算方法.将句子相似度分为词法层、句法层、语义层3个层次.在词法层,通过构建句子的词汇相似度矩阵和数字序列相似度矩阵来计算词法相似度;在句法层,使用概念词汇转化成的RDF叁元组相似度来计算句法相似度;在语义层,基于本体树状结构中最短路径表示的语义距离来计算语义相似度.然后,提出句子语义相似度计算模型,采集图书领域句子对作为测试集,构建图书领域本体作为知识源.实验结果表明,所提方法具有更高的准确率和召回率,其F-度量值达0.649 9,与余弦相似度算法、基于编辑距离的算法和基于TF-IDF的算法相比分别提高约12%、17%和16%.(本文来源于《东南大学学报(自然科学版)》期刊2019年06期)
翟社平,李兆兆,段宏宇,李婧,董迪迪[2](2019)在《多特征融合的句子语义相似度计算方法》一文中研究指出针对句子语义相似度计算问题,综合考虑句子的结构信息与语义信息,提出一种多特征融合的句子语义相似度计算方法。提取句子的词形特征、词序特征及句长特征,使用层次分析法进行权重分配,计算结构相似度;利用本体图中最短路径定义语义距离,基于语义距离计算句子语义相似度;对结构相似度和语义相似度进行特征加权,构建多特征融合的句子语义相似度计算方法。实验结果表明,该方法取得了72.5%的F-度量值,与传统余弦相似度和基于关键词的相似度算法相比提高了12%。(本文来源于《计算机工程与设计》期刊2019年10期)
关晓菡,韩建辉[3](2019)在《基于双向字交互卷积网络的句子相似度计算》一文中研究指出为解决基于Siamese模型缺乏句子间交互的问题和基于匹配模型的匹配因子单一问题,提出双向字粒度交互的卷积神经网络模型。在输入侧通过建立句子交互序列改善Siamese模型交互问题;在特征提取侧和输出侧通过对交互序列进行卷积,建立动态匹配因子改善匹配模型的匹配因子单一问题。实验结果表明,该模型在语义相似性计算数据集Quora和自然语言推理数据集SNLI的准确度相较其它算法均有提升,验证了算法的有效性和可行性。(本文来源于《计算机工程与设计》期刊2019年08期)
周艳平,李金鹏,蔡素[4](2019)在《基于同义词词林的句子语义相似度方法及其在问答系统中的应用》一文中研究指出提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。(本文来源于《计算机应用与软件》期刊2019年08期)
刘继明,谭云丹,袁野[5](2019)在《基于平滑逆频率和依存句法的句子相似度计算方法》一文中研究指出综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"叁元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。(本文来源于《科学技术与工程》期刊2019年20期)
李霞,刘承标,章友豪,蒋盛益[6](2019)在《基于局部和全局语义融合的跨语言句子语义相似度计算模型》一文中研究指出跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。(本文来源于《中文信息学报》期刊2019年06期)
王闻慧[7](2019)在《基于谷歌翻译及Doc2vec的中英句子相似度计算》一文中研究指出句子相似度计算在统计机器翻译、基于实例的机器翻译与语料对齐领域有着巨大的研究价值。本文借助于谷歌翻译作为媒介,针对由Word2vec改进而来的表示句子向量的方法——Doc2vec模型,对中英句子相似度计算进行了研究。分别利用谷歌翻译将中文译文进行中文句向量训练及计算与英文译文的英文句向量训练及计算对比分析。实验结果表明,基于Doc2vec的方法在计算句子相似度方面,无论是中文句向量还是英文句向量,其作为句向量表达句子含义的准确性都还有待商榷。(本文来源于《电脑知识与技术》期刊2019年15期)
王明阳[8](2019)在《句子级和段落级的语义相似度算法的设计与实现》一文中研究指出随着自然语言处理技术的飞速发展,句子级语义相似度算法有了更多的应用场景,如从数据库中选出与用户问题最匹配的回答、从数据集中选出翻译效果最好的单词序列、以及文本分类和排序等等。段落级语义相似度算法同样具有较多的应用场景和较大的研究价值。相比句子,段落结构更复杂、维度更高,因此段落级语义相似度的研究难度更高。针对句子级和段落级语义相似度算法研究,本文的贡献主要有以下叁点:第一,采用自注意力机制中的多抽头注意力提取方法改进了句子级语义相似度算法。相较于长短期记忆网络的方法,本文提出的语义相似度算法有两点优势:1)可以得到多个特征图谱,从而实现多角度提取语义特征;2)能够直接计算句子中任意两个词语之间的语义关联度。改进后的句子级相似度模型相比基础模型实验效果有所提升,并优化了社区问答系统。第二,提出了基于文本摘要的段落级相似度算法。在文本研究中,相较于句子,段落的文本跨度更大、维度更复杂。为了降低段落间的长度及维度的差异带来的语义计算难度,本文提出了基于生成摘要的段落级相似度方法。抽取后的摘要既可以表达段落的主要思想,又降低了段落间的维度差异。该方法便于计算,提高了语义计算的效率。第叁,通过引入交互信息层和交叉注意力机制,进一步改进了段落级语义相似度算法。传统的语义相似度计算中,文本表示只是包含了自身的语义信息。本文提出的方法是通过交互信息层和交叉注意力机制融入了文本对之间的交互信息,增强了文本对间的联系,与句子级相似度算法结合,优化了社区问答系统。(本文来源于《北京邮电大学》期刊2019-05-21)
孙阳[9](2019)在《基于卷积神经网络的中文句子相似度计算》一文中研究指出近年来网络文本数据呈爆发式增长,其具有数据规模大、增长速度快和价值密度低等特点,如何对这些文本数据进行分类、检索和过滤等管理成为信息领域的研究重点。短文本处理如句子相似度计算是信息管理的核心技术之一,在文本分类、信息检索、自动问答等领域应用广泛,本文利用卷积神经网络模型,实现中文句子相似度计算。本文主要包括两方面的研究内容,具体如下:第一,提出了一种融合句子结构信息的中文句子相似度计算方法。大部分的句子模型的输入只是句子本身信息,人们为了提高模型的特征信息提取,会考虑到加入两个句子之间的交互信息,更有甚者认为标签之间存在关联性,从而加入标签信息。但这些都对模型的性能提高有限。中文较英语而言,句子具有非常灵活的语法,句子中的各成分有复杂的关系,本文通过外部工具,分析句子的依存句法结构,作为句子的结构信息。在MPCNN模型的基础上,本文提出融合句子结构信息的DP-MPCNN模型,对于句子表示矩阵使用全维度的卷积核进行卷积,对于句子结构信息使用单维度的卷积核进行卷积,用于提取更多的语句特征。在数据集ChineseSTS上进行了实验,实验结果表明,本文提出的方法不仅在输入句子结构信息上具有有效性,而且DP-MPCNN模型在网络结构上也实现了效果的提升。第二,提出了一种基于注意力机制的中文句子相似度计算方法。经过调研发现,一方面,在大部分针对句对匹配问题的模型中,句对在建模过程中是完全独立的,很大程度上忽略了输入句子之间的上下文交互作用,无法识别句对中关键的词语,缺乏语义细节;另一方面,卷积神经网络实际上只能获取句子的局部信息,通过层迭来增大感受野,循环神经网络通过递归进行序列建模,其本质是一个马尔科夫过程,因此也无法很好地学习句子中存在关联的词语。本文针对以上两个问题,利用交互注意力提前计算句对之间在词汇层面的关联信息,并且通过自注意力一步到位的提取当前词语与句中其他词之间的关系,帮助理解整句话的意思,然后将这两部分的注意力矩阵融合在一起,作为卷积神经网络的输入。此外,本文尝试了多种信息融合方法对计算结果的影响,并且我们将本文方法与一些现有的句对匹配模型对比都取得了最好的计算效果。(本文来源于《中国科学技术大学》期刊2019-05-01)
卢超[10](2019)在《基于深度学习的句子相似度计算方法研究》一文中研究指出随着计算机的普及,人们习惯于使用互联网来获取所需要的信息,但是由于数字信息是以指数形式逐年递增。人们在使用搜索引擎时,搜索引擎只能返回相关信息的链接或者包含答案内容的大段文本资料,用户想要获取有用的信息还要进行二次筛选,搜索引擎已经无法满足大多数人的需求。但问答系统反馈给用户的答案不是一大堆相关的文档或者是相关的链接,而是更加精确的答案,这样更加符合用户的需求。问答系统的关键技术就是问句相似度处理,传统的相似度研究方法无法有效捕获句子的语义信息,而且匹配的准确度不高。深度学习中的卷积神经网络可以对句子特征进行有效提取,循环神经网络可以捕获句子的上下文信息,两种方法都可以很好的捕获句子的语义信息,并且使用深度学习的句子相似度准确度更高。本文对深度学习中卷积神经网络(CNN)和循环神经网络(RNN)在文本处理上的优缺点做了对比。结合深度学习的相关知识着重研究了深度匹配语义模型,并对基于卷积神经网络的语义匹配模型展开研究,在池化层使用k-max均值采样,提出了基于k-max均值采样技术的句子相似度算法,通过与原模型进行实验对比,得出本文所用方法的精确度更高。在实验研究的过程中发现该方式存在无法捕获上下文语义信息方面的不足。针对卷积神经网络无法捕获文本上下文语义信息的问题,提出了基于LSTM与卷积神经网络相结合的句子相似度计算方法,即首先通过循环神经网络捕获上下文的语义信息,然后通过卷积神经网络提取特征,最后使用余弦相似度进行句子相似度处理。这种方法结合了前两种方法的优点,通过均方根误差作为实验的评估标准。实验结果表明,所提出方法的精确度更高。(本文来源于《中北大学》期刊2019-03-27)
句子相似度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对句子语义相似度计算问题,综合考虑句子的结构信息与语义信息,提出一种多特征融合的句子语义相似度计算方法。提取句子的词形特征、词序特征及句长特征,使用层次分析法进行权重分配,计算结构相似度;利用本体图中最短路径定义语义距离,基于语义距离计算句子语义相似度;对结构相似度和语义相似度进行特征加权,构建多特征融合的句子语义相似度计算方法。实验结果表明,该方法取得了72.5%的F-度量值,与传统余弦相似度和基于关键词的相似度算法相比提高了12%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
句子相似度论文参考文献
[1].翟社平,李兆兆,段宏宇,李婧,董迪迪.基于词法、句法和语义的句子相似度计算方法[J].东南大学学报(自然科学版).2019
[2].翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计.2019
[3].关晓菡,韩建辉.基于双向字交互卷积网络的句子相似度计算[J].计算机工程与设计.2019
[4].周艳平,李金鹏,蔡素.基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J].计算机应用与软件.2019
[5].刘继明,谭云丹,袁野.基于平滑逆频率和依存句法的句子相似度计算方法[J].科学技术与工程.2019
[6].李霞,刘承标,章友豪,蒋盛益.基于局部和全局语义融合的跨语言句子语义相似度计算模型[J].中文信息学报.2019
[7].王闻慧.基于谷歌翻译及Doc2vec的中英句子相似度计算[J].电脑知识与技术.2019
[8].王明阳.句子级和段落级的语义相似度算法的设计与实现[D].北京邮电大学.2019
[9].孙阳.基于卷积神经网络的中文句子相似度计算[D].中国科学技术大学.2019
[10].卢超.基于深度学习的句子相似度计算方法研究[D].中北大学.2019