导读:本文包含了语义相似性计算论文开题报告文献综述及选题提纲参考文献,主要关键词:Word2Vec,词向量,词汇语义相似度,多线程
语义相似性计算论文文献综述
孙洪迪[1](2019)在《基于Word2Vec的高效词汇语义相似度计算系统的设计实现》一文中研究指出随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方案,提高了词汇语义相似度计算效率及准确率,并给出了优化后的实际测试结果。(本文来源于《北京工业职业技术学院学报》期刊2019年04期)
张敏[2](2019)在《短文本语义相似度计算研究》一文中研究指出文本相似度在同义词测试、信息抽取、文本分类、机器翻译等自然语言处理领域有着广泛的应用。在网络信息爆炸的今天,大量可用的信息如科学文献的摘要、说明、产品描述等以短文本形式呈现。当前关注大文件或独立词的相似度计算方法在短文本上的效果欠佳。对此提出一种短文本相似度计算方法,基于向量的余弦相似基线,使用一种将词与词之间的相似性和词的特异性指标结合到一起的方法来达到最佳的性能,在数据集上进行的实验表明,语义相似度方法优于基于简单词汇匹配的方法,其整体精确度提高,误差率显着降低。(本文来源于《微型电脑应用》期刊2019年10期)
翟社平,李兆兆,段宏宇,李婧,董迪迪[3](2019)在《多特征融合的句子语义相似度计算方法》一文中研究指出针对句子语义相似度计算问题,综合考虑句子的结构信息与语义信息,提出一种多特征融合的句子语义相似度计算方法。提取句子的词形特征、词序特征及句长特征,使用层次分析法进行权重分配,计算结构相似度;利用本体图中最短路径定义语义距离,基于语义距离计算句子语义相似度;对结构相似度和语义相似度进行特征加权,构建多特征融合的句子语义相似度计算方法。实验结果表明,该方法取得了72.5%的F-度量值,与传统余弦相似度和基于关键词的相似度算法相比提高了12%。(本文来源于《计算机工程与设计》期刊2019年10期)
张波[4](2019)在《基于维基百科链接特征的词语语义相似度计算》一文中研究指出针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和出链接作为页面特征值构建特征向量模型,通过计算页面的特征向量相关系数计算对应词语的语义相似度。本文还改进了维基百科消歧处理算法,在一词多义的处理中减少社会认知度低的义项页面的干扰,进一步提高了计算准确度。经Miller&Charles(MC30)和Rubenstein&Goodenough(RG65)测试集的测试,测试结果表明了基于维基百科链接特征的方法在计算相似度方面的可行性,也验证了本文的计算策略和消歧改进算法的合理性。(本文来源于《软件工程》期刊2019年10期)
朱杰,游雄,夏青[5](2019)在《利用作战任务本体计算战场环境要素语义相似性》一文中研究指出如何根据作战任务需求为用户快速提供有针对性的有效数据,是战场环境数据保障实现主动服务必须解决的问题之一。针对作战任务与战场环境数据关联关系复杂,目前方法上存在缺少数据匹配语义表达、语义相关度及不同要素类语义权重量化等问题,提出了一种基于作战任务本体的战场环境要素语义相似性计算方法。利用本体方法确定作战任务与战场环境数据在概念语义上的逻辑关系,按照作战任务语义相关度划分战场环境要素,采用规则与案例相结合的推理技术建立语义相似性计算,从而量化战场环境要素实体语义权重。实验结果表明,该方法能有效提升战场环境数据组织的效率与精度。(本文来源于《武汉大学学报(信息科学版)》期刊2019年09期)
李霞,刘承标,章友豪,蒋盛益[6](2019)在《基于局部和全局语义融合的跨语言句子语义相似度计算模型》一文中研究指出跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。(本文来源于《中文信息学报》期刊2019年06期)
马付玉[7](2019)在《中文短文本语义相似度计算方法研究》一文中研究指出中文短文本语义相似度计算方法研究是自然语言处理技术的基础。现有方法存在以下问题:在字词语义表征层面,中文字、词通常具有多个释义,而目前常用方法获取的字词向量不能蕴含字词的全部释义信息。在计算模型层面,已有相似度计算方法不能捕获文本中词汇之间的依赖关系和内部结构对文本语义的贡献;另外,认为字词向量表征唯一,不能根据语境选择不同的字词向量。本文针对以上问题,主要做了以下工作:(1)构建了汉字相关信息数据集和词汇相关信息数据集:①基于爬虫获取“现代汉语字典”中20902个汉字的读音、偏旁、五笔、五行、基本释义、详细释义等信息,其中3587个常用字的数据集包含23821条字义文本。②构建爬虫从“百度汉语”中获取56008个常用词语的基本释义48392条和例句32708条。为字词向量表征和词义消歧提供数据支持。(2)构建了字词义向量模型和字词向量模型。本文利用现代汉语字典中对字的语义描述信息来获得字向量。构建了基于全连接自编码器的字词义向量模型,将每条字义文本映射成256维字义向量。构建了基于全连接自编码器的字词向量模型对每个字的64个字义向量作进一步语义映射,得到每个字的256维字向量,为语义相似度计算模型提供初始化向量。上述模型也适用于词。(3)构建了基于多头self-Attention的中文短文本语义相似度计算双序列模型。self-Attention机制可以考虑到文本中不同词汇对文本自身语义的贡献度不同。本文构建基于多头self-Attention的双序列模型,并与基于LSTM的双序列模型和基于CNN的双序列模型进行比较。在文本对的训练中间结果中引入结果的方差和乘积以放大两个文本的差异性和相似性。对叁个模型进行测试,结果表明,基于多头self-Attention的模型在整体表现上优于其他两个模型;在小数据集上(26条数据)基于多头self-Attention的模型的F1值高出其他两个模型32%。(4)构建了基于词义消歧的中文短文本语义相似度计算模型。本文构建基于Seq2Seq的词义消歧模型,用以根据语境动态选择词汇的词向量。在SemEval-2007 Task#5任务中,基于Seq2Seq的词义消歧模型与其它四种消歧方法中的最优方法相比消歧准确率提高了 11.48%。用消歧后的词向量进行余弦相似度计算,其准确度可以达到72.37%,与基于词频的余弦相似度计算方法相比,准确度提高了3.42%。(5)对短文本语义相似度计算方法进行了评估,构建了支持主观题自动阅卷的考试系统。采用本文构建的基于多头self-Attention的双序列模型进行主观题阅卷,用其对575条学生答案进行评分,评分与教师所给真实分数之间的皮尔逊相关系数为0.6541,比基于词义消歧的方法高0.2035。(本文来源于《西安科技大学》期刊2019-06-01)
张克亮,李芊芊[8](2019)在《基于本体的语义相似度计算研究》一文中研究指出语义相似度计算在自然语言理解与处理、信息检索、知识获取、机器翻译等领域具有重要作用.近年来,随着知识本体和知识图谱研究的深入,面向复杂关系处理的结构化知识表达手段更为丰富和强大,从而推动了基于本体的语义相似度计算方法的快速发展.基于本体的语义相似度计算大致分为基于距离的方法、基于信息量的方法、基于属性的方法和混合式方法 4种代表性方法.回顾了上述方法的发展脉络,分析了各自的基本思想和主要实现方法,并对其优缺点进行了系统比较.最后总结了语义相似度的评测方法,并在此基础上,展望了基于本体的语义相似度计算方法的发展方向.(本文来源于《郑州大学学报(理学版)》期刊2019年02期)
张春英,李春虎,付其峰[9](2019)在《基于WV-CNN的中文文本语义相似度计算方法》一文中研究指出为解决传统中文文本语义相似度计算存在的语义及句法信息缺失、人工提取特征误差较大等问题,融合词向量与卷积神经网络方法,构建中文文本语义相似度计算模型,并给出WV-CNN(Word Vector-Convolutional Neural Network)文本语义相似度计算方法。通过Embedding层将词语向量化后的结果作为CNN的输入,CNN中设置了卷积、Dropout、池化和Flatten4层网络,经过参数选择、训练、调优后输出结果。选取第6届全国数据挖掘竞赛提供的数据集以及在百度的WebQa数据集作为实验对象,使用Accuracy值、F1值、AUC值、KS值4种评测指标进行对比实验。结果表明,WV-CNN具有更好的计算精度和效果。(本文来源于《华北理工大学学报(自然科学版)》期刊2019年01期)
张河苇,金剑,董绍华,张来斌,李宁[10](2018)在《语义相似度计算在内检测数据参数匹配中的应用》一文中研究指出内检测数据对齐有助于提高内检测数据的利用率,目前国内外学者已初步建立内检测对齐流程。然而针对管道大数据背景下需匹配字段繁杂、中文字段描述多样等问题仍缺乏解决方案。本文采用中文语义相似度计算方法,计算各类字段与模板字段的相似度,确定其匹配度,可以从大量字段中选取匹配字段,实现不同来源内检测数据的对齐。本文在原有的基于同义词词林计算方法的基础上进行改进,并使用内检测报告中的实际字段进行计算,通过比对发现,本文改进的方法能够区分内检测报告中的不同字段,对多来源内检测数据对齐有较好的适用性。(本文来源于《石油科学通报》期刊2018年04期)
语义相似性计算论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文本相似度在同义词测试、信息抽取、文本分类、机器翻译等自然语言处理领域有着广泛的应用。在网络信息爆炸的今天,大量可用的信息如科学文献的摘要、说明、产品描述等以短文本形式呈现。当前关注大文件或独立词的相似度计算方法在短文本上的效果欠佳。对此提出一种短文本相似度计算方法,基于向量的余弦相似基线,使用一种将词与词之间的相似性和词的特异性指标结合到一起的方法来达到最佳的性能,在数据集上进行的实验表明,语义相似度方法优于基于简单词汇匹配的方法,其整体精确度提高,误差率显着降低。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语义相似性计算论文参考文献
[1].孙洪迪.基于Word2Vec的高效词汇语义相似度计算系统的设计实现[J].北京工业职业技术学院学报.2019
[2].张敏.短文本语义相似度计算研究[J].微型电脑应用.2019
[3].翟社平,李兆兆,段宏宇,李婧,董迪迪.多特征融合的句子语义相似度计算方法[J].计算机工程与设计.2019
[4].张波.基于维基百科链接特征的词语语义相似度计算[J].软件工程.2019
[5].朱杰,游雄,夏青.利用作战任务本体计算战场环境要素语义相似性[J].武汉大学学报(信息科学版).2019
[6].李霞,刘承标,章友豪,蒋盛益.基于局部和全局语义融合的跨语言句子语义相似度计算模型[J].中文信息学报.2019
[7].马付玉.中文短文本语义相似度计算方法研究[D].西安科技大学.2019
[8].张克亮,李芊芊.基于本体的语义相似度计算研究[J].郑州大学学报(理学版).2019
[9].张春英,李春虎,付其峰.基于WV-CNN的中文文本语义相似度计算方法[J].华北理工大学学报(自然科学版).2019
[10].张河苇,金剑,董绍华,张来斌,李宁.语义相似度计算在内检测数据参数匹配中的应用[J].石油科学通报.2018