文本相似计算论文-张敏

文本相似计算论文-张敏

导读:本文包含了文本相似计算论文开题报告文献综述及选题提纲参考文献,主要关键词:短文本,语义相似度,idf

文本相似计算论文文献综述

张敏[1](2019)在《短文本语义相似度计算研究》一文中研究指出文本相似度在同义词测试、信息抽取、文本分类、机器翻译等自然语言处理领域有着广泛的应用。在网络信息爆炸的今天,大量可用的信息如科学文献的摘要、说明、产品描述等以短文本形式呈现。当前关注大文件或独立词的相似度计算方法在短文本上的效果欠佳。对此提出一种短文本相似度计算方法,基于向量的余弦相似基线,使用一种将词与词之间的相似性和词的特异性指标结合到一起的方法来达到最佳的性能,在数据集上进行的实验表明,语义相似度方法优于基于简单词汇匹配的方法,其整体精确度提高,误差率显着降低。(本文来源于《微型电脑应用》期刊2019年10期)

徐鑫鑫,刘彦隆,宋明[2](2019)在《利用加权词句向量的文本相似度计算方法》一文中研究指出传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过叁组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法.(本文来源于《小型微型计算机系统》期刊2019年10期)

刘一丁,陈晓琳,尹晓阳,刘功申[3](2019)在《资源贫乏型语言间文本相似度计算方法》一文中研究指出文本相似度计算是自然语言处理领域的研究热点和难点。自2013年"一带一路"倡议提出以来,我国急需小语种国家和地区的商业情报信息。选取中文和藏文进行比较,并采用基于多级双语向量空间映射技术的文本相似度算法计算藏汉文本相似度。首先,对文本进行预处理,并对中文文本和藏文文本进行分词;然后,利用多级双语向量空间映射框架,将藏文词向量和中文词向量映射到同一抽象的语义空间下,词间相似度则由映射后的词向量计算得出;最后,计算得出基于词间相似度的文本相似度。利用已训练完毕的汉藏词向量得到最佳多级框架,再选择6个类别的中文和藏文新闻作为试验数据,配以映射后的汉藏词向量计算汉藏文本相似度。试验结果表明,该方法可通过相似度结果有效区分同类别和异类别新闻。(本文来源于《指挥信息系统与技术》期刊2019年04期)

郭炳元,刘新[4](2019)在《基于语义树的短文本相似度计算》一文中研究指出伴随着人工智能的发展,自然语言处理的各种技术被应用到互联网的各个方面,如文本数据挖掘,搜索引擎等,而文本相似度计算是自然语言处理技术的核心技术之一。本文将文本以语义树的形式表示,提取语义树的特征,通过比较两棵语义树的特征来比较两个文本的相似度。(本文来源于《中国新通信》期刊2019年16期)

张弛,张贯虹,周艳玲[5](2019)在《基于加权语义网的改进文本相似度计算方法》一文中研究指出为了提高特征词权重和文本语义相似度计算的精确性,文章提出了一种基于加权语义网的改进文本相似度计算方法。该方法首先以特征词为节点,以特征词窗口共现原理创建边,以频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)值作为特征词节点的初始权值,融合共现频率和概念语义距离自定义边权重计算方法,构建加权文本语义复杂网络。然后使用语义网络中特征词综合特征指数排名靠前的m个词组成特征向量,利用搬土距离(earth mover's distance,EMD)衡量两个文本间的语义相似度。最后基于公开数据集对文本进行聚类实验,实验结果表明,在基于F1度量值标准上文章提出的方法要优于传统的文本相似度计算方法。(本文来源于《邵阳学院学报(自然科学版)》期刊2019年03期)

黄文彬,车尚锟[6](2019)在《计算文本相似度的方法体系与应用分析》一文中研究指出[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息叁个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。(本文来源于《情报理论与实践》期刊2019年11期)

马慧芳,刘文,李志欣,蔺想红[7](2019)在《融合耦合距离区分度和强类别特征的短文本相似度计算方法》一文中研究指出短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.(本文来源于《电子学报》期刊2019年06期)

郭浩,许伟,卢凯,唐球[8](2019)在《基于CNN和BiLSTM的短文本相似度计算方法》一文中研究指出文本语义相似度学习在自然语言处理领域扮演着重要角色。传统的基于统计学习的方法只能对句子的浅层语义进行建模,在深层语义上效果表现不佳。针对统计学习方法无法有效解决深层语义的问题,提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)和双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)相结合的短文本相似度计算方法,利用CNN与BiLSTM相结合的孪生神经网络结构提取句子不同粒度的特征,对句子进行深层语义编码。此外,结合attention机制将提取到的单词级别的特征组合拼接成句子的语义向量表示,最后通过匹配层来判断文本的语义相似度。实验结果表明,基于Quora Questions Pairs数据集,所提出的短文本相似度计算方法准确率为84. 58%,F1值为85. 02%,优于其他方法。(本文来源于《信息技术与网络安全》期刊2019年06期)

许彩云[9](2019)在《基于文本和公式的科技文档相似度计算研究》一文中研究指出常用的文档相似度计算方法主要包括集合模型方法、向量空间模型方法、潜在语义分析法等,这些方法仅利用文本信息计算文档相似度。然而,科技文档中包含着大量的非文本信息,如公式、图和表,从而使得原有方法已不太适用。本文提出一种基于文本和公式的科技文档相似度计算方法。该方法主要考虑科技文档中的文本和公式信息,在得到文本相似度和文档间公式相似度的基础上,利用线性组合方法得到科技文档相似度。在MREC数据集上的实验结果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。结合公式信息计算科技文档相似度,不仅能有效提高科技文档相似度的准确性,而且可以实现跨语言科技文档的相似度计算。本文的主要工作包括:公式相似度计算方法有很多种,在不考虑公式变量的前提下,本文提出两种公式相似度计算方法。针对基于文本方法中未考虑公式特征元素有序性的问题,提出一种基于特征序列化的公式相似度计算方法。该方法有序提取公式的运算符、常量和括号作为其特征元素,将公式特征元素的位置映射为位置向量,通过计算位置向量是否相等得到公式相似度。针对混合方法中子树的无效匹配问题,提出一种基于有效匹配子树的公式相似度计算方法。该方法首先按先序遍历策略有序获得有效子树多重集,其次利用有效子树父节点的第一个孩子节点的交换性及有效子树是否已被匹配等信息,找到所有的有效匹配子树,最后综合考虑有效匹配子树的节点数和其所在解析树中的层次对有效匹配子树权重的影响,给出有效匹配子树权重计算方法,从而得到公式相似度。实验验证了有效匹配子树方法的有效性。为保证公式的一对一匹配和合理量化文档间公式相似度,提出一种基于KM算法的文档间公式相似度计算方法。该方法利用公式间的相似度,构建文档间公式的带权二部图,采用KM算法求带权二部图的最大权匹配,利用最大权匹配和文档间公式个数计算文档间的公式相似度。(本文来源于《河北大学》期刊2019-06-01)

张弛,周艳玲,张贯虹[10](2019)在《基于加权语义网的文本相似度计算方法研究》一文中研究指出为了更加准确地计算文本特征权重,提高文本相似度计算的精确度,文章提出了一种基于《知网(HowNet)》语义知识库的加权语义复杂网络文本相似度计算方法.该方法首先以特征词为节点,以特征词窗口共现为边,以特征词的TF-IDF值为特征词节点的初始权重,以融合共现频率和概念间语义距离计算特征词节点之间边的权重,构建加权语义文本复杂网络.然后利用综合特征指数作为加权语义网中文本的特征权重.最后基于公开数据集和KNN算法进行文本聚类实验,实验结果表明,在基于F-度量值标准上本文提出的方法要优于传统基于向量空间模型的TF-IDF方法和另一种结合复杂网络权重的方法.(本文来源于《赤峰学院学报(自然科学版)》期刊2019年05期)

文本相似计算论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过叁组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本相似计算论文参考文献

[1].张敏.短文本语义相似度计算研究[J].微型电脑应用.2019

[2].徐鑫鑫,刘彦隆,宋明.利用加权词句向量的文本相似度计算方法[J].小型微型计算机系统.2019

[3].刘一丁,陈晓琳,尹晓阳,刘功申.资源贫乏型语言间文本相似度计算方法[J].指挥信息系统与技术.2019

[4].郭炳元,刘新.基于语义树的短文本相似度计算[J].中国新通信.2019

[5].张弛,张贯虹,周艳玲.基于加权语义网的改进文本相似度计算方法[J].邵阳学院学报(自然科学版).2019

[6].黄文彬,车尚锟.计算文本相似度的方法体系与应用分析[J].情报理论与实践.2019

[7].马慧芳,刘文,李志欣,蔺想红.融合耦合距离区分度和强类别特征的短文本相似度计算方法[J].电子学报.2019

[8].郭浩,许伟,卢凯,唐球.基于CNN和BiLSTM的短文本相似度计算方法[J].信息技术与网络安全.2019

[9].许彩云.基于文本和公式的科技文档相似度计算研究[D].河北大学.2019

[10].张弛,周艳玲,张贯虹.基于加权语义网的文本相似度计算方法研究[J].赤峰学院学报(自然科学版).2019

标签:;  ;  ;  

文本相似计算论文-张敏
下载Doc文档

猜你喜欢