短文本计算论文-张敏

短文本计算论文-张敏

导读:本文包含了短文本计算论文开题报告文献综述及选题提纲参考文献,主要关键词:短文本,语义相似度,idf

短文本计算论文文献综述

张敏[1](2019)在《短文本语义相似度计算研究》一文中研究指出文本相似度在同义词测试、信息抽取、文本分类、机器翻译等自然语言处理领域有着广泛的应用。在网络信息爆炸的今天,大量可用的信息如科学文献的摘要、说明、产品描述等以短文本形式呈现。当前关注大文件或独立词的相似度计算方法在短文本上的效果欠佳。对此提出一种短文本相似度计算方法,基于向量的余弦相似基线,使用一种将词与词之间的相似性和词的特异性指标结合到一起的方法来达到最佳的性能,在数据集上进行的实验表明,语义相似度方法优于基于简单词汇匹配的方法,其整体精确度提高,误差率显着降低。(本文来源于《微型电脑应用》期刊2019年10期)

郭炳元,刘新[2](2019)在《基于语义树的短文本相似度计算》一文中研究指出伴随着人工智能的发展,自然语言处理的各种技术被应用到互联网的各个方面,如文本数据挖掘,搜索引擎等,而文本相似度计算是自然语言处理技术的核心技术之一。本文将文本以语义树的形式表示,提取语义树的特征,通过比较两棵语义树的特征来比较两个文本的相似度。(本文来源于《中国新通信》期刊2019年16期)

马慧芳,刘文,李志欣,蔺想红[3](2019)在《融合耦合距离区分度和强类别特征的短文本相似度计算方法》一文中研究指出短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.(本文来源于《电子学报》期刊2019年06期)

郭浩,许伟,卢凯,唐球[4](2019)在《基于CNN和BiLSTM的短文本相似度计算方法》一文中研究指出文本语义相似度学习在自然语言处理领域扮演着重要角色。传统的基于统计学习的方法只能对句子的浅层语义进行建模,在深层语义上效果表现不佳。针对统计学习方法无法有效解决深层语义的问题,提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)和双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)相结合的短文本相似度计算方法,利用CNN与BiLSTM相结合的孪生神经网络结构提取句子不同粒度的特征,对句子进行深层语义编码。此外,结合attention机制将提取到的单词级别的特征组合拼接成句子的语义向量表示,最后通过匹配层来判断文本的语义相似度。实验结果表明,基于Quora Questions Pairs数据集,所提出的短文本相似度计算方法准确率为84. 58%,F1值为85. 02%,优于其他方法。(本文来源于《信息技术与网络安全》期刊2019年06期)

张小川,余林峰,张宜浩[5](2018)在《基于LDA的多特征融合的短文本相似度计算》一文中研究指出近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。(本文来源于《计算机科学》期刊2018年09期)

刘文,马慧芳,脱婷,陈海波[6](2018)在《融合共现距离和区分度的短文本相似度计算方法》一文中研究指出针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确度,然后对每个文本中词项进行相关性加权,最后通过词项的权重和词项之间的共现距离相关度计算两个文本的相似度。实验结果表明,本文提出的方法能够提高短文本相似度计算的准确率。(本文来源于《计算机工程与科学》期刊2018年07期)

赵谦,荆琪,李爱萍,段利国[7](2018)在《一种基于语义与句法结构的短文本相似度计算方法》一文中研究指出为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。(本文来源于《计算机工程与科学》期刊2018年07期)

白云悦[8](2018)在《基于深度学习的中文短文本语义相似度计算方法的研究》一文中研究指出在自然语言处理领域中,随着网络的普及,研究者对中文短文本语义相似度计算方法的关注越来越多。中文是表意的文字,相对英文,中文没有严格的语法;短文本具有长度较短、表达方式多样化、文法结构不规范的特点。传统的处理方法存在文本特征表示稀疏、语义信息丢失等问题;现有深度学习方法解决了传统方法的部分问题,但忽略了中文短文本的特点。本文基于深度学习的方法,针对中文短文本的特点,主要做了以下工作:(1)建立了中文短文本语义相似度数据集管理系统并构建了数据集。深度学习模型的训练结果很大程度取决于训练数据集的质量。目前国内外有一些英文短文本相似度训练数据集,但缺乏中文短文本的训练数据集。因此,本文构建数据集管理系统,通过普通用户分享主句与回复主句的方式构建中文短文本语义相似度的训练、测试数据集。一条主句、一条回复和一个相似度值构成一组数据,共收集了 12769组数据。(2)构建了基于停用词与同义词词林的中文短文本语义相似度计算模型。目前,大部分短文本语义相似度计算模型的训练语料必须去掉停用词,但停用词对中文分词、语态分析、语义相似度计算有重要作用。因此,本文针对中文短文本的特点,在训练语料中保留停用词,在模型的训练语料中加入了同义词词林。根据测试结果,对比用Word2Vec和Glove训练词向量对模型结果的影响。结果显示,保留停用词,加入同义词词林后,模型准确度提高了 2%-3%。(3)构建了中文双序列短文本语义相似度计算模型。近几年,国内外的短文本语义相似度计算模型都是单序列,没有考虑同词异义、同义异词、短语词序等语义歧义现象。为了克服这些缺点,本文提出了中文双序列短文本语义相似度计算模型,采用结构、参数完全相同的两个LSTM处理文本序列,并加入结果的乘积和方差,放大文本的相同点和差异性。最后,比较本模型与基于CNN的语义相似度计算模型、百度语义相似度计算模型的测试结果,结果显示,本模型在准确率、召回率等方面优于二者6%以上。(本文来源于《西安科技大学》期刊2018-06-01)

赵明月[9](2018)在《基于词性和关键词的短文本相似度计算方法》一文中研究指出Word Mover’s Distance(WMD)是近年来非常热门的一个计算文本距离的算法,可以较为准确地进行文本相似度测量,被广泛应用于舆情分析,内容分类等。在WMD算法中,最重要的是将词进行词袋化处理,得到300维度的词向量,由于在得到词向量时,词的权重是随机分配的,所以最终得到的相似文本内容正确率不稳定。文章在WMD算法基础上,提取关键词,结合词性分类,给不同词性的词语分配不同的权重,从而进一步优化WMD算法,提高分类的准确率。(本文来源于《计算机时代》期刊2018年05期)

倪高伟,李涛,刘峥[10](2018)在《结合语义和结构的短文本相似度计算》一文中研究指出短文本相似度不仅包括语义相似度,还包括语法相似度。目前在短文本相似度度量算法中,大多只分析短文本语义层次的相似性,往往忽略了短文本的语法结构对短文本相似度的重要影响,导致无法捕获大量的文本语义信息,同时在短文本分类任务中召回率不够理想。通过分析短文本的特征,将EMD(earth mover’s distance)求解线性规划中运输问题的最优解应用于度量两个短文本的相似度,用Word2Vec度量两个单词的语义相似性,提出了词序位置相似度的概念,即在计算短文本相似度的同时考虑语句词组顺序对相似度的贡献。实验结果表明,在捕获大量文本语义信息的基础上,将算法应用于k近邻(k-nearest neighbor,KNN)文本分类中,有较好的准确率和召回率。(本文来源于《计算机技术与发展》期刊2018年08期)

短文本计算论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

伴随着人工智能的发展,自然语言处理的各种技术被应用到互联网的各个方面,如文本数据挖掘,搜索引擎等,而文本相似度计算是自然语言处理技术的核心技术之一。本文将文本以语义树的形式表示,提取语义树的特征,通过比较两棵语义树的特征来比较两个文本的相似度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

短文本计算论文参考文献

[1].张敏.短文本语义相似度计算研究[J].微型电脑应用.2019

[2].郭炳元,刘新.基于语义树的短文本相似度计算[J].中国新通信.2019

[3].马慧芳,刘文,李志欣,蔺想红.融合耦合距离区分度和强类别特征的短文本相似度计算方法[J].电子学报.2019

[4].郭浩,许伟,卢凯,唐球.基于CNN和BiLSTM的短文本相似度计算方法[J].信息技术与网络安全.2019

[5].张小川,余林峰,张宜浩.基于LDA的多特征融合的短文本相似度计算[J].计算机科学.2018

[6].刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学.2018

[7].赵谦,荆琪,李爱萍,段利国.一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学.2018

[8].白云悦.基于深度学习的中文短文本语义相似度计算方法的研究[D].西安科技大学.2018

[9].赵明月.基于词性和关键词的短文本相似度计算方法[J].计算机时代.2018

[10].倪高伟,李涛,刘峥.结合语义和结构的短文本相似度计算[J].计算机技术与发展.2018

标签:;  ;  ;  

短文本计算论文-张敏
下载Doc文档

猜你喜欢