导读:本文包含了与主题相似度论文开题报告文献综述及选题提纲参考文献,主要关键词:评论短文本,主题分析,HowNet语义相似度,LDA模型
与主题相似度论文文献综述
赵林静[1](2019)在《结合语义相似度改进LDA的文本主题分析》一文中研究指出为对评论文本进行准确的主题分类,提出一种结合HowNet语义相似度和隐含狄利克雷分配(LDA)模型的主题聚类方法。不同于传统LDA模型,该方法通过HowNet常识知识库计算输入单词与当前主题聚类中单词间的语义相似度,以此调整LDA模型中的超参数β。为不同的单词分配不同的β值,以此监督聚类过程,在主题分析中实现从语法到语义的转变。实验结果表明,该方法能够有效提高主题聚类的准确性。(本文来源于《计算机工程与设计》期刊2019年12期)
傅丽君[2](2019)在《基于网页主题相关度和标签相似度的改进PageRank算法研究》一文中研究指出文章将PageRank算法与社会化标签进行结合,提出一种基于链接网页主题之间相关度和社会化标签之间相似度的改进PageRank算法.首先基于信息特征词构建向量空间模型,通过余弦值和TF-IDF算法计算网页主题相关度;然后建立社会化标签向量计算链接网页标签相似度;最后确定权重关系进行算法迭代,从而实现Web页面的重新排序.实验表明,该算法能提高信息推荐的准确性,但算法质量不稳定,推荐效果呈下降趋势.(本文来源于《浙江树人大学学报(自然科学版)》期刊2019年01期)
居亚亚,杨璐,严建峰[3](2019)在《基于语义分布相似度的主题模型》一文中研究指出潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。(本文来源于《计算机应用研究》期刊2019年12期)
张璐,芦天亮,杜彦辉[4](2019)在《基于WMF_LDA主题模型的文本相似度计算》一文中研究指出利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。(本文来源于《计算机应用研究》期刊2019年10期)
付雨蛟[5](2018)在《基于融合主题信息的深度VAE算法的蒙古文短文本语义相似度计算》一文中研究指出文本作为一种方便快捷的信息载体,其数量占据了网络信息资源的大部分,并仍以指数级速度增长。蒙古文是我国最具代表性的少数民族文字之一,近年来蒙古文网站资源日益丰富,蒙古文短文本数量也随之急剧增加,对其进行智能化自动处理越来越受到各学者们的重视。短文本相似性计算在文本的相关研究中起着十分基础和重要的作用,是自动化信息处理的核心问题之一,而准确地学习蒙古文短文本语义表示是当前短文本相似度计算中迫切需要解决的问题。蒙古文短文本存在语境缺失的问题,现存的方法学习到的蒙古文特征表示缺乏文本的语境信息,并不能全面准确地捕获其语义特征,然而在相似度计算任务中,语境信息的相似度在一定程度上反映了短文本的相似程度。针对上述存在的问题,本文将主题信息作为语境信息融合到变分自编码器(VAE)模型中,提出了一种融合主题信息的变分自编码器模型(Variational Auto-Encoder integrated with Topic information,TVAE),在一定程度上缓解了蒙古文短文本语境缺失的问题。VAE从样本数据的概率分布中学习语义特征,能够更准确地学习到蒙古文短文本中的语义信息。本文分别使用了NMF和LDA两种主题提取模型,分别将这两种模型与VAE相结合,学习到与主题信息相关的蒙古文短文本语义表示,并在20万篇蒙古文短文本语料上进行聚类来检验相似度计算效果。实验中分析了停用词和词缀以及向量维度和网络深度等参数对模型的影响,并选择最优参数的TVAE模型与其它模型进行对比。实验结果显示TVAE模型明显的提高了蒙古文短文本相似度计算的准确率和聚类效果,改善了蒙古文短文本语境缺失问题。(本文来源于《内蒙古大学》期刊2018-04-25)
吴菲菲,陈肖微,黄鲁成,李睿毓,米兰[6](2018)在《基于语义相似度的技术多主题演化路径识别方法研究》一文中研究指出[目的/意义]基于技术演化路径识别方法研究的现状,提出一种基于语义相似度的有向有权网络技术多主题演化路径识别方法,有助于企业依据自身优势和目标定位,选择研发方向和实现路径。[方法/过程]利用文本挖掘中的主题模型将专利文本向量化,计算具有引用关系专利之间的主题相似度,构造有向有权网络,并利用Java编写的遍历算法识别出涵盖特定技术领域的多主题演化路径,供企业把握领域内技术主题的发展变化。[结果/结论]以太阳能电池板为例的研究结果表明,该方法可以有效地识别出太阳能电池板技术围绕5个主题在不断演进的路径。与传统单一路径识别方法相比,本研究提出的基于语义的多路径识别,不仅弥补了传统单一路径不能准确揭示技术关联主题的局限,也为企业依据自身技术优势选择研发方向提供了决策依据。(本文来源于《情报杂志》期刊2018年05期)
魏小锐[7](2018)在《基于整体相似度的文档主题匹配研究》一文中研究指出基于内容的网络信息过滤需要动态地比较网页与用户模板。传统文档主题匹配算法主要以两两文档间的相似度为基础来计算,这在高维的文档向量空间并不总是合适。超团模式是一种附加了整体相似度约束的频繁项集,其内部文档更有可能属于同一类别。利用超团模式这种特性,提出了基于整体相似度的文档主题匹配方法,只利用同一个超团内部的文档来预测类别。该方法通过在现实世界数据集上与K-最近邻算法进行比较,实验结果证实了超团算法应用于文档主题匹配的优越性。(本文来源于《网络安全技术与应用》期刊2018年03期)
尚燕飞[8](2018)在《基于用户相似度和主题相似度的移动APP信息推荐算法研究》一文中研究指出随着互联网技术的飞速发展,用户通过网络可以获取更加多样化的信息,但是随之而来的信息超载问题导致用户很难从海量信息中获取到对自己有价值的信息。传统的推荐算法如协同过滤推荐、基于内容的推荐、基于人口统计学的推荐等推荐技术在互联网推荐领域取得了较好的效果,给本文基于用户相似度和主题相似度的移动APP个性化推荐算法提供了算法支撑。首先,本文分析了推荐技术的研究现状、面临的问题、基本架构以及推荐技术的实现策略,着重介绍了个性化推荐技术的原理、步骤以及移动环境对个性化推荐的要求,总结了传统推荐方法的推荐策略和思想。然后,针对个性化推荐方法中存在的一些推荐的精确度不高和满意度较低的问题,提出了一种基于用户相似度和主题相似度的信息推荐算法。基于用户相似度的离线推荐算法通过改进传统算法中用户名称属性值和数值属性值计算,同时,将影响用使用者趣偏好的互动行为因素进行抽象,融合到用户相似度计算中,最后通过加权给出用户相似度算法。基于主题相似度的在线个性化推荐算法的思想是首先对使用者偏好的文本内容通过潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)提取出主题,然后抽象出使用者对项目的认可操作,使用算法对用户进行个性化推荐。针对用户兴趣突然发生变化的情况,本文构造用户的时间和行为偏好模型,通过模型判断是否存在多用户共用同一账号或者兴趣突然发生变化的情况。针对推荐领域中的冷启动问题,通过挖掘用户与信息之间的隐藏兴趣偏好,构建出新用户对信息的偏好预测模型,进行偏好信息预测。最后仿真实验表明,本算法在用户满意度方面较高,相比于基于近邻的算法中基于用户的协调过滤(User based Pearson Correlation Coefficient,UPCC)算法、基于服务的协调过滤(Item based Pearson Correlation Coefficient,IPCC)算法、概率分解(Probabilistic Matrix Factorization,PMF)算法在准确率、召回率及覆盖率方面有很好的表现,进一步证明了本算法的合理性。(本文来源于《哈尔滨理工大学》期刊2018-03-01)
蒋峰,褚晓敏,徐升,李培峰,朱巧明[9](2018)在《基于主题相似度的宏观篇章主次关系识别方法》一文中研究指出篇章分析是自然语言处理领域的一个重要任务。分析篇章主次关系有助于理解篇章的结构和语义,并为自然语言处理的应用提供有力的支持。该文在微观篇章主次关系识别研究的基础上,重点研究宏观篇章主次关系,提出了一种基于word2vec和LDA的主题相似度的宏观篇章主次关系识别模型。基于word2vec的主题相似度和基于LDA的主题相似度在不同维度上计算语义相似度,两者在语义层面形成互补,因而增强了模型识别宏观篇章主次关系的能力。该模型在宏观汉语篇章树库(MCDTB)上实验的F1值达到79.9%,正确率达到81.82%,相较基准系统分别提升了1.7%和1.81%。(本文来源于《中文信息学报》期刊2018年01期)
郭肇毅[10](2017)在《文本主题提取及相似度计算系统研究与开发》一文中研究指出文本主题词提取及相似度计算在搜索引擎、智能问答等自然语言处理的很多研究领域都有着广泛的应用,国内外的专家学者对此有着广泛的研究,但大多都采用了复杂的数学模型,实现起来较为麻烦。对此,在文本主题词提取中,采用提取出文档中除开常见停用词之外的高频词,并通过对比高频词向量之间的夹角余弦,剔除与其他高频词相差最大的噪声高频词的方法,得到文档最终的主题词。再根据提取出的主题词,通过比较两篇文档的主题词的词向量之和之间的夹角余弦,以此来判断两篇文档之间的相似度。基于此思路,开发了一款基于win Form技术的文本主题提取及相似度计算软件系统,实现较为简单,效果超出单纯通过文档向量来判定文档相似度的方法。(本文来源于《现代信息科技》期刊2017年04期)
与主题相似度论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文章将PageRank算法与社会化标签进行结合,提出一种基于链接网页主题之间相关度和社会化标签之间相似度的改进PageRank算法.首先基于信息特征词构建向量空间模型,通过余弦值和TF-IDF算法计算网页主题相关度;然后建立社会化标签向量计算链接网页标签相似度;最后确定权重关系进行算法迭代,从而实现Web页面的重新排序.实验表明,该算法能提高信息推荐的准确性,但算法质量不稳定,推荐效果呈下降趋势.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
与主题相似度论文参考文献
[1].赵林静.结合语义相似度改进LDA的文本主题分析[J].计算机工程与设计.2019
[2].傅丽君.基于网页主题相关度和标签相似度的改进PageRank算法研究[J].浙江树人大学学报(自然科学版).2019
[3].居亚亚,杨璐,严建峰.基于语义分布相似度的主题模型[J].计算机应用研究.2019
[4].张璐,芦天亮,杜彦辉.基于WMF_LDA主题模型的文本相似度计算[J].计算机应用研究.2019
[5].付雨蛟.基于融合主题信息的深度VAE算法的蒙古文短文本语义相似度计算[D].内蒙古大学.2018
[6].吴菲菲,陈肖微,黄鲁成,李睿毓,米兰.基于语义相似度的技术多主题演化路径识别方法研究[J].情报杂志.2018
[7].魏小锐.基于整体相似度的文档主题匹配研究[J].网络安全技术与应用.2018
[8].尚燕飞.基于用户相似度和主题相似度的移动APP信息推荐算法研究[D].哈尔滨理工大学.2018
[9].蒋峰,褚晓敏,徐升,李培峰,朱巧明.基于主题相似度的宏观篇章主次关系识别方法[J].中文信息学报.2018
[10].郭肇毅.文本主题提取及相似度计算系统研究与开发[J].现代信息科技.2017
标签:评论短文本; 主题分析; HowNet语义相似度; LDA模型;