导读:本文包含了文本相似度分析论文开题报告文献综述及选题提纲参考文献,主要关键词:评论短文本,主题分析,HowNet语义相似度,LDA模型
文本相似度分析论文文献综述
赵林静[1](2019)在《结合语义相似度改进LDA的文本主题分析》一文中研究指出为对评论文本进行准确的主题分类,提出一种结合HowNet语义相似度和隐含狄利克雷分配(LDA)模型的主题聚类方法。不同于传统LDA模型,该方法通过HowNet常识知识库计算输入单词与当前主题聚类中单词间的语义相似度,以此调整LDA模型中的超参数β。为不同的单词分配不同的β值,以此监督聚类过程,在主题分析中实现从语法到语义的转变。实验结果表明,该方法能够有效提高主题聚类的准确性。(本文来源于《计算机工程与设计》期刊2019年12期)
黄文彬,车尚锟[2](2019)在《计算文本相似度的方法体系与应用分析》一文中研究指出[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息叁个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。(本文来源于《情报理论与实践》期刊2019年11期)
徐可,盖文妹,邓云峰[3](2019)在《基于LCS的应急决策文本相似性比对分析模型》一文中研究指出作为应急管理中的主要工作内容,应急决策在整个应急管理工作中具有战略意义,为了对危机情境下的应急决策主体进行聚类分析,定量计算不同决策主体之间相应决策文本的区别。借鉴最长公共子序列模型(LCS)的原理,从决策文本中提取主题词,根据决策文本的特点将其分为"目标"和"行动"2级,结合样本总体确定替换矩阵、空位罚分规则和目标函数,构建高层应急决策文本相似性比对分析模型;运用Needleman-Wunsch算法对该模型进行求解;通过对得到的地震情景下的高层应急决策文本的分析,证明模型的有效性和可行性;为了避免序列长度差过大对聚类分析的结果影响,在此基础上提出相对相似性得分的概念,并通过与VSM算法得到的结果进行比较,证明该模型在应急决策文本相似性分析中的优越性。(本文来源于《中国安全生产科学技术》期刊2019年05期)
韩建辉[4](2019)在《基于深度学习的短文本相似度分析与实现》一文中研究指出随着互联网和人工智能技术的发展,产生了越来越多的短文本数据,人们对文本处理技术有着迫切需求,如在智能问答、信息检索等领域。而短文本相似度作为文本处理的基础技术,在整个自然语言处理领域有着十分广阔的应用前景和研究价值。由于短文本自身有着句子较短、语义丰富等特点,目前还没有一种能够适用所有应用场景的短文本相似度算法。传统的文本相似度计算方式存在语义缺失、数据稀疏等缺点,已经不能很好地满足目前人们的实际需要。深度学习技术目前已在图像领域、语音领域取得了很好的效果,给自然语言处理同样带来了新的进步,其中在翻译、自动摘要、阅读理解等任务上,更是接近于人类的处理结果。因此,越来越多的科研机构将深度学习用在处理更复杂、更抽象的自然语言理解任务中。本文针对目前基于深度学习的短文本相似度计算中存在的文本对输入交互问题、文本交互匹配特征提取不充分问题、多特征融合问题,在基于Siamese模型基础之上,提出了基于CNN的对称字粒度交互序列改进算法,尝试解决上述问题。(1)针对相似度计算中的短文本对(句子对)交互输入问题,本论文提出一种以单字为最小粒度的对称交互序列来优化解决神经网络输入层的文本对输入问题;(2)针对文本对特征提取问题,提出了基于CNN的双通道交互匹配特征提取算法,通过卷积网络在一侧通道提取字粒度交互匹配特征值,在另一侧通道提取对称序列的字粒度交互匹配特征值,来优化解决文本对交互特征提取较弱的问题;(3)针对多特征融合问题,本论文提出一种基于CNN的双通道特征融合算法,优化了直接采用全连接神经网络进行双通道特征融合而存在的匹配特征提取较弱问题。在上述处理过程中,除直接提取词语特征之外,还通过增加提取依存关系特征提升了句子相似度计算的准确率。为了验证算法的有效性,本文在公开数据斯坦福大学自然语言推理数据集和Quora数据集上进行验证,结果表明本论文的算法相较现有的算法具有更高的准确度,验证了本论文提出的基于CNN的对称字粒度交互序列算法是一种有效的交互匹配特征提取方法和短文本相似度计算方法。通过分析增加依存关系的模型实验结果,验证了在相似度计算过程中同时提取词语语义特征和依存关系特征在一定范围内可以有效地提升准确率。(本文来源于《北方工业大学》期刊2019-05-06)
张自锋,周育忠,陶秀杰[5](2019)在《文本相似度指标分析及文本相似性分析方法研究》一文中研究指出近些年来国家为了能够有效地提高企业的科研能力,对企业所申报的科技项目都会给予一定程度上的拨款支持。为此避免将科研经费浪费在重复申报的低质量企业科技项目上,企业的领导往往需要对所申报的科技项目进行文本相似性分析。基于上述背景,论文将对文本相似度指标分析及文本相似性分析方法进行深入研究,以期望能够有效地提高对企业对相似科技项目的甄别率。(本文来源于《信息系统工程》期刊2019年04期)
屈子梦[6](2018)在《浅谈基于大数据处理及文本相似度判断的信息服务工单分析工具》一文中研究指出目前,信息服务工单数据仅仅是通过对各项指标进行简单统计而生成的,并未对用户使用过程中出现的问题进行分析。基于此,着重分析系统中出现的高频问题,从而形成问题库,供系统开发、运维使用,达到提升系统性能的目的;深入挖掘服务工单信息,生成与重点问题对应的解决方案,形成知识库,供IT服务台坐席人员、广大系统使用人员使用,提升系统应用服务水平。(本文来源于《机电信息》期刊2018年33期)
鞠秀芳[7](2018)在《基于文本相似度分析的期刊引文有效性识别研究》一文中研究指出真实性、准确性、直接性与完整性是引用参考文献的首要准则,然而种种研究表明,当前的研究论着中引而不注、过度引用、模糊标注甚至虚假引用等不当引用行为日渐增多,这极大地影响了科学研究领域的学术风气,给读者阅读、期刊审稿及成果评定等工作带来了许多不便。本文利用文本相似度算法建立期刊引文有效性识别方法,试图从海量期刊引文数据中识别出期刊引文的真实有效性。实验表明,本文的期刊引文有效性识别方法在引文有效性方面实现了较好的识别效果,可为虚假引文的识别工作提供可靠的依据,从而为编辑人员发现、修正虚假引用问题提供帮助,彰显科学研究的严谨务实精神。(本文来源于《现代情报》期刊2018年11期)
黄峰,王定军[8](2018)在《基于文本相似度的智能工单分析系统解决方案研究》一文中研究指出在互联网和大数据时代,企业将一些密集重复性的工作逐渐由机器来替代。进入人工智能时代后,以大数据驱动的智能方面的研究方兴未艾,旨在通过大数据加机器学习相关技术将企业的问题工单进行自动识别、打标签,为企业智慧运营提供分析决策支撑。本文介绍并实现了一种基于文本相似度的自动打标签研究方法,同时通过实验评估了本方法的实施效果。(本文来源于《电子技术与软件工程》期刊2018年19期)
卜落凡,李晓涵[9](2018)在《审计师会关注文本信息披露吗?——来自管理层讨论与分析文本相似度的证据》一文中研究指出以文本形式披露的非财务信息在资本市场中发挥着日益重要的作用,并为大量投资者所使用,但是其传递的信息含量较难量化。本文通过对比管理层讨论与分析中"未来发展展望"段与上一期披露内容的相似度,探究这一变化是否会影响以及如何影响审计费用。研究发现,文本相似度越低,审计费用越高,说明审计师对这种非财务信息给予了额外的关注,从而增加了审计成本,导致审计费用的提高。进一步研究发现,对成长性越高、盈余管理动机越强的公司而言,"展望"段的增量信息所增加的审计费用越多;此外,本文还发现管理层讨论与分析中关于过去的"回顾"段也会带来审计费用的增加,但是审计师更加关注"展望"段的信息。(本文来源于《中南财经政法大学研究生学报》期刊2018年04期)
甘秋云[10](2018)在《基于TF-IDF向量空间模型文本相似度算法的分析》一文中研究指出相似度算法可以计算不同字符串之间的相似程度,基于向量空间模型和基于词条空间是目前衡量文本相似度的主要方法。本文主要通过向量空间模型(VSM)文本相似度算法及TF-IDF词频统计方法,分析探讨基于TF-IDF的文本相似度算法的实现,通过实验结果验证了该算法的有效性。(本文来源于《池州学院学报》期刊2018年03期)
文本相似度分析论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
[目的/意义]文本间的相似度是信息检索、文档检测和文本挖掘等任务核心参考的指标之一。梳理现有计算文本相似度的方法、分类体系及应用,有助于研究人员选择合适的计算方法提高特定场景应用的性能。[方法/过程]文章将算法利用文本语义信息的程度、基础语义信息类型、模型类型以及关联关系类型作为划分依据构建方法体系,并从原理和应用上梳理算法间的异同。[结果/结论]将文本相似度计算方法分为无语义信息、基于浅层语义信息、基于深层语义信息叁个大类,对参考的语义信息、算法的基本原理和该类的典型应用做了探索分析。[创新/价值]使文本相似度计算方法具有更清晰和完整的体系,使研究人员能更好地区分相似度计算方法间的计算需求与应用场景的差异。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本相似度分析论文参考文献
[1].赵林静.结合语义相似度改进LDA的文本主题分析[J].计算机工程与设计.2019
[2].黄文彬,车尚锟.计算文本相似度的方法体系与应用分析[J].情报理论与实践.2019
[3].徐可,盖文妹,邓云峰.基于LCS的应急决策文本相似性比对分析模型[J].中国安全生产科学技术.2019
[4].韩建辉.基于深度学习的短文本相似度分析与实现[D].北方工业大学.2019
[5].张自锋,周育忠,陶秀杰.文本相似度指标分析及文本相似性分析方法研究[J].信息系统工程.2019
[6].屈子梦.浅谈基于大数据处理及文本相似度判断的信息服务工单分析工具[J].机电信息.2018
[7].鞠秀芳.基于文本相似度分析的期刊引文有效性识别研究[J].现代情报.2018
[8].黄峰,王定军.基于文本相似度的智能工单分析系统解决方案研究[J].电子技术与软件工程.2018
[9].卜落凡,李晓涵.审计师会关注文本信息披露吗?——来自管理层讨论与分析文本相似度的证据[J].中南财经政法大学研究生学报.2018
[10].甘秋云.基于TF-IDF向量空间模型文本相似度算法的分析[J].池州学院学报.2018
标签:评论短文本; 主题分析; HowNet语义相似度; LDA模型;