导读:本文包含了文本检索算法论文开题报告文献综述及选题提纲参考文献,主要关键词:文本检索,深度学习,文本匹配,知识图谱
文本检索算法论文文献综述
杨州[1](2019)在《基于文本检索的深度关联匹配模型算法的研究与改进》一文中研究指出随着网络通信以及电子商务的高速发展,互联网已成为人们生活与工作获取信息的重要途径。对于互联网这个巨大的资源库,若缺乏有效的检索工具,人们很难从其中检索出自身所需的信息。为了提升检索有效信息的速度,减少人们检索信息的难度,信息检索系统由此而生。文本匹配在信息检索系统中占领着重要地位。在文本匹配过程中,存在“匹配失误”问题,“匹配失误”即两段文本由不同词表示同一意义时,模型不能判断其相似意义而导致的匹配错误。针对这个问题,目前大部分的研究工作均是通过增加查询词或文档词的近义词拓展文本,用于增加查询词与文档的匹配概率,以此缓解“匹配失误”问题,该方法能够在一定程度上解决匹配失误问题,但计算量大且需要耗费巨大的资源库;在深度学习中,研究学者利用词嵌入对近义词的相似度进行计算,但词与词的相似度仍存在偏差,因此也不能够很好地缓解“匹配失误”问题。针对文本匹配中的匹配失误问题,本文提出以下两个模型:(1)A Deep Top-K Relevance Matching Model(DTMM)模型,该模型的贡献是将文档词权重加入模型,以此缓解“匹配失误”问题。由于并非所有信号量都利于文本检索,模型将着重学习相似度和文档词权重都较高的K个信号量,使输入模型的信息量更加可靠有效,随后通过多层全连接层学习出查询与文档的得分;(2)基于知识图谱词拓展的检索模型,该模型首先提取出查询和文档中的所有实体,将实体对齐到知识图谱中。由于近义实体在知识图谱中符合语言学“距离相似性“原理,即意义相似的词上下文环境相同。本文利用SkipGram模型学习出实体词的词嵌入,并将其拓展文本以丰富文本语义表示。最后将拓展之后的文本信息输入DTMM进一步缓解“匹配失误”问题。另外,本文提出的两个模型均在MQ2007数据集以及Robust04数据集上进行了验证。实验结果表明,本文提出的DTMM模型以及基于知识图谱词拓展的检索模型均能够有效缓解“匹配失误”问题。(本文来源于《重庆理工大学》期刊2019-03-23)
刘江华[2](2017)在《一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证》一文中研究指出【目的/意义】非常态分布状态下,LDA主题模型的检索效果较差;在数据量较小的情况下LDA主题模型计算出来的正确率较低。【方法/过程】本文提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进行聚类和语义相关度分析,避免了传统LDA主题模型存在的诸多缺陷。【结果/结论】实验结果显示,不论是一般还是多义主题关键词的检索,本文的LDA主题模型在耗时和准确率上均比本文列出的其他叁种主题模型具有明显的优势,进一步验证了本文提出方法的有效性。(本文来源于《情报科学》期刊2017年02期)
袁飞,王成良,文俊浩[3](2014)在《一种融合文本重要性的文本检索算法》一文中研究指出分析了查询似然模型,针对传统查询似然检索模型没有考虑文本间相关性的缺点,将链接模型引入到文本检索中,提出一个计算文本间相关性的DocRank算法。该算法通过计算两两文本间的相关性,构建一个文本矩阵,利用幂迭代法得到每个文本的优先度值,将其融合到查询似然检索模型中以准确定位所检索文本,实验结果验证了改进算法在文本检索中的有效性。(本文来源于《计算机工程与应用》期刊2014年03期)
孙启干[4](2012)在《面向Web文本检索的归一化向量分类算法》一文中研究指出信息检索作为互联网应用的重要组成部分,与人们的日常生活密不可分;而作为文本形式的web应用仍然是互联网的主流应用。如何从大量的Web文本中更加有效的检索信息,依然是许多科研人员所面临的难题。文本自动分类技术,不仅是自然语言处理领域的一个重要分支,而且是信息检索和数据挖掘的基础和重要组成部分。面对每天数以亿计的互联网Web文本页面的更新,针对Web信息检索的文本分类技术,不能仅仅考虑分类算法的正确性,还要考虑分类算法的效率。本文从分类的精度和时间性能两方面作为切入点,提出了一种分类精度高,训练和分类时间代价小的归一化向量(Normalized Vector,简记NLV)文本分类算法。本文首先介绍了信息检索和文本分类的背景知识和相关过程,然后对已有的典型特征选择方法和文本分类算法做了较详细描述。通过对已有方法与技术的总结,提出了一种基于矩阵投影(MP)运算的特征选择方法和归一化向量(NLV)分类算法。MP方法属于概率模型的特征选择方式,不仅考虑词的文档频率,并且还考虑了词的平均出现频率。对信息增益(IG)、卡方校验(CHI)、文档频率(DF)、互信息(MI)和矩阵投影(MP)特征选择做了对比分析;并且采用多种分类算法验证MP特征选择方式是可行有效的。NLV分类算法通过压缩运算将高维的单类别向量空间压缩成低维的归一化向量,并通过归一化函数(方根型或对数型)对归一化向量的特征权重进行调整,较好地训练出分类模型。本文分别采用叁套不同平衡性和语种的较大规模Web文本型语料库(20_Newgroups、TanCorpV1.0、SogouC),五种特征选择方法(DF、CHI、IG、MI、MP)和四种分类算法(kNN、MBNB、MNNB、SVM)做了大量而全面的对比实验来验证NLV算法的实用性和高效性。NLV算法训练和分类速度是五种算法中最快的,分类精度在中文语料库上略低于SVM,但是速度方面与SVM相比占有绝对优势;而在20_Newgroups语料库上NLV算法能够取得最优的分类精度和时间性能。(本文来源于《重庆大学》期刊2012-04-01)
王海云,刘金岭[5](2011)在《基于查询词扩展的文本检索算法研究》一文中研究指出针对文本检索中所使用的查询词可能与文本词语不匹配而影响检索效果这一问题,提出了一种基于上下文的查询词扩展的方法,该方法根据查询词出现的上下文信息进行扩展词选择,同时考虑到查询扩展词与整个查询语句以及查询词的位置关系。实验结果表明,该方法大大提高了平均查准率。(本文来源于《计算机与数字工程》期刊2011年06期)
王亚民,赵显亮[6](2011)在《一种基于小世界理论的非结构化P2P网络文本检索算法》一文中研究指出在Gnutella系统中,节点之间转发消息的方式是泛洪,这必然会导致网络拥塞。根据小世界理论,在基于非结构化的P2P网络中构建具有小世界特性的P2P网络,使得网络中的每个节点都维护一定数量的邻居节点作为短程连接,同时每个节点还要维护一些长程连接来提高文本检索效率和减少节点之间的通信开销。(本文来源于《图书情报工作》期刊2011年05期)
高仕龙[7](2011)在《基于奇异值分解的英文文本检索算法》一文中研究指出提出一种英文文本检索算法,从文本中提取关键词项,根据转移概率计算出关键词项的状态矩阵,并通过奇异值分解,提取第一奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量。实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法。(本文来源于《计算机工程》期刊2011年01期)
赵亚慧,刘金广,崔荣一[8](2010)在《一种快速的随机分块文本检索算法》一文中研究指出针对向量空间模型(VSM)在信息检索中存在脱离上下文语境的缺陷,提出一种新的随机分块文本检索算法。该算法利用潜在语义分析技术在低维空间中对检索文本与待检索文本的各个段落进行投影,使用SVD技术对其进行了降维处理,得到文本特征,然后依据该文本特征进行相似的匹配,获得检索结果。由于充分考虑了文本的上下文语义信息,算法能够有效提高检索效率。实验结果表明,该算法在检索时间、查准率、召回率及综合性能等方面均得到较好的效果。(本文来源于《武汉理工大学学报》期刊2010年23期)
黄承慧,印鉴,侯昉[9](2010)在《一种基于主谓宾结构的文本检索算法》一文中研究指出在文本检索领域,当前广泛应用的方法或者是考察检索词项与被检索文本的词频信息,或者是考察检索词项与被检索文本的语义相似性。这些方法忽略了检索词项与被检索文本的结构信息,检索结果有一定的局限性。通过分析检索词项与被检索文本句子结构的主谓宾信息,进而考察主谓宾结构中词汇的语义相似性,最终实现对文本的语义检索。实验表明,该方法能够有效提高检索的查准率。(本文来源于《计算机科学》期刊2010年09期)
高仕龙[10](2010)在《一种新的英文文本检索算法》一文中研究指出提出一种新的英文文本检索算法,该算法将英文文本映射为26阶频率矩阵,然后通过奇异值分解,对文本表示空间进行降维处理,并融合第一奇异值分量和第二奇异值分量的特征,得到既反映字母统计频率,又反映文本字符间顺序结构的复特征向量,最后利用向量间余弦相似度作为文本检索的相似度度量。数据对比表明,算法取得了较好的实验效果,且在检索准确率和运算效率上优于经典的LSA算法。(本文来源于《计算机工程与应用》期刊2010年05期)
文本检索算法论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的/意义】非常态分布状态下,LDA主题模型的检索效果较差;在数据量较小的情况下LDA主题模型计算出来的正确率较低。【方法/过程】本文提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进行聚类和语义相关度分析,避免了传统LDA主题模型存在的诸多缺陷。【结果/结论】实验结果显示,不论是一般还是多义主题关键词的检索,本文的LDA主题模型在耗时和准确率上均比本文列出的其他叁种主题模型具有明显的优势,进一步验证了本文提出方法的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本检索算法论文参考文献
[1].杨州.基于文本检索的深度关联匹配模型算法的研究与改进[D].重庆理工大学.2019
[2].刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学.2017
[3].袁飞,王成良,文俊浩.一种融合文本重要性的文本检索算法[J].计算机工程与应用.2014
[4].孙启干.面向Web文本检索的归一化向量分类算法[D].重庆大学.2012
[5].王海云,刘金岭.基于查询词扩展的文本检索算法研究[J].计算机与数字工程.2011
[6].王亚民,赵显亮.一种基于小世界理论的非结构化P2P网络文本检索算法[J].图书情报工作.2011
[7].高仕龙.基于奇异值分解的英文文本检索算法[J].计算机工程.2011
[8].赵亚慧,刘金广,崔荣一.一种快速的随机分块文本检索算法[J].武汉理工大学学报.2010
[9].黄承慧,印鉴,侯昉.一种基于主谓宾结构的文本检索算法[J].计算机科学.2010
[10].高仕龙.一种新的英文文本检索算法[J].计算机工程与应用.2010