文本文本检索论文-李璞,肖宝,孙玉胜,张志锋,邓璐娟

文本文本检索论文-李璞,肖宝,孙玉胜,张志锋,邓璐娟

导读:本文包含了文本文本检索论文开题报告文献综述及选题提纲参考文献,主要关键词:Wikipedia类图,主题特征,短文本,信息检索

文本文本检索论文文献综述

李璞,肖宝,孙玉胜,张志锋,邓璐娟[1](2019)在《一种融合Wikipedia类图和主题特征的短文本检索方法》一文中研究指出社交网络的快速发展催生出大量短文本数据.鉴于短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,根据Wikipedia类图(Wikipedia Category Graph,WCG)中包含的结构信息,通过分析其中的主题特征,提出一种语义特征选择及关联度计算方法.以此为基础,通过计算用户查询与目标短文本之间的语义关联度,实现对短文本的检索和排序.最后通过在Twitter子集上的实验结果表明,融合Wikipedia类图和主题特征的短文本检索方法比现有一些检索方法在评估指标MAP,P@k及R-Prec上具有更好的效果.(本文来源于《河南师范大学学报(自然科学版)》期刊2019年06期)

牛腊婷[2](2019)在《基于用户英语水平的本地文本检索系统设计》一文中研究指出针对当前不同英语学习者水平的差异,提出一种基于英语水平的检索系统。为实现该系统,首先对该系统进行了简单的目标描述,为后续的设计提供依据;其次构建索引文件和快速查询算法。另外,为解决当前检索中文本内容不满足不同英语学习者的层次,引入时间窗口概念和文本权重概念,以查询项和点击记录作为分析依据,同时引入线性融合思想,构建综合考察查询项和点击记录的用户水平判断模型。最后给出检索的结果。(本文来源于《自动化技术与应用》期刊2019年08期)

马飞[3](2019)在《基于Map/Reduce框架实现的倒排索引文本检索》一文中研究指出倒排索引在搜索引擎检索系统中有很广泛的应用前景。而随着互联网各种数据的不断聚集,单处理器早已无法满足对数据的处理。文章介绍了基于Map/Reduce框架下通过多节点实现多个文本的倒排索引技术,详细阐述了在多处理器下倒排索引实现的原理。并根据目前倒排索引在各大搜索引擎的应用状况,结合在试验中获得的相关数据,进一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。(本文来源于《智能城市》期刊2019年11期)

彭涵宇[4](2019)在《基于深度学习的图像和文本检索》一文中研究指出近年来,随着互联网上图文数据的增多,图文检索受到了广泛关注。当前图文检索中面临着特征异质性和检索速度慢等问题,为了解决特征异质性的问题,本文提出了一种跨模态注意力机制模块来抽取更好的图文特征,该模块能够发掘图文特征之间相关联的信息,抽取出的特征能显着地提高图文检索的性能。同时为了提高检索时候的速度,本文用哈希来学习模态特征。跨模态哈希检索因拥有计算资源少,存储高效等特点,受到了广泛的关注。之前大部分研究工作是基于成对标签信息来生成二进制哈希码,而忽略了图文数据的类别标签信息。本文提出一种新的哈希码生成方法,该方法融合了图文数据中的类别标签信息。在算法中加入了类别标签损失函数来生成更好的哈希码。在叁个图文数据集上的实验表明了本文方法有效性,特别是在IAPR TC-12数据集上,本文方法比当前最好的方法,在平均精度上提升了7.2%。同时,为了提升网络的运行速度,本文利用CCP对网络进行压缩,该方法在压缩AlexNet近20倍的情况下,能够保证网络的精度基本无损。(本文来源于《中国科学院大学(中国科学院深圳先进技术研究院)》期刊2019-06-01)

汤州林[5](2019)在《基于深度学习的文本检索系统的设计与实现》一文中研究指出随着互联网数据量的增加,不同的文本检索系统应用到了不同的产品当中。同时,数据量的增加使得神经网络与深度学习技术得到的长足的发展。但现有的文本检索系统却很少应用深度学习技术。因此本论文设计并实现了文本检索系统,用户可以通过本系统搜索文本,获取与自己目标最相近的一些文本。本论文以文本检索以及文本检索中的深度学习算法为主要研究内容,并使用分布式操作系统构建了文本检索系统,论文完成了一下叁方面的工作:使用基于Master/Slave架构的分布式爬虫爬取数据,并对爬取的数据进行数据清洗。并根据爬取的数据构建模型样本,并将构建的模型样本与TREC数据集进行合并。为了提升深度文本匹配效果,本论文研究了多种深度学习模型,并着重描述了两种通用文本匹配模型:基于单语义特征抽取的孪生语义网络模型与直接进行语义建模的空间金字塔模型。同时根据这两种模型提出新的语义网络模型:基于孪生语义网络模型和空间金字塔模型的融合模型,该模型将孪生语义网络模型与空间金字塔模型抽取出的新特征进行融合。实验表明,以MAP值作为评价指标,使用该模型进行文本检索,能够比传统检索方法效果好8%以上,比现有的深度学习算法高3%以上。本文设计并实现了基于分布式架构的文本检索系统。为了提升文本检索速度,该系统使用了业界最常用的分布式系统Hadoop与Spark streaming计算框架。本系统实现了一下几大模块:1.离线数据处理模块,包含数据清洗与分布式索引构建。2.离线模型训练模块,为了加速在线检索速度,本系统采用离线训练在线加载的策略。3.为了提升检索速度,增加了历史高频检索词以及高频检索词对应结果缓存模块。4.检索词处理模块:包含文本纠错以及检索词的特征提取。5.检索结果的展示:本系统使用了基于Flask搭建的Web服务器展示最终的检索结果。(本文来源于《北京邮电大学》期刊2019-05-31)

李璞,张志锋,杨百冰,肖宝,蒋运承[6](2019)在《融合Wikipedia分类结构及显式语义特征的短文本检索》一文中研究指出针对网络信息空间出现的大量短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,传统信息检索技术无法有效地对其进行处理的问题,本研究以语义关联度为出发点,基于当前主流的语义知识源Wikipedia来研究短文本检索技术。根据Wikipedia页面中包含的分类结构信息,提出一种显式语义特征选择及关联度计算方法。在此基础上,提出一种低维显式语义空间下的短文本检索方法,并通过实验测试验证了该方法的可行性和有效性。研究结果表明,本研究与当前基于图论的方法和基于链接的方法相比,分别在评估指标MAP上提高了6%和4. 1%,在P@30上提高了10. 4%和5. 8%,在R-Prec上提高了6. 1%和3%。(本文来源于《河南农业大学学报》期刊2019年02期)

杨州[7](2019)在《基于文本检索的深度关联匹配模型算法的研究与改进》一文中研究指出随着网络通信以及电子商务的高速发展,互联网已成为人们生活与工作获取信息的重要途径。对于互联网这个巨大的资源库,若缺乏有效的检索工具,人们很难从其中检索出自身所需的信息。为了提升检索有效信息的速度,减少人们检索信息的难度,信息检索系统由此而生。文本匹配在信息检索系统中占领着重要地位。在文本匹配过程中,存在“匹配失误”问题,“匹配失误”即两段文本由不同词表示同一意义时,模型不能判断其相似意义而导致的匹配错误。针对这个问题,目前大部分的研究工作均是通过增加查询词或文档词的近义词拓展文本,用于增加查询词与文档的匹配概率,以此缓解“匹配失误”问题,该方法能够在一定程度上解决匹配失误问题,但计算量大且需要耗费巨大的资源库;在深度学习中,研究学者利用词嵌入对近义词的相似度进行计算,但词与词的相似度仍存在偏差,因此也不能够很好地缓解“匹配失误”问题。针对文本匹配中的匹配失误问题,本文提出以下两个模型:(1)A Deep Top-K Relevance Matching Model(DTMM)模型,该模型的贡献是将文档词权重加入模型,以此缓解“匹配失误”问题。由于并非所有信号量都利于文本检索,模型将着重学习相似度和文档词权重都较高的K个信号量,使输入模型的信息量更加可靠有效,随后通过多层全连接层学习出查询与文档的得分;(2)基于知识图谱词拓展的检索模型,该模型首先提取出查询和文档中的所有实体,将实体对齐到知识图谱中。由于近义实体在知识图谱中符合语言学“距离相似性“原理,即意义相似的词上下文环境相同。本文利用SkipGram模型学习出实体词的词嵌入,并将其拓展文本以丰富文本语义表示。最后将拓展之后的文本信息输入DTMM进一步缓解“匹配失误”问题。另外,本文提出的两个模型均在MQ2007数据集以及Robust04数据集上进行了验证。实验结果表明,本文提出的DTMM模型以及基于知识图谱词拓展的检索模型均能够有效缓解“匹配失误”问题。(本文来源于《重庆理工大学》期刊2019-03-23)

徐仁娜[8](2018)在《法律文本检索与分类系统的设计与实现》一文中研究指出随着计算机技术的发展,法律信息化建设相关的政策被不断地提出。“智慧法院”这一战略目标的提出和推广足以显示国家对法律信息化建设的重视。目前很多企业响应这一号召,围绕裁判文书制作过程展开了一系列法律办公自动化产品的研发,但在裁判文书的制作过程中仍存在制作效率低、语言不规范等诸多问题。考虑到这些问题后,在法院办公人员制作裁判文书时,为其提供标准化、多样化的表述模板就很有必要了。制作表述模板需要检索和分析大量的案例文本,并依据不同的情形对这些文本进行提取和分类。本文借助全文检索及文本分类等技术,结合法律业务人员的需求,设计实现了法律文本检索与分类系统。该系统为法院办公人员提供标准的表述模板,可有效节省其办公时间,使之有更多精力思考更专业的问题。本论文已完成的主要工作如下:(1)调查研究了在裁判文书制作过程中,表述模板的作用及意义。通过查阅资料,了解了全文检索、文本分类等技术的国内外发展状况。经过上述调研,分析出系统需求和业务流程。(2)在需求分析的基础上,对系统进行设计,确定数据库实体与实体间的关系以及系统实现的具体功能。(3)实现了法律文本检索与分类系统。通过了解全文检索、文本分类等技术,系统实现了用户管理、索引库管理、节点树管理、词库管理、表述管理等功能模块。(4)系统部署完成后,通过设计部分测试用例完成了系统功能测试,验证了法律文本检索与分类系统的可行性和实用性。系统通过全文检索、文本分类等技术实现了表述模板的生成,提供的标准化、多样化的表述模板不仅能够提高法院办公人员的工作效率而且使得裁判文书中的表述更加标准和规范。(本文来源于《山西大学》期刊2018-06-01)

王月瑶[9](2018)在《面向医疗文本检索的查询重构技术研究与实现》一文中研究指出数据的爆炸式增长促进了信息技术的快速发展,在传统的医疗行业中,信息化的进程也广受关注。临床决策支持系统是一个医疗信息技术的应用系统,可以将病人描述作为查询找到相关文档,辅助医生做判断。通过这些技术手段,临床决策支持系统可以有效挖掘医疗中的深层数据,提高医疗服务的效率,降低医疗的事故率。查询重构一直是文本检索领域的热点问题。但过去关于查询重构技术的研究工作,主要侧重于查询扩展技术的研究。查询扩展技术能有效解决词不匹配问题,在短文本查询中行之有效。但在医疗文本检索中,由于作为查询的电子病历以自由文本的形式存储,包含着丰富而复杂的病人描述信息,可能存在信息干扰或信息冗余的问题,仅使用查询扩展技术不能有效解决这个问题。对此,本文研究了面向医疗文本检索的查询缩减技术,第一次针对查询进行分类,从而结合查询扩展和查询缩减的技术手段,优化现有的查询重构算法,为查询重构提供了新的思路。本文的具体工作和研究成果包括:1.设计了面向医疗文本的四种查询类型,并建立相应的语义映射工具。本文深入研究了查询词中医学词和否定词的作用,设计了四种查询类型,分别是正向类型的查询、负向类型的查询、停用词类型的查询和普通类型的查询。基于此建立了语义映射工具,用于支持后续的查询重构算法。语义映射工具依赖于医疗文本的特性,将查询词自动标注为相应的查询类型。2.创新性地提出查询分类,设计了基于阈值划分的查询重构算法。本文针对医疗长文本查询存在的问题,创新性地提出了查询分类的思想,设计实现了基于阈值划分的查询重构算法,第一次结合了查询扩展和查询缩减技术。基于阈值划分的查询重构算法将查询中的句子作为处理的候选集。首先,利用语义映射工具对候选集进行自动标注。然后,根据标注结果通过阈值的自动选择将句子分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后是针对不同类别相应地修改检索模型的分数,实现查询重构。通过本文设计的实验证明,基于阈值划分的查询重构算法,对比利用原始查询和伪相关反馈查询扩展后的查询,检索效果均有所提升。3.提出了基于无监督学习的查询重构算法。为了挖掘查询词的潜在含义,本文在阈值划分查询分类的基础上,引入无监督学习的查询分类,提出了基于无监督学习的查询重构算法。首先,计算查询中每个句子的重要性。然后利用无监督分类算法对查询自动分类,同样分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后结合查询扩展和查询缩减技术实现查询重构。实验证明,基于无监督学习的查询重构算法能更深入理解查询词的意图,达到更优的效果。在2016年的TREC CDS公开数据集上,与原始查询相比,NDCG指标提升了22.88%。最后,基于本文提出的两个查询重构算法,我们开发搭建了一个医疗电子病历的查询重构原型系统。该系统可以对比两种算法的异同,并可视化展示本文的实验结果。(本文来源于《华东师范大学》期刊2018-05-20)

杨李[10](2018)在《基于文本检索优化的移动端火电厂巡检辅助系统的实现》一文中研究指出火力发电产业作为推动社会进步、经济发展的支柱能源产业,在现代社会中发挥着不可替代的作用。设备运行工况是否良好、安全生产是否落实、系统运行方式是否合理都可能对火力发电系统的可靠性造成影响。所以,针对火力发电设备的巡视检查是电厂运行人员一项不可或缺的工作,也是维持发电系统正常运行最基本的保障。通过周期性的巡检,运行人员能够发现设备存在的潜在问题,以便及时消除安全隐患,对发电系统的稳定运行起着至关重要的作用。在此背景下,本文以文本检索模型优化为基础,以提升火电厂巡检岗工作人员工作效率为核心展开研究,最后在此基础上搭建了一套基于微信客户端的火电厂移动巡检辅助系统,从设备原理讲解、现场设备标准参数获取、专业书籍检索等多个方面,为电力巡检岗位工作人员提升工作效率提供帮助,主要完成工作内容如下。(1)对火电厂运行巡检人员的日常工作内容做整理和分析,确定其中有待完善的需求点,并根据需求确定对应的开发技术和解决办法。(2)对文本检索模型BM25进行优化,应用优化后的模型重构开源检索框架Lucene的相似度排序函数,并通过召回率-准确率、MAP等检验指标验证新模型检索效果符合优化预期。制作爬虫抓取图书网站信息,将获得的书籍信息作为图书数据库原材料,从分词、索引、建立搜索这3个方向入手,完成搜索模块的开发,最后封装该模块方便移动端调用。(3)对课题系统的服务器端进行搭建,配置Nginx服务器,完成基础软件的安装并放行对应端口,配置域名并完成加密工作。通过Wordpress构建系统内容管理系统,使管理系统具备对文章的编辑功能,开发内容输出接口,方便客户端调用展示。(4)完成基于Mini Program的客户端软件开发,进行关键数据自定义埋点,同时打通系统反馈模块和微信客服平台的连接。(5)系统完成功能性测试、可用性调研后,发布上线。课题系统的开发,成功帮助火电厂巡检人员减少了巡检纰漏、改善了工作效率、提升了专业素养,具有重要的现实意义。(本文来源于《东北电力大学》期刊2018-05-01)

文本文本检索论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对当前不同英语学习者水平的差异,提出一种基于英语水平的检索系统。为实现该系统,首先对该系统进行了简单的目标描述,为后续的设计提供依据;其次构建索引文件和快速查询算法。另外,为解决当前检索中文本内容不满足不同英语学习者的层次,引入时间窗口概念和文本权重概念,以查询项和点击记录作为分析依据,同时引入线性融合思想,构建综合考察查询项和点击记录的用户水平判断模型。最后给出检索的结果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本文本检索论文参考文献

[1].李璞,肖宝,孙玉胜,张志锋,邓璐娟.一种融合Wikipedia类图和主题特征的短文本检索方法[J].河南师范大学学报(自然科学版).2019

[2].牛腊婷.基于用户英语水平的本地文本检索系统设计[J].自动化技术与应用.2019

[3].马飞.基于Map/Reduce框架实现的倒排索引文本检索[J].智能城市.2019

[4].彭涵宇.基于深度学习的图像和文本检索[D].中国科学院大学(中国科学院深圳先进技术研究院).2019

[5].汤州林.基于深度学习的文本检索系统的设计与实现[D].北京邮电大学.2019

[6].李璞,张志锋,杨百冰,肖宝,蒋运承.融合Wikipedia分类结构及显式语义特征的短文本检索[J].河南农业大学学报.2019

[7].杨州.基于文本检索的深度关联匹配模型算法的研究与改进[D].重庆理工大学.2019

[8].徐仁娜.法律文本检索与分类系统的设计与实现[D].山西大学.2018

[9].王月瑶.面向医疗文本检索的查询重构技术研究与实现[D].华东师范大学.2018

[10].杨李.基于文本检索优化的移动端火电厂巡检辅助系统的实现[D].东北电力大学.2018

标签:;  ;  ;  ;  

文本文本检索论文-李璞,肖宝,孙玉胜,张志锋,邓璐娟
下载Doc文档

猜你喜欢