导读:本文包含了文本查询论文开题报告文献综述及选题提纲参考文献,主要关键词:频繁项集,挖掘,数据库,超文本
文本查询论文文献综述
刘建[1](2019)在《基于频繁项集挖掘的数据库超文本查询算法研究》一文中研究指出目前数据库超文本查询方法存在查询准确率较低的问题,为解决这一问题对基于频繁项集挖掘的数据库超文本查询算法进行研究。研究通过建立频繁项集挖掘数据库超文本查询模型,以模型为基础对数据库超文本查询关联规则计算,从而实现数据库超文本查询权重计算。通过实验,对繁项集挖掘数据库超文本查询算法与传统查询算法精准度相比较,从而证明频繁项集挖掘数据库超文本查询算法的有效性。(本文来源于《数字技术与应用》期刊2019年04期)
王凯祥[2](2018)在《面向查询的自动文本摘要技术研究综述》一文中研究指出对面向查询的自动文本摘要技术进行系统梳理,分析所用方法的基本思想、优缺点,并总结未来的发展方向。通过分析梳理,总结出了四大类面向查询的自动文本摘要技术:基于图模型的方法、基于机器学习的方法、基于聚类的方法和其他方法。在今后的研究过程中,基于神经网络和多模型融合的方法将成为未来研究的热点,在应用层面上,与实际应用场景相结合的算法研究将成为趋势。(本文来源于《计算机科学》期刊2018年S2期)
田喜平,黄勇杰[3](2018)在《基于关联规则的大型关系数据库超文本查询算法研究》一文中研究指出当前超文本查询算法存在查询关键词和超文本用词不匹配的问题,导致查询精度低,效率低下。为此,提出一种新的基于关联规则的大型关系数据库超文本查询算法,对权重计算过程、关联规则算法和信息检索模型进行分析。利用起始查询结果的前几篇超文本对关联规则进行挖掘,选取包含起始查询项的关联规则建立规则数据库,挑选出和查询词相关度最高的几个词作为扩展词,和起始查询结合成新的查询后重新查询,通过K-means聚类算法对新的查询结果进行聚类解析,求出各篇超文本的最后相关度,按照降序顺序对相关度进行排列,输出查询结果。实验结果表明,所提算法精度和效率高。(本文来源于《科技通报》期刊2018年10期)
徐阳,王志杰,钱诗友[4](2018)在《基于分布式平台Spark的空间文本查询分析》一文中研究指出随着基于位置服务应用的不断推广,空间文本数据查询的应用价值(例如结合地理位置和用户标签的社交推荐)也在不断提高.但是,随着数据规模的迅速增长,传统的基于单机环境实现的技术难以为用户提供低延时和高吞吐量的服务.为此,本文基于Spark平台对分布式环境下的空间文本查询算法进行了探究.采用了面向海量空间文本数据的两层索引框架(包括全局索引和局部索引),该框架利用了分阶段过滤的策略来处理分布式下的布尔范围查询问题.同时,针对空间文本相似连接提出了Prefix-RI结构并提出了相应的分布式算法.基于Spark平台实现了所提出的分布式算法,并通过大量的实验对比验证了所提出方法的优越性.(本文来源于《华东师范大学学报(自然科学版)》期刊2018年05期)
雷建云,彭媛,孙翀,帖军[5](2018)在《一种社交网络环境下并行短文本查询算法》一文中研究指出随着移动社交网络的迅速发展,如何从海量带有时间属性和地理位置属性的短文本信息中快速查询到有效信息具有重要意义.社交网络环境下传统短文本查询算法忽略时间维度,并且在海量数据下无法满足用户快速响应的需求.针对以上问题,提出一种社交网络环境下并行短文本查询算法.提出的算法设计了基于MapReduce模型下的查询框架,该框架使用了基于滑动窗口下的多版本时空索引(MVSTR-tree),保证了查询过程中融合了时间和空间属性,实现了对海量数据高效查询的目标.最后,通过真实数据集的实验证明该算法能有效缩短查询时间.(本文来源于《中南民族大学学报(自然科学版)》期刊2018年03期)
熊泽宇[6](2018)在《文本信息检索中查询优化与向量化技术研究》一文中研究指出随着互联网的普及与计算技术的飞速发展,网络海量信息数据处理是当今大数据处理的重要研究课题。人们不仅在网络中发布和获取信息,更重要的是利用网络信息数据带来日常生活的便利,并产生新的经济效益和社会效益。文本海量数据的处理与利用已得到越来越广泛的重视,具有广阔的应用前景。文本信息检索的数据分为结构化和非结构化两类,经典的文本检索模型有:基于集合论的布尔模型、基于代数学的向量空间模型、基于概率统计的概率模型和基于统计的机器学习模型等。这些文本检索模型依照用户查询,对文档集合中的文档计算查询匹配分数并进行相关排序、形成查询结果。随着文本信息量的增加,传统的文本信息检索技术在查询结果的精确匹配、检索效率与性能方面是有限的。当今文本信息检索任务需要分析处理越来越复杂、越来越繁重的文本数据,对准确、高效的文本信息检索技术的研究有更高要求和期待。因此,本文研究经典文本检索模型的改进与优化、研究基于深度学习的分布式向量化技术,相关的研究成果有重要的理论意义和应用价值。本文的主要工作和成果如下:1.针对BM25及其改进模型客观存在的语义缺失现象,在Markov随机场(MRF)模型和Lkp模型的基础上,提出了一种改进的用于文本高阶相似查询结果计算的分数模型,实验对比分析了改进模型与原有模型的在查询分数计算时的不同,显示了改进模型在评分函数体现高阶相似查询性能上的优势。2.针对文本信息的行文习惯,主题句一般出现在文档的首尾部分,为此引入了基于区间树的分数度量机制,将区间树分数度量分别与Score Comp模型和Freq Comp模型相结合,提出了基于区间树的文本查询分数计算模型。实验结果对比分析了基于区间树的Score Comp模型与基于区间树的Freq Comp模型在查询分数计算的差异,基于区间树的Score Comp模型表现了对词项之间更敏感的语义关联。3.针对分布式词向量学习时间长的问题,在n-gram模型、CBOW词向量模型、Skip-Gram词向量模型、层次Softmax模型的基础上,建立了一种查询优化策略,提出了一种扩展的分布式词向量的优化模型,实验结果表明新的分布式词向量生成优化模型CBOW-OR或Skip Gram-OR模型间接表现出的词对间的语义关联比CBOW和Skip-Gram模型更合理。4.针对经典的分布式段向量构造算法存在盲目学习的问题,提出了一种基于CBOW与CNN结合的段向量深度学习方法,实验结果表明结合CBOW模型和CNNs模型生成的段向量比CBOW模型获得的段向量在表达段落主题方面更合理。(本文来源于《国防科技大学》期刊2018-06-25)
王月瑶[7](2018)在《面向医疗文本检索的查询重构技术研究与实现》一文中研究指出数据的爆炸式增长促进了信息技术的快速发展,在传统的医疗行业中,信息化的进程也广受关注。临床决策支持系统是一个医疗信息技术的应用系统,可以将病人描述作为查询找到相关文档,辅助医生做判断。通过这些技术手段,临床决策支持系统可以有效挖掘医疗中的深层数据,提高医疗服务的效率,降低医疗的事故率。查询重构一直是文本检索领域的热点问题。但过去关于查询重构技术的研究工作,主要侧重于查询扩展技术的研究。查询扩展技术能有效解决词不匹配问题,在短文本查询中行之有效。但在医疗文本检索中,由于作为查询的电子病历以自由文本的形式存储,包含着丰富而复杂的病人描述信息,可能存在信息干扰或信息冗余的问题,仅使用查询扩展技术不能有效解决这个问题。对此,本文研究了面向医疗文本检索的查询缩减技术,第一次针对查询进行分类,从而结合查询扩展和查询缩减的技术手段,优化现有的查询重构算法,为查询重构提供了新的思路。本文的具体工作和研究成果包括:1.设计了面向医疗文本的四种查询类型,并建立相应的语义映射工具。本文深入研究了查询词中医学词和否定词的作用,设计了四种查询类型,分别是正向类型的查询、负向类型的查询、停用词类型的查询和普通类型的查询。基于此建立了语义映射工具,用于支持后续的查询重构算法。语义映射工具依赖于医疗文本的特性,将查询词自动标注为相应的查询类型。2.创新性地提出查询分类,设计了基于阈值划分的查询重构算法。本文针对医疗长文本查询存在的问题,创新性地提出了查询分类的思想,设计实现了基于阈值划分的查询重构算法,第一次结合了查询扩展和查询缩减技术。基于阈值划分的查询重构算法将查询中的句子作为处理的候选集。首先,利用语义映射工具对候选集进行自动标注。然后,根据标注结果通过阈值的自动选择将句子分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后是针对不同类别相应地修改检索模型的分数,实现查询重构。通过本文设计的实验证明,基于阈值划分的查询重构算法,对比利用原始查询和伪相关反馈查询扩展后的查询,检索效果均有所提升。3.提出了基于无监督学习的查询重构算法。为了挖掘查询词的潜在含义,本文在阈值划分查询分类的基础上,引入无监督学习的查询分类,提出了基于无监督学习的查询重构算法。首先,计算查询中每个句子的重要性。然后利用无监督分类算法对查询自动分类,同样分为两类,分别是需要查询扩展的类别和需要查询缩减的类别。最后结合查询扩展和查询缩减技术实现查询重构。实验证明,基于无监督学习的查询重构算法能更深入理解查询词的意图,达到更优的效果。在2016年的TREC CDS公开数据集上,与原始查询相比,NDCG指标提升了22.88%。最后,基于本文提出的两个查询重构算法,我们开发搭建了一个医疗电子病历的查询重构原型系统。该系统可以对比两种算法的异同,并可视化展示本文的实验结果。(本文来源于《华东师范大学》期刊2018-05-20)
郭莎莎[8](2018)在《空间文本skyline查询》一文中研究指出随着移动网络的不断发展,基于位置的服务变得越来越流行,大量的带有文本信息和空间信息的兴趣点逐渐增加。为了从这些兴趣点中返回令用户满意的结果,用户的查询通常都带有一定的偏好。skyline查询作为一种非常重要的偏好查询,学者们已经对这种查询进行了广泛的研究。考虑到用户行走的方向性和社交网络产生的社交信息,本文对空间文本skyline查询进行更加深入地研究。首先,根据用户行走的方向性,提出基于方向的空间文本skyline查询算法。本算法将方向属性应用到空间文本skyline查询中,为用户返回在各个方向上的skyline对象。Skyline对象的确定依赖于叁个方面:空间邻近、文本相似度和方向。引入两种函数分别计算文本相关性和空间相关性。为了加快查询速度,提出有效的裁剪策略和终止定理。其次,根据用户的选择容易受到身边朋友的影响,利用社交网络中产生的社交信息,提出基于社交的空间文本skyline查询算法。本算法返回的skyline对象依赖于叁个方面:与查询者之间的距离、与查询关键字的文本相关性和社交相关性。引入新型的函数计算查询的社交相关性。为了提高查询者的满意度,扩展该查询,提出受限的基于社交的空间文本skyline查询算法。同时,引入一个新颖的概念受限skyline。针对每一种查询,提出裁剪策略和终止条件,以提高查询效率。最后,通过在不同的数据集上进行实验对比分析,验证本文所提算法的有效性和高效性。(本文来源于《燕山大学》期刊2018-05-01)
陈瑞[9](2018)在《路网下地理社交文本最近邻查询研究》一文中研究指出随着社交网络的不断发展,有效的社交网络数据每天持续地增长。例如,在2014年6月之前,平均每天,Facebook的活跃移动用户高达6亿5千万。社交数据主要是由人类之间的社交活动产生的,并为大量的预测和推荐任务创造了机会,因为彼此具有社交关系的用户往往拥有相似的偏好。比如,一组互相是朋友的希腊裔美国人也许都会对当地社区的希腊餐馆感兴趣。此外,那些从事服务业的网络对象,比如商店、旅馆和着名景点,将会持续地被地理标签化。本文提出并支持两种新的查询,第一种为路网下地理社交文本k最近邻(GSTkNN)查询,第二种为路网下最大化双色体地理社交文本反k最近邻(MaxBRGSTkNN)查询。GSTkNN查询同时考虑了用户与对象的空间相似度、文本相似度和社交相似度,为用户推荐他们可能感兴趣的对象。MaxBRGSTkNN查询则同时考虑空间、文本和社交信息,为广告商推荐投放广告的最优地点和文本描述,以吸引最多的用户。为了解决这两个查询,本文提出了一个同时索引用户和对象的位置、文本和社交信息的混合式索引架构,称作GIM-tree。然后,基于GIM-tree,本文设计了一系列高效的GSTkNN查询算法和MaxBRGSTkNN查询算法,并提出一些剪枝策略来提升这些算法的性能。最后,在真实数据集上做了大量的实验来验证本文提出的方法和剪枝策略的有效性和高效性。(本文来源于《浙江大学》期刊2018-03-25)
陈子军,郭莎莎,刘文远,刘永山[10](2018)在《基于社交的空间文本skyline查询》一文中研究指出将社交信息应用到空间文本skyline查询中,提出了基于社交的空间文本skyline(SSTS)查询。SSTS查询中skyline对象的选择依赖于叁个方面:与查询用户之间的距离、与查询关键字的文本相关性和在用户中的流行性。该查询引入了新型的函数计算它的社交相关性。为了提高查询者的满意度,扩展了SSTS查询,提出了受限的基于社交的空间文本skyline(constrained SSTS,CSSTS)查询,同时引入了一个新颖的概念受限skyline。针对每一种查询,应用了裁剪策略和终止条件,提高了查询速度。最后,通过实验验证了所提方法的有效性。(本文来源于《高技术通讯》期刊2018年03期)
文本查询论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
对面向查询的自动文本摘要技术进行系统梳理,分析所用方法的基本思想、优缺点,并总结未来的发展方向。通过分析梳理,总结出了四大类面向查询的自动文本摘要技术:基于图模型的方法、基于机器学习的方法、基于聚类的方法和其他方法。在今后的研究过程中,基于神经网络和多模型融合的方法将成为未来研究的热点,在应用层面上,与实际应用场景相结合的算法研究将成为趋势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本查询论文参考文献
[1].刘建.基于频繁项集挖掘的数据库超文本查询算法研究[J].数字技术与应用.2019
[2].王凯祥.面向查询的自动文本摘要技术研究综述[J].计算机科学.2018
[3].田喜平,黄勇杰.基于关联规则的大型关系数据库超文本查询算法研究[J].科技通报.2018
[4].徐阳,王志杰,钱诗友.基于分布式平台Spark的空间文本查询分析[J].华东师范大学学报(自然科学版).2018
[5].雷建云,彭媛,孙翀,帖军.一种社交网络环境下并行短文本查询算法[J].中南民族大学学报(自然科学版).2018
[6].熊泽宇.文本信息检索中查询优化与向量化技术研究[D].国防科技大学.2018
[7].王月瑶.面向医疗文本检索的查询重构技术研究与实现[D].华东师范大学.2018
[8].郭莎莎.空间文本skyline查询[D].燕山大学.2018
[9].陈瑞.路网下地理社交文本最近邻查询研究[D].浙江大学.2018
[10].陈子军,郭莎莎,刘文远,刘永山.基于社交的空间文本skyline查询[J].高技术通讯.2018