导读:本文包含了全文过滤论文开题报告文献综述及选题提纲参考文献,主要关键词:全文检索,分布式计算,索引,Lucene
全文过滤论文文献综述
王一霈[1](2015)在《分布式全文检索系统中索引平台和信息过滤的研究与应用》一文中研究指出随着网络时代的飞速发展,数据和信息充斥着社会生活的各个领域。人们的日常行为逐渐和网络密不可分,人们利用网络获取新闻、进行社交活动和即时通讯,发送和记录工作文档等,这些行为产生的数据都被存储在网络中。由于网络和大数据带来的变革,人们日常获取的信息量在急速增加,人们获取信息的方式也更为复杂和多样。分布式计算技术和全文检索技术是应对大数据洪流的有效工具,前者能够负载海量数据,后者能够在大规模数据中快速检索到有用信息。本文的研究背景是分布式全文检索系统,该系统针对海量多格式文件进行存储并支持快速文本检索。系统采用分布式架构设计,能够并发完成文件预处理、建立索引及存储功能,并将文件存储在分布式文件系统中。分布式全文检索系统包含如下结构:文件预处理前端、分布式索引平台、分布式文件存储系统、索引管理平台和web检索平台。其中,文件预处理前端和分布式索引平台协同完成对大规模多格式文件中文本内容的索引任务;索引管理平台和web检索平台协同完成对索引文件的管理和检索任务;分布式文件存储系统负责为系统中的各个模块提供文件存储和管理支持。本文主要设计并实现了分布式全文检索系统中的分布式索引平台,索引平台基于Hadoop分布式计算库构建,实现了对海量文本文档并发建立索引。本文提出了索引平台的基本架构,阐述了索引平台的分布式计算过程、索引平台中的共享与并发机制和索引评分机制等。本文还设计实现了文件预处理前端中的信息过滤模块,信息过滤模块可实现基于关键词的文档过滤功能,识别系统不需要处理的文档。信息过滤模块主要包括以下内容:单模式匹配模块、多模式匹配模块以及与或匹配模块。本文研究了每个模块相关的基本算法,针对算法在中文环境下实际应用中的不足进行了改进,测试结果表明改进后的算法性能得到了进一步提升。(本文来源于《中国科学技术大学》期刊2015-05-01)
沈建苗[2](2006)在《实现多重标准搜索》一文中研究指出索引 任何Lucene应用程序的第一步就是为数据建立索引。Lucene需要使用数据创建自己的一组索引,以便它可以对数据进行高性能的全文检查、过滤和排序等操作。这是相当简单、直观的过程。首先,需要创建IndexWriter对象,可以使用该对象建立L(本文来源于《计算机世界》期刊2006-12-04)
盛鹏[3](2006)在《基于全文过滤的垃圾邮件防范机制》一文中研究指出伴随着互联网的快速发展和普及,电子邮件已逐渐成为人们日常生活中快捷、经济的通信交流手段之一。但由此也带来了日益严重的垃圾邮件问题,用户不得不花费大量的时间和精力来处理这些垃圾邮件。所以,如何快速、准确的从大量邮件中过滤出用户所不需要的无用信息,减少垃圾邮件的干扰,已经成为社会和电子邮件使用者关心的焦点问题。 基于内容正则表达式技术的单字匹配方法可以很方便的过滤出一些符合规则的垃圾邮件。但缺点也是非常明显的,判断时过于武断、准确率普遍偏低,而且对于一些多义、歧义词的处理几乎不可行。这种处理技术常常不能获得满意效果,数据冗余和准确性的问题比较突出。 在实现上述技术的基础上,论文提出了一种基于分词、能够实现部分语义的正向最大匹配算法和词性标注对垃圾邮件进行处理办法。并对现有工作进行进一步的改进研究,给出了基于语义分析这种更具智能、理解性的原理以及实现的相关步骤,包括了聚类、空间矢量模型的运用。 论文依次介绍了垃圾邮件的产生、当前已经实现的基于内容的正则表达式的邮件过滤、现有语义分析等技术,在此基础上主要讨论了基于全文过滤词划分的垃圾邮件系统的研究设计与实现。借鉴已有的技术,最终系统通过基于所实现的防范机制,为用户提供了高信度、低冗余的集合,将用户收到的电子邮件判断为:合法邮件和垃圾邮件。(本文来源于《昆明理工大学》期刊2006-03-22)
全文过滤论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
索引 任何Lucene应用程序的第一步就是为数据建立索引。Lucene需要使用数据创建自己的一组索引,以便它可以对数据进行高性能的全文检查、过滤和排序等操作。这是相当简单、直观的过程。首先,需要创建IndexWriter对象,可以使用该对象建立L
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
全文过滤论文参考文献
[1].王一霈.分布式全文检索系统中索引平台和信息过滤的研究与应用[D].中国科学技术大学.2015
[2].沈建苗.实现多重标准搜索[N].计算机世界.2006
[3].盛鹏.基于全文过滤的垃圾邮件防范机制[D].昆明理工大学.2006