对象搜索引擎论文-李梁

对象搜索引擎论文-李梁

导读:本文包含了对象搜索引擎论文开题报告文献综述及选题提纲参考文献,主要关键词:信息检索,搜索引擎,对象级搜索,性能评价

对象搜索引擎论文文献综述

李梁[1](2016)在《面向不同对象的搜索引擎中的排序模型与性能评价》一文中研究指出目前,互联网规模不断扩大,成为人们最重要的信息来源之一,但同时也出现了“信息过载”的问题,网络上的信息增长速度过快,用户获取所需信息难度越来越大。因此,搜索引擎应运而生。随着搜索引擎的发展,目前有两个重要的研究方向:其一,传统搜索引擎是基于网页的,而网络上的信息承载方式已经不仅限于传统网页,因此需要探索新的搜索引擎技术;其二,搜索引擎层出不穷,质量参差不齐,需要有一种合适的方式来评价搜索引擎的性能。本文主要贡献有以下叁点:第一,提出了一种新的对象级别搜索引擎的排序模型。本模型适用于多种对象存在的场合,是基于对象之间的链接关系的,从而具有通用性。第二,提出了UIG的概念。UIG与传统的DCG相比,衡量的信息更为准确。第叁,提出了一种用于搜索引擎性能评价的搜索引擎的理想点击分布族。在实际应用中,可以通过搜索引擎的实际点击数据拟合其参数;同时,从实际点击分布与理想点击分布的差别上,可以反映出搜索引擎排序算法的缺陷与改进方向。本文所提出的对象级搜索引擎排序模型,首先以对象链接图为基础,计算单个对象对单个term的相关度,然后对多个term的相关度进行合并。本模型在ACM Portal数据集上得到验证取得较好效果。本文所提出的搜索引擎点击分布模型,是从寿命分布中的威布尔分布出发,并结合搜索引擎的特点加以修改所得。本模型在AOL、搜狗、微软搜索引擎数据集上得到验证取得较好效果。(本文来源于《中国科学技术大学》期刊2016-06-01)

罗睿阳[2](2013)在《推荐算法研究和对象搜索引擎的搭建》一文中研究指出近几十年来,互联网的迅速发展,不仅促进了全世界范围内信息的有效传播和流通,而且对科学研究、工商业发展,乃至人们的日常生活方式都带来了深远的影响。随着互联网数据的指数级膨胀,互联网已经进入“大数据”时代。在这样一种背景条件下,人们获取信息的周期正在不断变长。面对信息获取,好的选择将变得难得一遇。而且大多数情况下,这种决策选择需要花费大量的人力与物力,但是往往收效甚微。本文主要从缩短用户获取信息周期的角度出发,引出推荐系统和搜索引擎在现阶段人们日常生活中的重要作用。本文分两部分来阐述论文的研究内容。首先是推荐系统,探讨了现阶段推荐系统发展的一个现状,然后以一个实际的评分预测类推荐任务—电影推荐—为主要的研究点,研究高等矩阵因子分解模型在评分预测类推荐任务中的应用。Netflix Prize大奖赛的成功举办,让矩阵分解技术在电影推荐领域的应用广为人知。而且经过KDD2012评测大赛的再次验证,进一步说明了高等的矩阵因子分解技术对于提高推荐系统特别是评分预测类的预测准确率是很有帮助的。简单来说,推荐系统中使用矩阵分解从评分模式中抽取一组潜在的因子,我们可以将用户或者物品用这些潜在的因子向量来表示,这些向量可以被称为特征向量。由于抽取的因子可能是无法直观的去理解的,所以是潜在特征,基于此,这种方法也被称为潜在因子模型LFM (Latent Factor Model)。本文在研究了基本的LFM模型的基础上,提出以用户兴趣为导向的潜在用户分组属性,将聚类因子巧妙的加入到LFM模型之中。经过实验验证,这种考虑了用户兴趣分组的矩阵分解模型在预测的准确率上大为提高。其次,对于搜索引擎的研究本文着重考虑的是垂直搜索引擎的搭建工作,更侧重于工程性实现。本文对于搜索引擎的发展现状做了详细的调研,并对于搭建搜索引擎涉及的常见技术进行了细致的研究,在此基础上,以整合校园信息,为广大师生提供信息查询为目的,搭建了一个校园对象搜索引擎。之所以称为对象搜索,是因为系统除了常见的搜索之外,还以对象(人物,组织,机构,时间等)为单位,进行深度数据挖掘与分析,给用户提供更全面的信息。在调研、设计并实现整个框架的过程中,本文从工程开发的角度出发,结合apache虚拟主机技术和SVN技术,给出了一个完善且高效的开发规范。(本文来源于《北京邮电大学》期刊2013-11-22)

金晔[3](2013)在《基于搜索引擎的恶意对象发掘系统的设计与开发》一文中研究指出恶意对象发掘系统是卡巴斯基公司针对现有的样本收集和分析处理系统的一次研究性尝试,其方向符合未来杀毒行业发展的基本趋势。其中涉及到多个学科和业行的技术,是一个典型的利用多学科知识交叉实现的系统。如搜索引擎技术、分布式系统并行处理架构、机器学习和虚拟机系统等。系统摒弃传统杀毒行业一直沿用的被动收集和感染后查杀的模式,采用主动检索,在大数据和海量文件的基础上进行挖掘和抽取。这种积极发现恶意程序并在恶意程序感染和扩散之前更新病毒库的方式,在第一时间阻断了可能感染用户的信息渠道。本文采用统一建模的工程方法,以面向对象的思想对系统进行需求分析和设计。在系统需求分析章节我们对总体业务系统的流程进行了详细说明,分析了四大模块的功能,对模块与模块之间的协作关系进行描述,样本收集为例,着重研究了对原始网页的采集,分类及分析过程。从活动图设计、类结构设计、数据库设计等方面详细描述系统的设计,得到了系统中的设计类和数据库模型;重点分析了样本基础信息库和网址分类库的表设计。全文通过对借助搜索引擎进行恶意软件传播的传播方式及特点的分析,有针对性的设计出一套精准有效的监测和自动查杀系统。在整体上系统使用了典型的C/S架构。因为涉及到大量现有的功能平台,系统使用跨平台的软件技术以兼容和驱动繁杂的异构系统,所以我们选用各种平台无关的脚本语言开发主要业务逻辑,例如Perl,PHP等。在病毒样本收集阶段,基于虚拟机实现了一个分布式系统检测环境。创建并引入恶意对象流的概念,在此基础上设计了系统对潜在恶意对象的智能判断以及自动化处理流程。其中重点介绍了如何基于搜索引擎发现恶意对象和恶意对象的分类处理,基于恶意对象特征库,采用支持向量机设计出一个恶意程序检测算法,并用实验实证的方法进行数据比对,分析该算法的理论可行性和实用性。最后进行软件测试对各项功能进行评测。该系统目前在实验室内稳定运行,根据现有的统计数据看,系统基本达到预期。系统已经开始为公司业务系统贡献了很多有价值的恶意程序样本。(本文来源于《山东大学》期刊2013-10-20)

王珂[4](2013)在《五部门联手打击网上非法售药》一文中研究指出本报北京8月20日电(王珂)20日从国家食品药品监管总局获悉:国家食品药品监管总局、国家互联网信息办公室、工信部、公安部、国家工商总局五部门共同开展的打击网上非法售药行动正式启动,将重点整治利用网络销售假药、网上售药未取得互联网药品交易资质等网上(本文来源于《人民日报》期刊2013-08-21)

周佳庆,吴羽,江锦华,陈刚,董轶[5](2011)在《实时垂直搜索引擎对象缓存优化策略》一文中研究指出针对实时垂直搜索引擎搜索对象热门度多变和数据抓取由查询驱动等问题,提出一种全新的实时垂直搜索引擎对象缓存优化策略.基于对象及属性间的关联设计热门对象预测模型,预测热门对象的变化趋势;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略.大量的对比实验验证了新的缓存优化策略在较少开销增长的前提下,用户查询结果平均新鲜度和准确率均明显优于传统固定频率的缓存策略.(本文来源于《浙江大学学报(工学版)》期刊2011年01期)

吴羽[6](2011)在《面向时间敏感对象的垂直搜索引擎关键技术研究》一文中研究指出随着搜索服务的逐渐普及深化,用户针对特定领域的搜索需求逐渐明确、对搜索结果的个性化程度和实时性要求逐渐增高,使得基于垂直搜索领域的高效信息检索服务已成为搜索引擎市场的热点。垂直搜索引擎通过聚焦抓取、智能调度、高维索引等技术,根据特定的领域知识和用户的搜索习惯,为用户提供特定垂直领域中时效性更高,更为个性化、专业化的搜索结果。然而现有大多数的垂直搜索引擎中存在1)爬虫系统抓取模式被动,目标抓取与用户查询时延过长;2)爬虫系统抓取调度盲目,抓取资源利用率低;以及3)索引系统性能低下,对特定文本信息的特征提取与聚类缺乏有效算法等问题,已经严重地桎梏了垂直搜索引擎市场的健康发展。本文试图对这些热点问题及其关键技术进行系统性研究。本文的主要贡献和创新点如下:1.爬虫系统的主动式聚焦抓取技术研究针对爬虫系统抓取模式被动,目标抓取与用户查询时延过长的问题,提出了语义驱动的查询驱动聚焦抓取技术,基于领域知识理解用户查询,提供了查询向目标网页的语义转换,实现了针对用户查询的主动式抓取,解决了目标抓取与用户查询时延过长的问题。充分的实验和在真实项目中的初步应用表明,查询驱动聚焦抓取技术为用户提供了10秒级搜索结果,大大降低了时延,极大的提高了用户体验。2.爬虫系统的智能调度技术研究针对爬虫系统抓取调度盲目、利用率低的问题,基于网页文档变化的泊松过程建模,在对单个对象新鲜度进行定量估算的基础上,提出对象级细粒度资源调度算法PoissonRank,实现了针对变化的抓取调度,极大地提高了抓取资源的利用率。仿真分析和商用项目中的应用表明了该模型的有效性,该调度技术能提高抓取资源利用率并更好的捕捉对象的变化。大量真实环境中的实验验证了对象分布规律和泊松过程建模的正确性以及用户体验的提升,同时PoissonRank对系统带来的额外开销很低,具有很高的可扩展性。3.索引系统中高维索引的在线更新技术研究针对索引系统中多媒体高维索引在线更新效率低下的问题,对高维索引中的LSH算法进行优化,提出了基于压缩位图(Compressed Bitmap)的CB-LSH高维索引技术,通过算子布尔代数化后引入压缩位图索引对LSH的添删改性能进行了全面提升,解决了高维索引在线更新的性能问题。理论分析证明了CB-LSH在空间占用和时间复杂度上的改善;大量真实数据上的实验结果表明,与现有的LSH算法相比,CB-LSH节约了叁分之一的内存占用,删除性能提高了近一个数量级,查询性能提高了数倍,插入性能提高了约一半;真实项目验证了CB-LSH应用于在线实时更新的海量多媒体对象检索系统中是有效可行的。4.索引系统中文本信息的结果合并技术研究针对垂直领域中文本信息长度短、专业性强、噪音多,索引系统中聚类效果差的问题,提出了一种基于自然语言触发对的文本聚类技术TrigSigs,基于一阶触发对充分挖掘词汇隐含属性的关联关系,学习领域专业词汇、去除噪音词汇并提取关键特征词汇,实现了细粒度对象级聚类技术。仿真实验表明,该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。(本文来源于《浙江大学》期刊2011-01-01)

张爱红[7](2010)在《利用ASP索引服务内置对象实现站内搜索引擎》一文中研究指出随着网络不断健全发展,人们对网络需求的渴望,站内搜索已成为便利的搜索方式,方便于人更加快捷地存取文件或所需要求。(本文来源于《科技创新导报》期刊2010年34期)

丁飞飞[8](2009)在《“海盗湾”侵权获刑成全球焦点 搜索引擎恐成下一个受审对象》一文中研究指出娱乐公司"打掉"了一些知名下载网站,用户又可通过雅虎、谷歌搜索查找其他新的下载网站。这样的话,娱乐公司同下载网站之间的争斗将永远没有结束之日(本文来源于《IT时代周刊》期刊2009年09期)

王实[9](2009)在《垂直搜索引擎中的网页对象抽取模型及实现技术研究》一文中研究指出随着因特网技术的快速发展,网上信息呈几何级数增长,由于网络信息载体的异构性和多变性,如何检索和处理这些海量信息成为目前重要的研究课题。Web信息抽取是指从半结构化的网页中抽取指定的信息,将其形成结构化的数据填入数据库中供用户查询使用的过程。Web信息抽取是提高信息检索尤其是垂直领域信息检索性能的重要手段之一,本文研究垂直搜索引擎中的Web信息抽取技术。本文首先总结了Web信息抽取的主要技术,从Web信息抽取系统的构成入手,分析了模板检测、模板生成和数据抽取叁个主要过程涉及到的关键问题及传统解决方式。针对垂直搜索引擎应用背景下传统信息抽取技术的局限性,提出了相应的改进方法。对于模板检测,本文在传统的DOM树编辑距离算法的基础上,根据节点的对布局的影响程度赋予其不同的权值,提出一种新的网页结构相似性计算算法,实验结果分析表明,采用新的算法对动态模板网页进行聚类的效果比传统算法有明显改进。对于模板生成和数据抽取,本文提出了基于聚类的模板混合生成算法,该算法结合网页聚类过程中样本网页之间结构相似性比较和模板生成过程中样本网页与模板的结构相似性比较,改进了模板的生成方式。对于数据抽取,本文在定义网页对象概念的基础上研究了对象抽取过程中网页与网页抽取模板的匹配问题,提出了基于结构树调整的模板匹配算法。实验结果表明,新的模板生成和数据抽取算法在保证一定召回率的同时,可以取得令人满意的抽取准确率,同时减少了计算时间和人力成本,从而使得其更符合商业搜索引擎的应用需求。最后,本文讨论了针对商业搜索引擎的技术优化策略,主要包括基于URL模式分析和网页信息质量分析的网页搜集路径优化和抽取模板匹配优化。此外,本文还研究了商业垂直搜索引擎应用背景下Web信息抽取系统的系统设计和实现,采用基于.Net平台的Silverlight技术成功地将提出的算法和设计应用于一个自主开发的垂直搜索引擎系统-智叟博客搜索引擎(GeeSeek),实际应用表明,该系统可以有效地改善用户搜索体验。Web信息抽取的发展十分迅速,目前Web信息抽取研究的信息来源基本为已经构造的网页,而互联网上大部分的数据仍以数据库的方式存在于各分散的服务器上,如何对这些信息进行抽取,将是我们下一步需要进行研究的工作。(本文来源于《湖南大学》期刊2009-04-01)

刘步春[10](2009)在《基于知识库的校园对象搜索引擎的相关技术研究》一文中研究指出信息检索是在给定的用户需求下,利用索引、匹配等技术,从大量信息中识别满足条件的信息。传统的信息检索起源于对文本资料的情报检索。针对实体网页的个性化检索,本文提出了一种有效的基于知识库的检索方法。该方法将检索问题的处理从检索词的机械匹配提升到实体属性的结构化匹配,针对性更强,准确率更高,从而为用户提供高效优质的实体网页的个性化检索服务。本文在模式识别实验室自行搭建的校园网信息搜索引擎(cose)的基础了,提出了基于知识库的对象搜索引擎。本文的工作主要包括一下几个方面:1、设定和建立基于人名、组织机构名、课程名这3大类对象的知识库和人工标注方案。2、在对象知识库的基础上,通过分词、命名实体识别等自然语言处理技术对bupt校园网语料进行信息抽取,然后利用抽取的结果建立扩充知识库。3、最后通过应用对象知识库和扩充知识库对cose系统进行改进和优化。(本文来源于《北京邮电大学》期刊2009-02-11)

对象搜索引擎论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近几十年来,互联网的迅速发展,不仅促进了全世界范围内信息的有效传播和流通,而且对科学研究、工商业发展,乃至人们的日常生活方式都带来了深远的影响。随着互联网数据的指数级膨胀,互联网已经进入“大数据”时代。在这样一种背景条件下,人们获取信息的周期正在不断变长。面对信息获取,好的选择将变得难得一遇。而且大多数情况下,这种决策选择需要花费大量的人力与物力,但是往往收效甚微。本文主要从缩短用户获取信息周期的角度出发,引出推荐系统和搜索引擎在现阶段人们日常生活中的重要作用。本文分两部分来阐述论文的研究内容。首先是推荐系统,探讨了现阶段推荐系统发展的一个现状,然后以一个实际的评分预测类推荐任务—电影推荐—为主要的研究点,研究高等矩阵因子分解模型在评分预测类推荐任务中的应用。Netflix Prize大奖赛的成功举办,让矩阵分解技术在电影推荐领域的应用广为人知。而且经过KDD2012评测大赛的再次验证,进一步说明了高等的矩阵因子分解技术对于提高推荐系统特别是评分预测类的预测准确率是很有帮助的。简单来说,推荐系统中使用矩阵分解从评分模式中抽取一组潜在的因子,我们可以将用户或者物品用这些潜在的因子向量来表示,这些向量可以被称为特征向量。由于抽取的因子可能是无法直观的去理解的,所以是潜在特征,基于此,这种方法也被称为潜在因子模型LFM (Latent Factor Model)。本文在研究了基本的LFM模型的基础上,提出以用户兴趣为导向的潜在用户分组属性,将聚类因子巧妙的加入到LFM模型之中。经过实验验证,这种考虑了用户兴趣分组的矩阵分解模型在预测的准确率上大为提高。其次,对于搜索引擎的研究本文着重考虑的是垂直搜索引擎的搭建工作,更侧重于工程性实现。本文对于搜索引擎的发展现状做了详细的调研,并对于搭建搜索引擎涉及的常见技术进行了细致的研究,在此基础上,以整合校园信息,为广大师生提供信息查询为目的,搭建了一个校园对象搜索引擎。之所以称为对象搜索,是因为系统除了常见的搜索之外,还以对象(人物,组织,机构,时间等)为单位,进行深度数据挖掘与分析,给用户提供更全面的信息。在调研、设计并实现整个框架的过程中,本文从工程开发的角度出发,结合apache虚拟主机技术和SVN技术,给出了一个完善且高效的开发规范。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

对象搜索引擎论文参考文献

[1].李梁.面向不同对象的搜索引擎中的排序模型与性能评价[D].中国科学技术大学.2016

[2].罗睿阳.推荐算法研究和对象搜索引擎的搭建[D].北京邮电大学.2013

[3].金晔.基于搜索引擎的恶意对象发掘系统的设计与开发[D].山东大学.2013

[4].王珂.五部门联手打击网上非法售药[N].人民日报.2013

[5].周佳庆,吴羽,江锦华,陈刚,董轶.实时垂直搜索引擎对象缓存优化策略[J].浙江大学学报(工学版).2011

[6].吴羽.面向时间敏感对象的垂直搜索引擎关键技术研究[D].浙江大学.2011

[7].张爱红.利用ASP索引服务内置对象实现站内搜索引擎[J].科技创新导报.2010

[8].丁飞飞.“海盗湾”侵权获刑成全球焦点搜索引擎恐成下一个受审对象[J].IT时代周刊.2009

[9].王实.垂直搜索引擎中的网页对象抽取模型及实现技术研究[D].湖南大学.2009

[10].刘步春.基于知识库的校园对象搜索引擎的相关技术研究[D].北京邮电大学.2009

标签:;  ;  ;  ;  

对象搜索引擎论文-李梁
下载Doc文档

猜你喜欢