导读:本文包含了内容相关性挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:可覆盖,内容性数据和相关性数据,社区发现
内容相关性挖掘论文文献综述
何周舟[1](2012)在《基于内容性数据和相关性数据的可覆盖社会网络挖掘算法》一文中研究指出本文提出了可同时基于内容性数据和相关性数据,对社会网络进行可覆盖社区发现的方法。近年来许多工作开始着手于不同于传统的社区发现方法,即挖掘具有可覆盖性的社区结构。这些方法的主要特点在于,他们假设网络中的用户或者目标可以同时归属于多个社区。然而大部分的这些方法往往只注重于单一的数据形式,或是只基于内容性数据,或只是相关性数据。于是,这就造成上述方法不能将社会网络所具有的重要的子图特性很好地展现出来。为了突出现实中社会网络所具有的重要的子图特性,本文建立了同时基于内容性数据和相关性数据的可覆盖社区发现模型。这个模型在分析问题是分为两个步骤:首先,将原始的社会网络转化为一种“目标——属性图”,并在此基础上提出和定义了候选子图的概念,分析和建立了从目标或属性到候选子图之间的度量准则;然后,提出了名为“基于候选子图的可覆盖聚类算法”去实现可覆盖的社区发现这一最终目标,该算法的核心思想在于将网络中的边(“目标——属性”对)分配给合适的候选子图。总体上,本工作将这两个步骤通过贝叶斯统计模型有机地结合起来,这不仅有助于可以挖掘潜在的网络结构,也极大地改善了社区发现的准确度。最后,通过两个标准的公开数据库的测试,本文提出的算法相比于目前世界领先的算法,在性能上有了很大的提高。(本文来源于《浙江大学》期刊2012-05-01)
金昊[2](2010)在《内容相关性驱动的Web资源离群点挖掘技术研究与系统实现》一文中研究指出随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。但由于Web信息来源极为广泛,信息发布带有很大的随意性,在为用户提供信息的同时,也造成了信息过载和信息污染。对Web资源进行必要的评测,有助于人们快速获取网上高质量的信息。基于内容相关性的Web资源离群点挖掘就是研究如何从内容相关性的角度获取Web内容资源高质量的数据。本文使用Web内容离群点挖掘算法对Web资源内容相关性质量进行量化评测,并实现了一个原型系统。该系统包含两个模块:Web文本内容抽取和Web文本内容离群点挖掘。在第一个模块中,针对新闻网页内容比较集中的特点,本论文采用基于统计的链接密度和链接文本密度的方法对HTML网页的正文进行抽取,并将相关内容集成到一个XML页面中;在第二个模块中,利用N-gram技术对获得的XML文件中各个文档进行建模,再应用文本内容离群点检测算法,检测出文档集中内容不相关的文本,并分析讨论了挖掘结果的合理性和效果。实验结果表明,利用基于统计的链接密度和链接文本密度可以准确地对中英文页面正文内容进行抽取,同时利用基于距离的文本内容离群点检测算法,可以较为有效地发现同类文本集中内容不相关的网页。实验表明本文所实现的Web资源内容相关性质量离群点挖掘系统具有一定的实用价值。(本文来源于《西南交通大学》期刊2010-06-01)
侯越先,张鹏,于瑞国[3](2008)在《基于内容相关性挖掘的反馈式搜索引擎框架》一文中研究指出当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.(本文来源于《天津大学学报》期刊2008年08期)
内容相关性挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。但由于Web信息来源极为广泛,信息发布带有很大的随意性,在为用户提供信息的同时,也造成了信息过载和信息污染。对Web资源进行必要的评测,有助于人们快速获取网上高质量的信息。基于内容相关性的Web资源离群点挖掘就是研究如何从内容相关性的角度获取Web内容资源高质量的数据。本文使用Web内容离群点挖掘算法对Web资源内容相关性质量进行量化评测,并实现了一个原型系统。该系统包含两个模块:Web文本内容抽取和Web文本内容离群点挖掘。在第一个模块中,针对新闻网页内容比较集中的特点,本论文采用基于统计的链接密度和链接文本密度的方法对HTML网页的正文进行抽取,并将相关内容集成到一个XML页面中;在第二个模块中,利用N-gram技术对获得的XML文件中各个文档进行建模,再应用文本内容离群点检测算法,检测出文档集中内容不相关的文本,并分析讨论了挖掘结果的合理性和效果。实验结果表明,利用基于统计的链接密度和链接文本密度可以准确地对中英文页面正文内容进行抽取,同时利用基于距离的文本内容离群点检测算法,可以较为有效地发现同类文本集中内容不相关的网页。实验表明本文所实现的Web资源内容相关性质量离群点挖掘系统具有一定的实用价值。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
内容相关性挖掘论文参考文献
[1].何周舟.基于内容性数据和相关性数据的可覆盖社会网络挖掘算法[D].浙江大学.2012
[2].金昊.内容相关性驱动的Web资源离群点挖掘技术研究与系统实现[D].西南交通大学.2010
[3].侯越先,张鹏,于瑞国.基于内容相关性挖掘的反馈式搜索引擎框架[J].天津大学学报.2008
标签:可覆盖; 内容性数据和相关性数据; 社区发现;