导读:本文包含了热点话题挖掘论文开题报告文献综述及选题提纲参考文献,主要关键词:微博文本,隐狄利克雷分布模型,标签语义,公共块
热点话题挖掘论文文献综述
周福星,陈秀真,马进,李生红[1](2019)在《一种融合标签语义的微博热点话题挖掘方法》一文中研究指出由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。(本文来源于《计算机工程》期刊2019年10期)
杨浩,曾兴斌,何加铭[2](2016)在《基于Hadoop微博热点话题挖掘系统的设计与实现》一文中研究指出为获得微博中的热点话题,本文设计并实现了一个基于Hadoop微博热点话题挖掘系统,包含数据采集、数据预处理、数据存储、热点话题挖掘四个子系统。面对庞大数据量,采用HDFS分布式存储;在TF-IDF算法的基础上做出了改进,本文提出影响度的概念;针对单节点数据处理的性能瓶颈,对改进后的TF-IDF算法和经典关联规则挖掘算法Apriori进行了Map R educe化设计。实验结果表明,该系统能高效率地采集微博数据,同时能够提取微博热点话题。并且当数据量变大,该系统较单节点有明显时间优势。(本文来源于《数据通信》期刊2016年02期)
赵宗飞[3](2016)在《基于大数据的互联网热点话题挖掘的研究与实现》一文中研究指出日新月异的新闻资讯,海量的博客和微博信息,随着互联网媒体技术的迅速发展,人们对舆情信息的获取变得越来越方便,触手即可及。资讯来源从过去的报刊杂志、电视电台,变成当下的网络新闻门户、博客网站和微博、推特等各种各样的网络舆情平台;从过去的定时播报、定时收听变成了现在的即时订阅,随时随地访问。然而,数以百计的资讯网站,每天产生上万条的新闻、博客和微博资讯,不仅使用户信息消费的成本越来越高,也使得网站编辑想人工地筛选和挖掘出实时热点话题成为了不可完成的任务。与此同时,进入Web2.0时代以来,伴随互联网舆情信息指数规模的增长与爆发,传统的技术在获取和存储互联网每天产生的海量非结构化文本数据已经越来越难达到实际应用的性能要求。因此,基于海量数据的背景,设计并实现能实时检测并自动发现和跟踪各种互联网热点话题的话题检测与追踪方案具有重要的意义。针对以上分析,并结合互联网热点话题的特点与大数据平台,本文分别完成了以下工作:第一,设计并完成了针对新闻门户网站、博客站点和微博等平台新发布信息的实时增量爬虫,完成网页文本正文提取算法和爬虫分布式扩展的设计与实现;第二,提出基于报道、话题上关键特征与命名实体的文本表示模型,并结合基于朴素贝叶斯分类划分的叁层聚类算法挖掘不同领域的实时热点话题,同时根据时间信息的变化特点,跟踪话题的热度演变趋势与内容发展方向;第叁,利用Hadoop大数据处理平台,结合Map-Reduce并行计算模型和HBase非结构化数据库,批量处理和存储海量的舆情资讯,挖掘每天热点话题;第四,实现了针对海量互联网资讯的实时热点话题展示平台,通过平台展示最新发现的热点话题资讯,并利用可视化工具对话题统计信息进行可视化展示。本文所提出的方法与设计的系统,能够在海量数据的前提下进行新闻和博客数据的高效采集,对采集的文本分别进行数据筛选和热点话题的发现与跟踪,并最终展示在前台网页中,具有较高的实用价值,并已接受有效性的检验。(本文来源于《华南理工大学》期刊2016-03-01)
王军强[4](2015)在《基于数据挖掘在社交网络中热点话题的研究》一文中研究指出随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与信息量不断扩大的同时,如何在海量信息中快速而准确地挖掘出用户关注的热点话题,已经成为当今一个热门的研究方向。热点话题发现是通过运用统计分析和数据挖掘等相关技术,利用社交网络中用户发表的言论对话题进行挖掘,最终向用户呈现如新浪微博展示的一个热门话题排行榜。与传统互联网媒体相比,当前社交网络消息文本具有高维性、稀疏性、主题分布不均匀性、网络用语不规范等特点,且信息量呈爆炸式增长,导致传统的话题发现技术直接应用在社交网络中在准确度与效率方面都存在巨大问题。本文通过分析比较各种算法的优缺点进而选用朴素贝叶斯分类算法与单遍聚类(Single-pass)算法作为话题发现的算法,并对算法进行深入的研究分析其存在的问题,分别对其进行改进。本文主要的研究工作有以下几个方面:(1)深入研究当前社交网络中消息文本的特点,详细阐述了话题发现的基本流程,分析并比较话题发现过程中的相关算法,设计并实现一种自动获取实验数据的方式。针对当前社交网络的特点分析目前话题发现技术存在的问题,进而提出一种先分类后聚类的方式挖掘热点话题。(2)针对当前社交网络特点,朴素贝叶斯分类算法进行分类时准确度与速度方面都存在问题,本文引入方差过滤对其进行改进,将改进后的朴素贝叶斯分类算法结合Hadoop平台形成并行的分类,从而达到提高分类的准确度与速度的目的。通过新浪API获取公开的数据集进行对比实验,验证改进算法的有效性。(3)提出基于块的单遍聚类(Single-pass)算法,该算法主要是通过分块的思想来降低传统单遍聚类(Single-pass)算法的时间复杂度,提高聚类的效率;通过新浪API获取公开的数据集进行对比实验,验证改进算法的优势,最后验证了先分类后聚类较直接聚类获取热点话题的优越性。(本文来源于《浙江理工大学》期刊2015-12-24)
翁捷[5](2015)在《高校BBS热点话题的挖掘与分析》一文中研究指出作为传统的网络应用,BBS依旧是高校学生在网络中进行信息交流的重要平台之一。学生们可以在BBS上较为方便地表达诉求、展现自我、获取资源。学生群体是一个对社会热点事件反映活跃、交流积极的群体,而网络中的信息真伪难辨鱼龙混杂,学生群体在遇到一些事情时,如果没有得到学校足够的重视和及时的解决,比较容易引发学生群体的不满情绪。又由于网络信息传播的匿名性、传播便捷快速,容易出现网络突发事件,因此,高校BBS一直是学校比较重点观察的学生舆情场所。但是,由于各个高校对于网络的信息安全意识素养不一,管理能力参差不齐。特别是绝大部分的高校是以人工监控为主,对于信息的判断尺度不尽相同,容易出现对重要舆情信息的疏漏。同时,人工监控往往无法在话题的潜伏期和酝酿期发现重点的话题,缺少对于突发事件的预测能力,常常在话题的爆发期才能发现重点的话题。数据挖掘技术可以从大量的数据中筛选出我们需要的可信的、有用的信息,也可以通过已观测到的信息,对隐含的信息进行发现,甚至可以通过趋势判断对数据演化进行预测。现在,数据挖掘技术已经在网络的信息处理和网络行为学上有了大量的应用。我们可以通过数据挖掘技术,在对高校BBS信息的实时收集、处理和分析的基础上,对BBS中可能出现的热点话题和突发事件进行预测和观察。本文在数据挖掘的方法上,对BBS的信息进行分析,区分出我们所关心的热点话题和突发事件,作为网络舆情监控的有力参考。本文的主要研究内容如下:一、数据预处理:通过数据挖掘对信息进行分析,最基础的工作就是对BBS中的文本数据进行预处理,包括中文分词、文本特征提取及文本的聚类等工作。二、文本的热度算:作为热点话题判断的主要参数,需要通过文本的浏览密度和回复密度进行计算,对整个BBS及各个主题进行评分,判断BBS中是否出现了热点话题,进而判断具体哪些主题属于热点话题。叁、文本的情感计算:在提取的情感词等基础上,对于BBS中出现的主题及回复进行情感值计算,判断出文本的情感强度和情感倾向,作为突发事件预警的评判参考。(本文来源于《安徽农业大学》期刊2015-06-01)
殷泽龙[6](2015)在《基于传播模型的社交网络潜在热点话题挖掘》一文中研究指出随着移动互联网的兴起,社交网络平台越来越多地被人们所熟知和运用。人们在社交平台上进行交流从而产生各种话题。本文主要是基于传播模型来挖掘社交网络上的潜在热点话题。我们首先设计并实现一种新颖的话题预测模型来预测潜在热点话题,然后我们基于上述模型提出了两种社交网络图上的点抽样方法来节省话题传播的空间和时间开销。基于社交网络的话题挖掘一直是一个重要的研究领域。许多研究关注从网络文本中进行话题挖掘,而忽略了社交网络的结构在话题挖掘中的重要作用。还有一些研究虽然关注网络中话题传播模型,但是并没有充分利用社交网络中丰富的属性信息,同时没有具体模型来研究社交网络中潜在热点话题的预测。本文设计并实现了一种新颖的话题传播模型算法(LHTP)来进行社交网络潜在热点话题预测,同时对话题预测效果的评估给出合适的参数和约束条件。并且我们在LHTP模型上给出了扩展模型LHTPEX,它能够在保证预测效果的情况下,降低程序的运行时间。不同于基于异构网络的话题预测模型,本文更加关注同构网络中丰富的属性信息。本文将模型应用到真实数据集,与TMBP模型进行比较,结果表现了我们算法的有效性和准确性。同时,在进行社交网络话题传播时,随着数据量的不断增大,传播模型在进行传播模拟时所花销的时间更多,程序运行所占用存储空间也更大。然而在实际的话题传播过程中,大多数话题集中在某些关键节点上,且相当一部分节点对话题的传播没有太大的影响。因此,如果在进行话题传播时,我们能够去除社交网络中的某些传播节点,这不仅能够减少程序的运行时间,而且能够降低数据所占用的存储空间。针对上述问题,我们设计了两种新颖的点抽样方法来减少社交网络中的节点数量。本文所提出的两种方法是将推荐系统的思想引入到社交网络传播模型的抽样方法研究中,具有一定的新颖性。通过实验分析,我们对比分析了不同抽样方法对传播模型的效果,所占空间,运行时间以及图的健壮性的影响。(本文来源于《哈尔滨工业大学》期刊2015-06-01)
周建华[7](2014)在《一种基于Hadoop架构的网络舆情热点话题挖掘方法》一文中研究指出为解决在海量数据中实时、精准挖掘网络舆情热点话题的问题,提出一种基于Hadoop的网络舆情数据分析模型。对于话题发现核心模块,给出一种WCGFMR网络舆情热点话题挖掘算法,采用Map(映射)和Reduce(规约)规则进行舆情文本特征分组加权策略。实验结果表明,采用基于Hadoop架构的WCGFMR算法进行热点话题挖掘,热点话题的平均召回率达到85.32%,平均话题类纯度达到95.36%。随舆情数据集增大到2GB后,在Map数一定的条件下,多任务数Reduce执行时间相比少任务数Reduce大大缩短,数据中热点话题挖掘速度显着提高。(本文来源于《河北北方学院学报(自然科学版)》期刊2014年06期)
马彦[8](2014)在《大数据环境下微博舆情热点话题挖掘方法研究》一文中研究指出通过分析大数据环境下微博舆情的发展特点和舆情自动监测的具体需求,设计了微博舆情热点挖掘系统结构模型,描述了各层的主要功能和实现方法。然后讨论了热点话题发现的方法,首先运用ICTCLAS和Ant Conc等工具提取热点词,其次描述规范化的数据表示形式,最后通过Chameleon聚类算法实现热点博文的聚类和话题抽取。该方法将对及时发现敏感信息和掌握舆情热点提供信息支持。(本文来源于《现代情报》期刊2014年11期)
陆瑶,李振婷[9](2014)在《基于Hadoop的微博热点话题挖掘系统研究与设计》一文中研究指出本文首先介绍了Web数据挖掘理论、Hadoop技术理论及国内外微博热点话题挖掘领域研究现状。在此基础上对传统微博热点话题挖掘方法进行综合及改进,旨在研究与设计基于Hadoop的微博热点话题挖掘系统。(本文来源于《电子商务》期刊2014年09期)
肖志军[10](2014)在《一种面向社会网络的热点话题数据挖掘算法》一文中研究指出社会网络中的热点话题数据挖掘问题是目前的研究热点。针对现有方法应用到社会网络时挖掘结果不准确、不便于理解和时间复杂度高等不足,提出一种改进的挖掘算法。首先采用核密度估计法对话题进行分析,然后基于小世界理论和社会网络的链接特性对话题时间序列进行建模,最后提出基于学习的方法来对话题的走向和趋势进行预测,在不降低准确率的前提下,快速挖掘出下一时刻最有可能爆发的话题,达到准确预测话题传播趋势的目的。仿真实验结果表明,该方法是有效的,能够保证挖掘的整体效果,在挖掘准确率方面要优于已有的方法。(本文来源于《计算机应用与软件》期刊2014年06期)
热点话题挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为获得微博中的热点话题,本文设计并实现了一个基于Hadoop微博热点话题挖掘系统,包含数据采集、数据预处理、数据存储、热点话题挖掘四个子系统。面对庞大数据量,采用HDFS分布式存储;在TF-IDF算法的基础上做出了改进,本文提出影响度的概念;针对单节点数据处理的性能瓶颈,对改进后的TF-IDF算法和经典关联规则挖掘算法Apriori进行了Map R educe化设计。实验结果表明,该系统能高效率地采集微博数据,同时能够提取微博热点话题。并且当数据量变大,该系统较单节点有明显时间优势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
热点话题挖掘论文参考文献
[1].周福星,陈秀真,马进,李生红.一种融合标签语义的微博热点话题挖掘方法[J].计算机工程.2019
[2].杨浩,曾兴斌,何加铭.基于Hadoop微博热点话题挖掘系统的设计与实现[J].数据通信.2016
[3].赵宗飞.基于大数据的互联网热点话题挖掘的研究与实现[D].华南理工大学.2016
[4].王军强.基于数据挖掘在社交网络中热点话题的研究[D].浙江理工大学.2015
[5].翁捷.高校BBS热点话题的挖掘与分析[D].安徽农业大学.2015
[6].殷泽龙.基于传播模型的社交网络潜在热点话题挖掘[D].哈尔滨工业大学.2015
[7].周建华.一种基于Hadoop架构的网络舆情热点话题挖掘方法[J].河北北方学院学报(自然科学版).2014
[8].马彦.大数据环境下微博舆情热点话题挖掘方法研究[J].现代情报.2014
[9].陆瑶,李振婷.基于Hadoop的微博热点话题挖掘系统研究与设计[J].电子商务.2014
[10].肖志军.一种面向社会网络的热点话题数据挖掘算法[J].计算机应用与软件.2014