热点话题检测论文-程克非,邓先均,周科,罗昭,陈旭东

热点话题检测论文-程克非,邓先均,周科,罗昭,陈旭东

导读:本文包含了热点话题检测论文开题报告文献综述及选题提纲参考文献,主要关键词:网络舆情,微博,热点话题,综合权值

热点话题检测论文文献综述

程克非,邓先均,周科,罗昭,陈旭东[1](2019)在《基于微博多维度及综合权值的热点话题检测模型》一文中研究指出传统热点检测算法仅从单一的某个维度衡量话题的热度,导致热点话题检测精度低,在对突发性热点话题进行检测时尤为明显。针对此问题,提出一种多维度热点话题度量模型。该模型对话题进行筛选,得到一个热点话题初始集,再融入话题热度的影响力因子,计算各个话题的综合权值,将话题的综合权值按照一定的权重与多维度热点话题度量模型进行有效融合,得到一种基于微博多维度及综合权值的热点话题检测模型。通过使用真实的微博数据进行实验对比分析,实验结果表明,提出的多维度热点话题度量模型在对突发性热点话题的检测中,其准确率(Precision)、召回率(Recall rate)和F1值(F-measure) 3个评估指标相比传统算法有了较大提高;利用该模型对突发性热点话题进行跟踪,通过与官方指数进行对比,该模型能有效跟踪其发展趋势。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2019年04期)

江俊,黄骅,任条娟,张登辉[2](2019)在《基于峰值密度聚类的电信业投诉热点话题检测方法》一文中研究指出针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。(本文来源于《电信科学》期刊2019年05期)

石正新[3](2018)在《网络新闻热点话题检测分析与趋势研究》一文中研究指出随着“互联网+”时代的到来,网络逐渐成为人们获取信息、传播信息的重要渠道,大量网络新闻在丰富人民生活的同时,也蕴藏了大量的价值,比如网络新闻在舆情、股市预测等方面都有着重要应用。但是网络新闻交错纷杂、杂乱无章,人们往往无法获取及时有效的信息,网络新闻话题检测以及趋势研究则能很好地解决的这一问题,网络新闻话题检测主要是为了从海量的网络新闻中检测热点话题,方便人们关注社会焦点。本文在传统的话题检测方法基础上进行了一些改进。首先本文的数据来源于爬取的2018年1月份各大门户网站八个类别下的网络新闻数据,然后本文在话题模型的选取上采用Word2vec与LDA联合建模的方式;其次本文在对文本聚类前采用文本分类的方式进行预处理,从而可以得到不同类别的网络新闻;然后本文设计了一种双层SinglePass聚类进行话题发现;最后本文对话题的趋势进行了研究,通过话题热度以及话题指数的计算公式获取话题的趋势。根据研究结果表明,本文采用的Word2vec与LDA联合建模方式效果优异,实验表明在与单模型的比较中效果上有明显提升;而本文构建的基于Word2vec与卷积神经网络的分类模型取得了良好的效果,分类准确率达到90%以上,根据此算法可以得到八个类别下的新闻;其次本文设计的双层Single-Pass聚类的聚类效果优异,并且能够处理连续时间的网络新闻,具有较强的灵活性,根据本文算法给出了2018年1月2日以及2018年第一周的各类别热点话题;最后本文提出的热点话题趋势研究的方法在实际的话题案例分析中,与权威的搜索引擎百度指数的对比,发现效果大致相同,侧面印证了本文话题的趋势研究的有效性。所以通过本文的模型可以从海量的网络新闻中检测出热点话题,并对话题趋势进行研究,这对用户、企业还是政府都有较强的应用价值。(本文来源于《首都经济贸易大学》期刊2018-06-30)

付淇[4](2018)在《微博热点话题检测研究综述》一文中研究指出笔者通过对国内外微博热点话题检测研究成果进行研读和梳理,并概括其研究方法分为叁种,即基于统计分析、学习模型分析、改进的相似度度量的方法。在此基础上指出目前研究的不足,分析国内外研究的异同处,进一步探讨研究的发展方向。(本文来源于《东南传播》期刊2018年05期)

邓先均,杨雅茜,罗昭,陈旭东,沈小平[5](2018)在《网络舆情热点话题检测聚类算法研究》一文中研究指出数据聚类是基于某种相似性度量在多维数据中识别自然分组或集群的过程。聚类是许多不同学科的基本过程。因此,来自不同领域的研究人员正在积极研究聚类问题。文章首先对代表性的基于划分的聚类方法进行了一个概述,在此基础之上,针对网络舆情热点话题检测,文章使用这几个聚类算法进行对比试验,进而分析出更适用于热点话题检测方面的算法。最后对文章的研究进行总结,归纳出本研究的局限性,并指出改进的方向。(本文来源于《数字技术与应用》期刊2018年05期)

陈兴蜀,马晨曦,王文贤,高悦,王海舟[6](2018)在《基于改进的ccLDA多数据源热点话题检测模型》一文中研究指出目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。(本文来源于《工程科学与技术》期刊2018年02期)

余湛[7](2017)在《基于微博的热点话题检测》一文中研究指出近年来,微博已经成为人们沟通交流的重要平台。微博中每天产生的信息不计其数,成为一个亟待开发的数据资源。为帮助人们更好地研究微博数据流,及时发现微博中的热点话题,本文提出了基于微博的热点话题检测方法。本文主要从四个方面进行了工作:(1)微博数据采集。首先,针对微博OAUTH2.0用户认证的问题,在微博API数据采集的过程中,使用线程控制API的一次调取返回值大小和微博API的访问频率,防止服务器过载;其次,解决了微博网络爬虫模拟登陆的问题,微博网络爬虫利用微博API采集的用户及好友信息,访问并爬取这些用户的微博页面;最后,通过正则表达式对爬取到的网页文件进行页面解析,并将解析结果保存到Mysql数据库。(2)微博信息预处理。首先,统计了微博中噪声数据的特征,制定了去除噪声数据的规则,并按照这些规则对微博数据进行过滤;其次,按照微博时间先后顺序排序,按照一个窗口 N条微博的规则对所有微博进行窗口划分;最后,通过ICTCLAS汉语分词系统对微博信息分词、去除停用词和词性标注,筛选出微博中表义的名词和动词作为候选词语。(3)热点话题检测算法。首先,将词语的活性描述为词语加速度和词语权重的加权数,通过计算相邻窗口词语的速度变化和当前窗口关键词的相对词频,来计算词语加速度和词语的权重;其次,将候选词语按词语活性大小倒序排序,从中筛选出词频高的词汇作为话题检测的关键词,通过双条件概率计算关键词词语的相似度;最后,利用词语的相似度求得词语间的距离,再通过单遍聚类算法.计算出关键词与已有话题的相似度,完成热点话题的检测。(4)系统开发。使用了 Python语言及Mysql数据库对微博热点话题检测系统的系统管理、微博采集和热点话题检测模块进行实现。系统测试表明,本文设计的微博热点话题检测系统,可以有效地检测出微博热点话题中包含的关键词语,通过分析这些关键词语用户可以得到这个时间段内微博的热点话题。(本文来源于《福州大学》期刊2017-06-01)

尚鸿运[8](2016)在《中文微博的热点话题检测及趋势预测算法研究》一文中研究指出微博已成为信息时代优秀的主流自媒体平台,作为网民发布、获取信息的关键桥梁,微博话题与现实社会民情紧密相联。对微博热点事件的检测与分析是网络舆情监测工作的一项重点,如何在海量微博数据中提取有效的热点信息,以及如何正确跟踪关键热点信息,已经成为微博数据挖掘的研究重点。支撑一条微博参与到热点话题的关键因素是微博内容,因此以微博内容为出发点研究微博热点话题的抽取与预测工作是有效的。论文提出一种基于内容的中文微博热点话题检测与趋势预测算法。通过对微博的文本内容特征和传播特征的研究,针对其文本短、词频低、互动功能使用频繁等特点,结合LDA话题抽取结果设计出基于内容的热点话题检测算法(LDA driven Content-based Hot topic detection Algorithm,LDA-CHA);然后基于所检测的热点话题结果,构造基于话题内容参与状态的隐马尔科夫模型(Content Participation-based Hidden Markov Model,CPHMM),有效预测热点话题的短期热度趋势。论文主要工作及创新如下:(1)分析研究传统热点检测方法的特点,并结合微博自身影响力特征,论文提出基于内容的热点话题检测算法LDA-CHA,同时从语义和词频两个角度考虑微博的文本特征,综合微博转发、评论、点赞等直接传播特征,考察其线性关系并通过因子分析法改进微博热度计算公式,并结合语义权重和词频权重改进话题热度计算公式,有效地提升热点话题检测的准确率。(2)热点话题的热度趋势预测。通过对热点话题的微博内容参与率和话题热度状态的定义与识别,在LDA-CHA热点检测结果的基础之上,论文构造了用于热点话题趋势预测的隐马尔科夫模型CPHMM,通过训练能够学习出模型参数的局部最优解,经过评估训练所得的预测模型相对可靠,其计算复杂度与输入语料的规模亦在可接受范围内,预测结果具有可信性。(3)论文基于真实微博数据集,实验验证了热点话题检测结果的准确性,评估了热度趋势预测模型的可靠性,对比实验结果充分证明了论文模型的有效性。(本文来源于《天津大学》期刊2016-11-01)

吕伟[9](2016)在《微博热点话题检测与跟踪技术研究》一文中研究指出话题检测与跟踪是指从海量数据中发现被最多讨论的话题并在后续信息中跟进话题的发展变化状态,为人们解决愈发严重的信息爆炸问题。话题检测与跟踪可以节省用户时间,跟进事件发展动态;为舆情监控提供数据支持,有重要的实际价值和安全意义。随着越来越多的用户使用微博进行信息发布和话题讨论,热点话题展示也逐渐变成微博平台的一个重要功能。由于微博的即时性很强,突发新闻在微博上的传播速度很快,而且对于影响力较大的新闻事件,参与报道、转发、评论的用户数量也很大,往往能够先于传统新闻媒体做出反应。因此,针对微博的特点,本文通过过滤无效微博,设计并实现了一种针对微博的热点话题跟踪及检测方法,主要工作如下:1)分析了微博特性,过滤了无效微博。微博用户人群复杂,涵盖范围广,差别大,内容驳杂。通过分析微博用户特征,包括用户粉丝数与用户每日发布微博数,过滤广告用户与僵尸用户;通过分析微博内容,过滤商家推广活动,与用户分享内容,用户参与的活动等大量对话题无贡献的微博;通过分析分词后的微博数据,过滤包含词数过多和过少的微博,去除无意义的过短文本,和重复过多的过长文本,有效过滤无效微博,降低计算复杂度。2)设计并实现了基于时间特性的微博热点话题检测算法。将微博按时间递增顺序处理,通过改进Single-Pass聚类算法,包括相似度计算方法的改进,结合用户影响力的话题向量更新方法的改进,进行初步话题检测;利用FP-Growth频繁项集发现算法,挖掘频繁特征词集,修正SP算法的错误;利用改进的K-MEDOIDS算法对频繁特征词集进行聚类,抽取最终话题,提高了计算效率与话题检测的准确率。3)设计并实现了基于时间特性的多查询向量自适应话题跟踪算法。基于微博数量在时间维度上的分布特征,将微博按时段分组,并按时间递增顺序处理;将每个时段的话题与已存在所有话题组的所有话题进行相似度计算对比,根据阈值选择将其归入已存在话题组或创建新的话题组,自适应更改加入话题组的话题向量。有效的跟踪话题发展状态,提高了准确率,减少了话题漂移。(本文来源于《东南大学》期刊2016-06-04)

胥亚伟[10](2016)在《基于语境分析的微博热点话题检测研究》一文中研究指出微博客具有多种登录方法、丰富的媒体文本内容和低准入门槛等特点,所以在很短的时间内成为信息分享的社交平台。在使用微博的过程中,微博用户可以用简短的文字、视频、图片,甚至是一个象征性的表达符号,通过电脑、手机或其它设备的方式,不拘于时间地点发布自己的见闻和感受。由于微博平台可以使多种媒体内容进行有效融合,同时微博的表达方法自由简单,所以在网络舆论的产生、传播及动态交互中,微博具有推波助澜的作用。在参与网络热议话题过程中,个人很容易迷失在大众的观点和情绪中,难以发挥自我约束机制,从而形成片面的、极端的心理态势。为了营造积极健康的微博舆论环境,高效、快速地检测微博热点话题就显得很有必要。因此,本文从微博的内容出发,结合微博语境,通过聚类的方法,研究发现热点话题。首先,由于微博短文本具有特征量稀疏、冗余量庞大的特点,要对微博短文本进行预处理,所以应对其无关信息进行清楚和整理,比如各种符号表情及停用词。使用向量空间模型对微博短文本进行建模表示,同时结合微博短文本所处的语境,加入其元数据信息方便扩充特征空间,在一定程度上能有效解决微博碎片化、稀疏性的问题。其次,本文对经典算法Single-Pass进行改进。传统的Single-Pass增量算法容易受到初始话题聚类中心多样化的影响,导致聚类效果不理想,挖掘不出潜在主题。改进之后的Single-Pass可有效解决聚类结果偏移的问题,提高聚类的准确度,为热点话题的检测提供技术依据。最后,用实验来检验相关理论是否在原有理论的基础上有提升的地方,同时建立热点话题评估模型,对微博短文本聚类效果进行评估。通过实验,可发现扩充微博的特征空间,以及运用改进后的Single-Pass算法动态聚类,在准度和精度上均有较大提升,说明本文思想和算法有较高的理论和实际价值。(本文来源于《江西财经大学》期刊2016-06-01)

热点话题检测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对电信业对投诉热点话题缺乏有效的检测方法问题,提出一种基于峰值密度聚类算法的投诉热点话题检测方法。首先建立电信业专用词库用于投诉样本的文本分词,采用向量空间模型表示文本分词,然后通过计算文本分词相似度和密度,并运用密度峰值聚类算法对分词进行聚类分析。最终通过类簇关键词选取并排序,从而得到热点话题描述。将本方法应用到某电信企业投诉热点话题检测中,结果表明本方法有效并具有实际应用价值。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

热点话题检测论文参考文献

[1].程克非,邓先均,周科,罗昭,陈旭东.基于微博多维度及综合权值的热点话题检测模型[J].重庆邮电大学学报(自然科学版).2019

[2].江俊,黄骅,任条娟,张登辉.基于峰值密度聚类的电信业投诉热点话题检测方法[J].电信科学.2019

[3].石正新.网络新闻热点话题检测分析与趋势研究[D].首都经济贸易大学.2018

[4].付淇.微博热点话题检测研究综述[J].东南传播.2018

[5].邓先均,杨雅茜,罗昭,陈旭东,沈小平.网络舆情热点话题检测聚类算法研究[J].数字技术与应用.2018

[6].陈兴蜀,马晨曦,王文贤,高悦,王海舟.基于改进的ccLDA多数据源热点话题检测模型[J].工程科学与技术.2018

[7].余湛.基于微博的热点话题检测[D].福州大学.2017

[8].尚鸿运.中文微博的热点话题检测及趋势预测算法研究[D].天津大学.2016

[9].吕伟.微博热点话题检测与跟踪技术研究[D].东南大学.2016

[10].胥亚伟.基于语境分析的微博热点话题检测研究[D].江西财经大学.2016

标签:;  ;  ;  ;  

热点话题检测论文-程克非,邓先均,周科,罗昭,陈旭东
下载Doc文档

猜你喜欢