导读:本文包含了话题识别论文开题报告文献综述及选题提纲参考文献,主要关键词:微博舆情,本文聚类,K-means,主题词
话题识别论文文献综述
闫俊伢,马尚才[1](2019)在《基于文本聚类的网络微博舆情话题识别与追踪技术研究》一文中研究指出为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。(本文来源于《重庆理工大学学报(自然科学)》期刊2019年09期)
张佩瑶,刘东苏[2](2019)在《基于词向量的话题焦点识别方法》一文中研究指出【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚类效果,有效的获取各阶段的话题焦点。(本文来源于《情报科学》期刊2019年07期)
毛建景,张君君[3](2019)在《基于粒度商空间下的话题识别与跟踪研究》一文中研究指出文中旨在对自然语言所形成的信息流进行话题识别与跟踪,其目的主要针对网络舆论中出现的新话题进行识别,并实现对已有话题的跟踪研究。基于相容商空间粒度下软聚类算法,实现对话题的识别与跟踪,是舆情分析的关键技术。话题识别与跟踪采用软聚类算法,根据相容关系原理,计算距离函数,使话题呈现一定的层次结构,再利用相容隶属函数实现对边界文本的话题确认,形成注明标注信息的语料。同时,结合基于Ontology情感分类法,计算与情感词汇中的语义相似度,统计目标情感词汇的倾向性权重,建立基于粒度商空间下的话题识别与跟踪模型,有效地促进话题倾向性的研究,最终实现对网络舆情话题的识别与跟踪,为相关部门监管网络舆情、掌握舆论方向提供指导。(本文来源于《计算机技术与发展》期刊2019年07期)
程秀峰,张心怡,王宁[4](2018)在《基于CART决策树的网络问答社区新兴话题识别研究》一文中研究指出【目的】协助相关决策部门监督和管理网络舆情,探测可能成为舆情关注焦点的新兴话题。【方法】提出网络问答社区中新兴话题的识别标准和依据,并基于知乎问答社区,利用CART决策树对识别过程进行实证研究。【结果】对于网络问答社区, CART决策树在新兴话题的识别与预测方面具有较好的准确性和适用性。【局限】实验数据只占知乎所有话题板块的一小部分,为验证该方法的有效性,需要进一步扩展数据集。【结论】基于CART决策树的网络问答社区新兴话题识别方法能够有效预测新兴话题,可为网络问答社区的热点话题筛选机制提供参考。(本文来源于《数据分析与知识发现》期刊2018年12期)
钱晨嗣,陈伟鹤[5](2018)在《基于转发关系和单词特征的微博话题识别模型》一文中研究指出相对一般文本,微博中包含大量的转发关系,传统的文本中挖掘算法不能很好地建模。单词具有情感特征,且微博话题标签更够揭示本中的主要内容。针对以上两点提出基于转发关系和单词特征的主题模型。该模型首先将用户主题模型和转发关系结合,然后根据单词特征求话题权重以新话题列表。实验表明该模型可能取得较好的效果。(本文来源于《信息技术》期刊2018年09期)
程传鹏,张书钦,刘小明,夏敏捷[6](2018)在《基于特定话题的网络水军识别研究》一文中研究指出针对网络论坛中水军的特点,提出了一种基于特定话题的网络水军识别方法。分析了网络水军的用户名特征、注册时间特征、回帖时间特征、关注度特征、回复频度特征、话题回复特征、负面情感特征,并给出了相应的计算方法。对网络论坛中的用户,根据特征建立向量空间模型,利用机器学习中的分类方法对用户进行分类。实验结果表明,所提出的水军识别方法,准确率和召回率都有一定的提高,能有效识别针对特定话题的网络水军。(本文来源于《中原工学院学报》期刊2018年04期)
朱波[7](2018)在《基于词熵的中文话题识别方法》一文中研究指出针对传统话题模型无法识别海量文本数据中的话题内容,提出了一种基于词熵的自动识别新闻话题内容的方法。该方法以词的熵值为依据识别话题词,根据话题词在原始文本中出现的顺序表示各话题词之间的语义关系,并构建话题词网,然后利用模块化度量值识别话题词网中的隐含社区,把每个隐含社区视为一个新闻话题。该方法能够有效地判断每一篇新闻报道的核心话题,并且能够以一种具有可读性的方法表征文本数据中的话题内容,实验结果证明了该方法的有效性。(本文来源于《渤海大学学报(哲学社会科学版)》期刊2018年04期)
王曰芬,许杜娟,杨振怡,罗浩[8](2018)在《舆情评论与新闻报道的话题识别及其主题关联分析》一文中研究指出[目的/意义]针对同一事件新闻报道与舆情评论既相互依存又偏离的现象,通过话题识别与主题关联分析,探索新闻报道引发的舆情评论在主题内容与时间阶段上的异同,拟为研究以舆情评论表达的舆情事件和以新闻报道表达的社会现实之间的共振与偏离,进而为探究社会舆情传播规律提供参考,为服务政府科学决策提供依据。[方法/过程]以拉斯韦尔(5W)模型、LDA主题模型和Python工具为基础,设计研究思路和流程,从腾讯新闻和知乎平台上抓取新闻报道和评论的数据,经过处理加工过后加以分析挖掘。[结果/结论]研究发现:舆情事件主题会一定程度偏离社会现实主题,衍生出更多隐性主题;舆情事件与社会现实的发展走向较一致;此外,社交媒体相较于新闻媒体所衍生的舆情事件主题更多,而两者反映的社会现实主题类似。(本文来源于《现代情报》期刊2018年06期)
杨云[9](2018)在《网络舆情话题识别及情感倾向分析的应用研究》一文中研究指出随着互联网的发展,微博的媒体属性越发丰富,越来越多的民众倾向于用微博来曝光社会中的不良现象、发泄情绪等。在微博中,网民对事件的看法、情绪会影响事件的发展走向,若负面舆情话题出现而又没有及时控制和引导,会使得负面有害信息传播泛滥,影响社会和谐,因此,对网络舆情进行话题识别、情感倾向分析及探索网民的情感变化特点在网络舆情监测和引导方面具有非常重要的理论价值和现实意义。本文在研究网络舆情话题识别和情感倾向分析方法的基础上,结合网络舆情演化阶段分析了话题极性对网民情绪的影响及网民情感倾向的变化特点,所做工作主要有以下几方面:(1)本文尝试将基于LDA的改进K-Means聚类方法应用到微博子话题识别中,并与传统的K-Means聚类方法进行对比,实验结果显示,基于LDA的改进K-Means聚类方法可以识别微博子话题,且效果优于传统的K-Means聚类。(2)以现有的情感词典为基础,详细介绍了本文七种词典的构建方法,并制定了情感计分策略,然后用随机森林分类方法和基于词典的方法进行情感分类实验,实验结果表明,本文所构建的词典和情感计分策略在情感分类中有一定优越性。(3)结合网络舆情的演化阶段划分,以“海南天价机票”事件为例,分析了话题极性对网民情绪的影响及网民情感倾向的变化特点,研究发现话题的极性对网民情感倾向的变化具有一定的解释作用,在萌芽期,舆情信息少而分散,网民的情感并不显着,但是到了成长期,若负面话题较多,微博信息的扩散以转发为主,网民的负面情绪会快速集聚,这一时期,是政府或企业及时采取措施控制和引导舆情发展的关键时期;在爆发期,意见领袖的观点对舆情发展方向有很强的带动作用,政府或企业需要重点关注微博意见领袖的言行;爆发期之后,网民对舆情事件相关的新动态比较敏感,政府或企业需要持续关注舆情动态。(本文来源于《云南大学》期刊2018-06-01)
高云雪[10](2018)在《基于机器学习的水军识别及话题影响力分析研究》一文中研究指出随着互联网的高速发展和迅速普及,新浪微博已经成为了当前社会受众最大的综合性社交平台。截止到2017年6月,新浪微博月活跃用户数已经达到3.61亿,与上年同期比较增长了28%。但其快速发展也伴随着一系列问题,其中就包括水军在微博平台兴起、并逐渐呈现快速增长的趋势。微博水军的存在极大程度的影响了微博话题的质量,致使很多不真实的话题内容干扰网民们的思考以及对话题趋势的判断,进而造成社交环境不健康等严重问题。本文通过研究水军用户与正常用户的属性区别,基于改进的逻辑回归算法对水军用户建立特征识别模型,进而筛除水军用户和其所发表的微博信息后对微博内容进行话题检测,然后针对话题层次上的微博进行影响力分析,找出能代表当前话题意见领袖的微博。通过对话题检测和分析话题层面的微博影响力找出微博中的意见领袖来了解当前微博最新最热的资讯及其舆论方向。本文针对水军的用户特征属性、行为特征属性和时间特征属性结合改进的逻辑回归算法应用Tensorflow学习框架训练得出微博水军识别模型,通过对比实验结果发现改进的方法能够有效的识别出微博水军;同时利用LDA主题概率模型和改进的Single-pass增量聚类算法的结合,对去除水军用户所剩下的正常用户的微博内容进行话题检测,最终得出话题。由于原有的Single-pass算法聚类效率较差、依赖文本的输入顺序,以及针对微博的特殊性不能聚类得到良好的话题结果,所以对Single-pass做出了以下改进:1)增加时间参数判断话题是否满足同一性;2)计算聚类中心点,以减少文本间多次相似度计算以提高聚类效率;3)批量输入微博文本数据减少原算法过度依赖输入顺序对话题结果的影响。对原有算法和改进后的算法分别进行实验,最终对比实验结果证明改进后的Single-pass算法提高了话题检索效率和准确率。本文提出了话题层面的微博影响力评价方法,该方法利用了PageRank的基本思想对检测到的话题进行影响力分析找出话题层面的微博意见领袖。其中话题层面的微博影响力和以下叁个因子有关:1)用户的活跃度;2)话题有关的微博受关注度;3)转发话题微博的用户质量。最后通过对具体的实例进行分析研究说明该方法的有效性和可行性。(本文来源于《北京工业大学》期刊2018-06-01)
话题识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚类效果,有效的获取各阶段的话题焦点。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
话题识别论文参考文献
[1].闫俊伢,马尚才.基于文本聚类的网络微博舆情话题识别与追踪技术研究[J].重庆理工大学学报(自然科学).2019
[2].张佩瑶,刘东苏.基于词向量的话题焦点识别方法[J].情报科学.2019
[3].毛建景,张君君.基于粒度商空间下的话题识别与跟踪研究[J].计算机技术与发展.2019
[4].程秀峰,张心怡,王宁.基于CART决策树的网络问答社区新兴话题识别研究[J].数据分析与知识发现.2018
[5].钱晨嗣,陈伟鹤.基于转发关系和单词特征的微博话题识别模型[J].信息技术.2018
[6].程传鹏,张书钦,刘小明,夏敏捷.基于特定话题的网络水军识别研究[J].中原工学院学报.2018
[7].朱波.基于词熵的中文话题识别方法[J].渤海大学学报(哲学社会科学版).2018
[8].王曰芬,许杜娟,杨振怡,罗浩.舆情评论与新闻报道的话题识别及其主题关联分析[J].现代情报.2018
[9].杨云.网络舆情话题识别及情感倾向分析的应用研究[D].云南大学.2018
[10].高云雪.基于机器学习的水军识别及话题影响力分析研究[D].北京工业大学.2018