导读:本文包含了话题热度评估论文开题报告文献综述及选题提纲参考文献,主要关键词:话题检测,向量空间模型,Single-Pass算法,相似度计算
话题热度评估论文文献综述
高星[1](2017)在《面向新闻的话题发现和热度评估方法研究》一文中研究指出信息技术飞速发展,互联网广泛应用各个行业及领域,由于网络数据的迅速增长,对信息的收集和组织变得越来越困难,如何从大量的信息数据流中获得所需要的信息,成为亟待解决的问题。话题检测与跟踪(Topic Detection and Tracking,TDT)是解决该问题的关键技术,它旨在从新闻报道数据流发现话题,对已有话题进行后续追踪。话题发现是TDT中最重要的研究内容之一,旨在将相似新闻报道聚为类簇,从而得到话题,方便用户查询。因此,通过将话题作为粒度对信息数据地组织,便于人们了解一个事件的相关活动。本文在对话题检测技术及话题热度评估方法的国内外研究现状基础上,对其中的主要技术进行分析研究,本文的主要工作如下:第一,新闻文本数据预处理及文本表示模型的研究。本文结合新闻的特性,考虑新闻的标题内容和正文内容,以及新闻的增量特性,在特征词项权重计算中从词项在标题和正文中的位置信息及词项增量文档频率两方面进行优化。最后采用向量空间模型(vector space model,VSM)进行表示,将新闻文本数据转换为计算机可以识别的数据。第二,提出一种面向新闻的话题发现算法。针对经典Single-Pass算法进行了改进,从新闻的时间特性和动态特性两方面出发,在相似度计算中添加时间因素,同时聚类过程中也动态地更新话题的质心向量。本研究应用基于主题的网络爬虫构建的新闻等语料作为实验数据集,实验结果表明,改进的算法较经典算法在耗费代价和错检率上分别有所降低,验证了本算法的有效性和准确性。第叁,提出一种话题热度的评估方法。本文综合媒体关注度和用户关注度两个方面,对聚类后得到的话题簇评估其热度值。通过话题热度分析,得到某一时间段内的网络热点话题及其排序,利用话题热度指数值来分析话题发展变化趋势。(本文来源于《东北师范大学》期刊2017-06-01)
陈麓屹,周斌彬,徐萍[2](2015)在《虚拟社区话题热度评估算法研究》一文中研究指出随着互联网技术的发展,人们更多地选择在虚拟社区等网络平台发表言论和获取信息.该文提出一种新的基于K近邻算法的虚拟社区话题热度评估算法,能够更迅速、更准确地获取用户关注的热点信息,可用于防范危害言论的迅速传播.该算法是通过单个帖子的热度来计算话题热度,利用夹角余弦算法计算具有共同话题的帖子的相似度,采用K近邻算法的思想计算近似帖子的热度.实验证明,该算法具有较高的准确率.(本文来源于《浙江树人大学学报(自然科学版)》期刊2015年01期)
刘玉新[3](2013)在《Web2.0互联网在线话题发现和热度评估》一文中研究指出互联网信息繁多且良莠不齐,用户很难获取到自己想要的信息。搜索引擎的出现帮助用户高效率的选择自己想要的信息。但这些信息是分散且无组织性的,需要用户有先验的搜索条件。在线热点话题发现能得到规模相对较小、具有完整描述的话题。通过一定的策略,将话题按照其影响力的大小进行排序,使得互联网用户能节省更多的时间,在无先验知识的情况下,了解当前社会上发生的大大小小事件,追踪事件的来龙去脉。首先,本文使用中科院的汉语词法分析系统对新闻的标题和导语进行分词、词性标注、命名实体识别以及去停用词。使用空间向量模型对新闻报道进行建模,在一定程度上降低了向量的维度,减少了建模的复杂性;同时提出基于位置信息、命名实体、特征词突发性大小改进的增量TF-IDF权重计算公式,实时修正特征项权重值,在一定程度提高了新闻报道表示模型的准确性。其次,本文基于经典的增量Single Pass聚类算法的改进,提出基于时间窗口的话题多中心模型的增量K-Means聚类算法,改善话题中心漂移的现象,减少话题模型不充分带来的误差,提高聚类的准确度。话题往往有多个事件,随着时间的推进,话题的中心也逐渐发生改变,之前的话题模型很难准确表示话题。通过引入话题多中心模型,使用多话题中心表示话题,能有效的解决话题漂移的现象。经典的Single Pass聚类算法处理速度快,但是聚类结果不够准确,结果受新闻报道输入的顺序影响较大。通过对SinglePass初聚类结果进行K-Means重聚类,将各话题中心而非单个报道作为迭代聚类的对象,这样能高效的提高聚类的准确性。最后,本文提出新的能量积累函数,利用媒体关注度、话题的竞争度、话题突发性以及话题内聚性计算话题的热度,能更好的区分冷门话题和热门话题。基于话题衰退理论,提出感兴趣用户范围的概念,给予不同的话题不同的衰退速度。结合话题发展变化曲线图分析话题在整个生命周期中热度变化情况,以及在同一时刻不同话题热度大小排序情况,筛选出最终的热点话题。(本文来源于《华南理工大学》期刊2013-06-01)
话题热度评估论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网技术的发展,人们更多地选择在虚拟社区等网络平台发表言论和获取信息.该文提出一种新的基于K近邻算法的虚拟社区话题热度评估算法,能够更迅速、更准确地获取用户关注的热点信息,可用于防范危害言论的迅速传播.该算法是通过单个帖子的热度来计算话题热度,利用夹角余弦算法计算具有共同话题的帖子的相似度,采用K近邻算法的思想计算近似帖子的热度.实验证明,该算法具有较高的准确率.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
话题热度评估论文参考文献
[1].高星.面向新闻的话题发现和热度评估方法研究[D].东北师范大学.2017
[2].陈麓屹,周斌彬,徐萍.虚拟社区话题热度评估算法研究[J].浙江树人大学学报(自然科学版).2015
[3].刘玉新.Web2.0互联网在线话题发现和热度评估[D].华南理工大学.2013
标签:话题检测; 向量空间模型; Single-Pass算法; 相似度计算;