话题发现和跟踪论文-周箫

话题发现和跟踪论文-周箫

导读:本文包含了话题发现和跟踪论文开题报告文献综述及选题提纲参考文献,主要关键词:威胁情报,话题检测,迁移学习,特征融合

话题发现和跟踪论文文献综述

周箫[1](2019)在《基于话题检测的网络安全威胁发现与跟踪技术研究》一文中研究指出恶意软件和高级持续性攻击(APTs)的出现要求安全专家从开源数据中实时分析、检测网络威胁,并将其转换成可读的威胁情报以帮助安全分析员尽早的快速响应及抵御新兴网络威胁。然而通过人力从大量开源无结构文本数据中识别网络威胁是不可能的。由于这些原因,我们需要多维度的知识发现和数据挖掘方法帮助我们系统的提高和理解网络数据威胁。网络威胁检测首先从多源安全数据中抽取威胁相关信息,然后通过数据关联方法综合这些信息碎片,创造更高层次的概念来描述潜在威胁。其具体可以描述为从开源的威胁信息碎片中实时识别即将到来的安全话题,形成威胁情报,帮助安全相关人员快速响应新兴网络威胁。之前的学者很少对开源威胁信息进行研究,现有的安全平台(security week,微步在线)也只是发现开源威胁信息的一般类别标签(病毒,漏洞),不能识别威胁信息具体所属的话题或者威胁标签(APTs)。因此,我们提出一个新颖的FAC-CTI(基于领域特征提取方法与改进层次聚类的网络威胁情报检测)方法分析开源威胁数据,实时识别新兴威胁话题。本文的威胁话题检测FAC-CTI方法主要由叁部分组成,分别是数据采集及预处理,关键特征抽取,话题聚类与跟踪。第一部分,首先数据采集模块收集安全论坛、安全资讯网站等所有安全类别数据,提取其中的标题、正文、时间和标签类别等信息,存入数据库。其次本文对爬虫工具抽取的文章进行预处理,去除噪声信息。本文预处理阶段对文章进行停用词删除、标点符号去除、词性标注及去除、大小写转换和词形还原等操作,最终生成的词语作为关键特征抽取的候选词,提高特征提取效率及效果。第二部分本文提出叁种特征提取方法:①在TF-IDF(Term Frequency-Inverse Document Frequency)方法基础上,本文提出考虑词位置、词性的增量TF-IDF方法计算词权重,提取关键词特征;②通过迁移学习的词向量模型训练词向量,本文提出结合特征词向量相似度的主题词特征提取方法识别文章主题词特征;③实体识别方法识别地名、人名和安全组织机构领域实体特征。第一部分生成的文章关键特征抽取的候选词作为输入,本文利用提出的叁种特征抽取方法提取文章叁种互补的特征。另外本文利用特征融合技术融合上述特征,构建文章特征向量。与之前特征提取方法不同,上述特征提取方法充分利用安全领域知识,提取出包含领域特性的特征。第叁部分,上述特征提取方法构建的文章特征向量作为输入,本文在HAC(层次聚类)算法基础上,提出改进的层次聚类算法对每段时间内的文章特征向量聚类,挖掘安全话题,实时识别新兴话题或者跟踪历史话题的事件延续。实验数据来自于开源wiki数据集,开源TDT5话题检测与跟踪英文数据集,以及爬虫收集的8个安全网站、论坛的安全数据集。FAC-CTI方法在安全数据集上的召回率,精确率,F值均达到0.98以上,且实验效果均高于其它常见的话题检测方法,实验结果证明FAC-CTI方法性能显着,能够很好的识别威胁话题。在TDT5数据集上进行话题发现与跟踪实验,本文提出的方法不仅能够进行威胁话题发现,进行调整后同样适用于其它领域话题检测与跟踪,证明本文提出的方法扩展性好。(本文来源于《北京邮电大学》期刊2019-06-05)

王新星[2](2017)在《基于大数据的企业舆情热点话题发现与跟踪技术研究》一文中研究指出大数据时代下,互联网已经成为企业快速发展的重要战略资源,网络中的热点话题直接反映了企业的舆情动态,成为企业决策的关键。因此,话题发现与跟踪技术受到越来越多的关注,已经成为当前的研究热点。然而,面对海量的互联网信息,如何能够从这些复杂的信息中快速、准确的进行数据挖掘的处理与分析面临着严峻的挑战。本文的研究重点是基于企业舆情的热点话题发现与跟踪技术研究,及其在Spark平台上的并行化处理。具体内容从以下几点进行展开:1.话题发现技术及并行化研究。首先,针对Kernel k-means算法初始中心点不确定和时间复杂度过高的问题,提出一种基于局部密度和Single-pass的Kernel k-means改进算法;其次,改进后的算法在Spark平台上的并行化实现;最后,实验验证改进后的算法具有更好的聚类结果且时间复杂度有所降低,同时并行化方式提高了对大规模数据的处理能力。2.话题跟踪技术及并行化研究。首先,对话题跟踪相关算法进行实验性能测试,选择分类效果较好的SVM算法作为话题跟踪的实现技术;其次,将基于叁层结构的Cascade SVM在Spark平台上进行并行化设计、实现;最后,实验验证在并行环境下,适当的分区数在保障分类效果较好的同时具有较高的计算能力。3.设计并实现基于企业舆情的实时热点话题发现与跟踪。通过改进后的话题发现算法及其并行化处理,在海量的网页数据中能够快速、准确的进行数据的聚类,发现潜在的热点话题。同时,叁层结构的Cascade SVM并行化处理,对于后续大量的新闻报道,能够快速、准确的进行处理、分类,实现话题的跟踪。(本文来源于《西安工程大学》期刊2017-05-21)

刘雅筠[3](2014)在《微博话题发现与跟踪技术研究》一文中研究指出微博以其快速的信息传播能力,广泛的用户参与特性以及显着的自媒体特征,为信息传播掀起了划时代的变革浪潮。现实世界中的公共事件及其社会舆论在微博中聚集、交锋、相互影响,使微博成为了一个巨大、复杂的舆论空间。公共事件的信息在微博中传播扩散,形成和影响了微博网络舆论,而网络舆论的演化和聚焦又会反过来影响现实世界中事件的发展。因此微博新媒体成为了研究公共事件及其社会舆论演化和相互作用规律的绝佳平台,也使这一研究具有很强的现实意义和社会价值。本文从微博新媒体中传播的信息入手,按信息对主、客观世界的刻画将其分成了两类:一类是对客观世界中事件的描述,表达了事件的结构属性和演化过程;另一类是对微博用户主观世界的描述,表达了微博用户对特定事件的兴趣与期待、观点与态度、情感与倾向。本文又分别选取了权威用户发表的长微博和普通用户对长微博的转评微博作为研究这两类信息的样本。基于此,本文先后对面向微博新媒体的新事件检测,事件的演化分析等问题进行了研究。在微博流的新事件检测方面,针对微博充斥噪音、语言简短随意、语法不规范、上下文结构松散等特点,提出了一种基于集群投票的新事件发现方法。该方法将微博流按用户个体及其社交关系进行分流,构造微博用户的个体判别模型,模拟构建了真实用户对新事件做出判断时所依赖的知识结构。再通过综合多个用户个体模型的判别结果,以投票的方式得出新事件检测的最终结论。通过实验证明了方法的有效性,提高了话题发现的准确性。在事件演化分析方面,针对已有研究中事件粒度难以确定的问题,将信息提取技术和原子事件的概念引入事件演化分析的研究中,提出了一种基于原子事件挖掘的事件演化分析方法。该方法首先从单篇文档中抽取原子事件,继而识别文档集合中原子事件的共指,再分析原子事件的演化关系,构建原子事件的演化结构。通过实验证明了方法的有效性,从原子事件的角度出发,提高了事件演化分析的准确性。(本文来源于《湖南大学》期刊2014-10-20)

徐会杰,蔡皖东,陈桂茸[4](2014)在《面向论坛的突发性热点话题快速发现与跟踪》一文中研究指出面对网络论坛中的海量信息,提出一种基于噪音过滤和话题聚类的突发性热点话题快速发现方法。该方法首先对采集到的论坛数据进行预处理,建立以主贴标题为索引的候选话题集;然后通过定义的热度和回复加速度指标对集合进行多重过滤;最后采用本文提出的聚类算法进行话题聚类获取突发性热点话题。研究结果表明:该方法对突发性热点话题发现的精确率、召回率和F1均达到80%以上,且在信息处理效率方面优势明显;该方法可有效跟踪突发性热点话题,弥补了传统静态方法不能有效跟踪热点话题的不足。(本文来源于《中南大学学报(自然科学版)》期刊2014年08期)

范晓楠[5](2014)在《微博热点话题发现与跟踪技术研究》一文中研究指出随着信息时代的来临,互联网作为全球信息化的平台,为人们提供了获取信息和发布信息的便利。在互联网产品中,即时通信、电子公告板、博客、微博,成为了信息的发布与传播的主要平台。2007年中国第一家社交网络饭否网拉开了中国微博的序幕,2009年微博的概念就深入人心。仅仅两年,微博势如破竹般抢占了中国互联网的制高点,在网民中日益火热。海量的信息,快速的传播,使用户越来越难把握住社会关注的热点,所以对微博热点话题检测的需求愈加强烈。用户在微博平台上只能接收到自己关注的用户发布的信息,而不能接收到整个网络中的信息,对事件的了解具有一定局限性。虽然微博平台提供了热点话题榜等应用,但由于介入了大量人工编辑的因素,导致话题并不够客观。因此,根据上述问题,本文研究微博热点话题发现与跟踪技术有着重要的现实意义。本文首先介绍了话题发现与跟踪技术的概念以及常用的聚类和分类算法。与微博的特点相结合,提出了基于语义的话题发现方法,并使用新型的聚类方法提高了话题发现的准确性。同时根据话题内微博的热度计算话题热度,通过量化后形成热点话题排行榜。另外,本文提出了一种增量分类的方法用于微博话题跟踪,取得了较好的效果。最后经过实验验证了算法的有效性和准确性,希望本文能够为民众了解社会热点、政府调查民情、企业认识竞争环境带来实际的帮助。(本文来源于《北京工商大学》期刊2014-04-01)

孟祥和[6](2013)在《藏文网站话题发现与跟踪技术研究》一文中研究指出随着互联网在藏族地区的蓬勃发展,网络的使用已经成为了生活在甘肃、西藏、青海和四川等地区的藏族人民生活中不可缺失的一部分。如何从每天产生海量数据的互联网中挖掘有价值的信息,成为了当前研究领域的一个新方向。话题发现与跟踪(Topic Detection and Tracking, TDT)的提出是为了帮助人们从海量的新闻报道中发现未知的新话题和已知话题的后续相关报道。本文的研究对象是藏文新闻网站中的新闻文本。TDT的研究主要包括六部分,分别是语料预处理、文本特征项提取、特征项权重计算、文本的向量表示及相似度比较、文本聚类算法和分类算法研究。本文重点研究权重计算和聚类算法。在研究过程中,当文本采用向量表示时,其向量的元素是由权值构成,可以将权值看作是研究的主导因素之一。本文在传统权重计算的基础上,通过提升藏文新闻标题中特征项权重比例,提高了特征项对应权值的可靠性。采用文本聚类的方式,实现藏文新闻文本的话题发现技术的研究,更加易于实现和理解。本研究的实质是一个动态的文本聚类算法的研究,文本聚类是利用向量空间模型来表示文本,将相似的文本聚类到一个类簇。本文提出一种聚类算法,是基于简易聚类算法的改进,首先改进了文本顺序对聚类结果产生的影响,其次引入种子话题的概念,通过种子话题的数量,来确定话题的类别。本研究的聚类算方法在较小规模的语料中较改进前源算法有一定程度的提高,基本符合预期要求,本文的研究工作为今后基于藏文新闻文本的话题发现与跟踪技术的研究奠定了良好的基础。(本文来源于《西北民族大学》期刊2013-05-01)

吴利华[7](2012)在《基于论坛的话题发现与跟踪算法研究》一文中研究指出互联网以其信息资源丰富、时效性强、覆盖面广的特点成为人们获取信息资源的主要方式。通过对话题发现与跟踪相关理论的研究,建立以话题为索引对信息进行梳理的方式,可以帮助普通用户获取感兴趣的信息,同时可以帮助政府、高校及相关事业单位及时获取网络上的舆情信息,便于维持网络安全,维护社会安定。针对论坛信息完善、用户参与度和活跃度高、覆盖范围广的特点,本文建立基于论坛的话题发现与跟踪模型。主要工作和创新点如下:首先,设计并实现了基于层级聚类算法的话题发现与跟踪模型,并将其成功应用到实际的舆情项目中。针对热点话题的发现,引入话题热度计算公式作为测度标准。其次,提出并实现基于可信关联规则的话题发现算法。针对传统层级聚类算法中存在的缺陷,提出基于可信关联规则的话题发现算法,并基于这种算法,发表EI会议论文《A practical approach to topic detection based on credible association rule mining》。改变传统话题发现方法中基于文档进行文本聚类的思路,通过直接对文档中的词项进行聚类,进行文本聚类。使用这种策略进行在线话题检测时,复杂度较低,且具有很好的聚类效果。通过实验发现,使用这种聚类策略,尤其在针对短文本聚类(如微博信息、论坛信息等)时,性能优于传统的基于文档进行聚类的方法。最后,设计校园舆情项目中的话题发现与跟踪算法模块,并使用基于可信关联规则的话题发现算法作为其核心算法。在实际运行过程.中,通过监测话题发现的性能,发现结果会产生一些垃圾话题信息,在原有对文档特征词进行极大团挖掘的基础上,提出基于极大准团的特征词挖掘算法。在实际应用中发现,使用该算法进行文本聚类和话题发现的效果在性能方面具有明显的提升。(本文来源于《北京邮电大学》期刊2012-12-01)

刘佳[8](2012)在《面向微博的热点话题发现及跟踪》一文中研究指出随着web2.0的不断发展和基于web2.0的应用不断出现,网民的交流方式大大发生了改变。微博是最近得到高速发展的一个基于web2.0的应用。网民通过微博,可以发表自身信息,关注他人信息或者转发、评论他人的信息。但这也使得网民容易陷入局部信息而忽略了整体信息。因此本文从微博用户发表的信息出发,对微博热点话题进行研究。研究的主要内容包括以下几个方面:1.从微博的组织方式出发,对微博信息进行采集。由于传统的爬虫在微博平台上受到了比较大的限制,所以本文设计了支持Ajax的微博爬虫,爬虫模拟网民浏览微博的方式对微博信息进行采集。同时,讨论了微博信息噪音存在的情况,并对不同的情况使用不同的方式进行预处理。2.针对微博由于字数限制而导致无法使用传统长文本聚类方法进行话题发现的情况,本文提出了微博讨论树的概念,并设计了微博讨论树合并算法,使短文本组织成长文本。3.对微博话题发现进行研究,本文实现了微博语义框架。但单纯从语义出发对微博进行话题发现存在一定缺陷。因此,本文提出使用基于Single-Pass与语义框架相结合的SPS(Single-Pass And Semantics)算法。经实验验证,SPS算法比单纯使用基于统计和单纯使用基于语义的算法有一定的提高。4.为了对热点话题进行跟踪,本文定义了微博的能量,微博讨论树的能量以及话题的能量,并给出计算话题当前能量值的算法。(本文来源于《华南理工大学》期刊2012-11-01)

韩威[9](2012)在《网络舆情热点发现与话题跟踪技术研究》一文中研究指出随着互联网的快速发展,网络已经成为人们表达情绪和态度的重要“场所”,不论是正面的、还是负面的网络舆情都对社会的稳定产生重要的影响。因此,国家相关部门对网络舆情的重视与日俱增,相应的互联网舆情监测系统也应运而生。它实时地采集互联网信息,智能地分析信息的内容,为相关部门监测网络舆情,引导正向舆情,处理舆情危机提供了良好的支持。本文对构建网络舆情监测系统相关技术,如自然语言处理技术、信息挖掘技术进行了研究,同时对目前已有的舆情监测系统进行研究,在此基础上构建舆情监测系统。本文重点对网络舆情监测系统的关键技术——热点话题发现与跟踪进行研究分析,在已有的技术手段上对其进行改进以适应现实监测环境。本文的贡献主要体现在以下3个方面:1.提出一种改进的Single-Pass增量聚类方法应用于热点话题发现。本文研究了热点话题发现的具体流程,将文本聚类作为其实现的关键技术之一。通过分析几种已有的文本聚类算法的原理及步骤,从五个方面对比分析了各算法的优缺点,最终选取Single-Pass增量聚类作为话题发现的实现方法。但是,Single-Pass算法存在对文本输入顺序敏感等缺点,在对该算法进行分析的基础上本文对其进行了改进,在算法精度、响应时间上有所提高,使其能适应大规模文本聚类。最后,经过对比实验证明,本文提出的算法具有良好的实际应用效果。2.提出一种改进的SVM算法应用于话题跟踪。本文研究了话题跟踪的具体流程,将文本分类作为其实现的关键步骤。通过分析文本分类方法和实验对比,选择了SVM算法作为其具体实现。但SVM算法比较适合二值分类问题,因此本文对其进行了改进,使其适应现实中多分类的要求,最终通过实验证明其有较好的实际应用效果。3.在对相关技术研究的基础上,本文设计了网络舆情监测系统的物理构建框架与逻辑实现框架,详细介绍了舆情监测系统各个模块的实现及功能,最终实现部署该系统。通过系统的实际运行,证明本文所提出的设计方案具有功能全面、速度较快、性能稳定等特点,为用户对网络舆情的监测与分析提供了有效的支持。(本文来源于《哈尔滨工业大学》期刊2012-07-01)

宋阳[10](2012)在《食品安全话题发现与跟踪研究》一文中研究指出近年来,在食品安全领域频繁出现各类问题,引起社会舆论的广泛关注。本文对食品安全话题发现与热点跟踪技术进行了研究,论文完成的主要工作如下:(1)提出了一种C-KMC话题发现算法,该算法可分为C过程和K过程。在C过程中采用计算开销较小的相似度计算函数,将整个样本集分割成多个子集,这些子集可以在保证不破坏文本簇的结构的基础上,减少了参与聚类计算的样本。在K过程中采用Xmeans聚类算法,在每个样本子集上进行聚类并发现话题。(2)提出了一种基于Chi-square相关度度量的特征聚合算法C-SRFC,可在文本分类过程压缩特征空间维度,从而减少分类过程中的计算开销。给出了叁种特征簇排序机制,可在特征聚合完成后对特征簇的重要性进行排序,去除相关度较弱的特征簇,从而进一步减小特征空间的维度。实现了一种特征簇加权方法CF-IDF,并与Hard-Weighting和TF-IDF累和特征簇加权方法进行了比较。实验结果表明,CF-IDF可以更好地适应本文提出的特征聚合算法C-SRFC所构建的特征空间。(3)设计并实现了食品安全领域话题发现与跟踪系统,该系统具有文本获取、话题发现、话题跟踪和话题展现的功能,并可以将发现的话题标注在网络地图上。本系统集文本采集、话题发现、话题跟踪和前台展示功能于一体,对实时在线获取的报道文本流进行分析,将食品安全领域的最新话题和它们的动态以图文的形式展示给用户。本系统可以帮助大众和食品安全监管部门尽快地了解最新的食品安全事件,并采取相应的应对措施。(本文来源于《北京邮电大学》期刊2012-01-03)

话题发现和跟踪论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

大数据时代下,互联网已经成为企业快速发展的重要战略资源,网络中的热点话题直接反映了企业的舆情动态,成为企业决策的关键。因此,话题发现与跟踪技术受到越来越多的关注,已经成为当前的研究热点。然而,面对海量的互联网信息,如何能够从这些复杂的信息中快速、准确的进行数据挖掘的处理与分析面临着严峻的挑战。本文的研究重点是基于企业舆情的热点话题发现与跟踪技术研究,及其在Spark平台上的并行化处理。具体内容从以下几点进行展开:1.话题发现技术及并行化研究。首先,针对Kernel k-means算法初始中心点不确定和时间复杂度过高的问题,提出一种基于局部密度和Single-pass的Kernel k-means改进算法;其次,改进后的算法在Spark平台上的并行化实现;最后,实验验证改进后的算法具有更好的聚类结果且时间复杂度有所降低,同时并行化方式提高了对大规模数据的处理能力。2.话题跟踪技术及并行化研究。首先,对话题跟踪相关算法进行实验性能测试,选择分类效果较好的SVM算法作为话题跟踪的实现技术;其次,将基于叁层结构的Cascade SVM在Spark平台上进行并行化设计、实现;最后,实验验证在并行环境下,适当的分区数在保障分类效果较好的同时具有较高的计算能力。3.设计并实现基于企业舆情的实时热点话题发现与跟踪。通过改进后的话题发现算法及其并行化处理,在海量的网页数据中能够快速、准确的进行数据的聚类,发现潜在的热点话题。同时,叁层结构的Cascade SVM并行化处理,对于后续大量的新闻报道,能够快速、准确的进行处理、分类,实现话题的跟踪。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

话题发现和跟踪论文参考文献

[1].周箫.基于话题检测的网络安全威胁发现与跟踪技术研究[D].北京邮电大学.2019

[2].王新星.基于大数据的企业舆情热点话题发现与跟踪技术研究[D].西安工程大学.2017

[3].刘雅筠.微博话题发现与跟踪技术研究[D].湖南大学.2014

[4].徐会杰,蔡皖东,陈桂茸.面向论坛的突发性热点话题快速发现与跟踪[J].中南大学学报(自然科学版).2014

[5].范晓楠.微博热点话题发现与跟踪技术研究[D].北京工商大学.2014

[6].孟祥和.藏文网站话题发现与跟踪技术研究[D].西北民族大学.2013

[7].吴利华.基于论坛的话题发现与跟踪算法研究[D].北京邮电大学.2012

[8].刘佳.面向微博的热点话题发现及跟踪[D].华南理工大学.2012

[9].韩威.网络舆情热点发现与话题跟踪技术研究[D].哈尔滨工业大学.2012

[10].宋阳.食品安全话题发现与跟踪研究[D].北京邮电大学.2012

标签:;  ;  ;  ;  

话题发现和跟踪论文-周箫
下载Doc文档

猜你喜欢