新事件检测论文-郭磊,李弼程,赵军磊

新事件检测论文-郭磊,李弼程,赵军磊

导读:本文包含了新事件检测论文开题报告文献综述及选题提纲参考文献,主要关键词:话题内新事件检测,主题词向量,K-means聚类

新事件检测论文文献综述

郭磊,李弼程,赵军磊[1](2019)在《基于主题词向量聚类的话题内新事件检测》一文中研究指出目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。(本文来源于《中文信息学报》期刊2019年06期)

高耀文[2](2018)在《面向蒙古文新闻语料的新事件检测》一文中研究指出蒙古文作为内蒙古自治区主体民族使用的主要文字,在各个领域都被广泛应用。其使用者分布在中国、蒙古国和俄罗斯等国家,在世界范围也有一定的影响力。随着蒙古文相关的网络资源逐渐增多,对蒙古文信息进行检测与追踪的需求不断增加。然而,至今为止在国内外对蒙古文文本的新事件检测研究还是空白。因此,亟需对蒙古文的新事件检测任务展开研究。本文针对蒙古文新闻语料新事件检测任务,提出了基于深度学习的新事件检测方法。首先,使用向量空间模型(Vector Space Model,VSM)进行蒙古文新闻语料新事件检测。此方法主要对文档内容进行建模,并以此作为基线方法。其次,将命名实体识别(Named Entity Recognition,NER)融合到传统的向量空间模型中,进一步对文档的地点、机构名进行提取。相比传统的VSM模型,该方法误检率更低。然后,为了提取多维事件要素,包括主体、客体、时间和地点,本文引入双向循环神经网络(Bidirectional Recurrent Neural Networks,BiRNN)进行事件要素提取。实验结果表明,相比VSM-NER的方法,其错检率和误检率明显降低。为了进一步提高蒙古文新闻语料新事件检测的准确率,将双向循环神经网络和条件随机场(Conditional Random Field,CRF)相结合的方法应用于新事件检测中,检测性能得到了进一步提升。(本文来源于《内蒙古大学》期刊2018-04-25)

丁喆[3](2017)在《基于混合模型的社交网络新事件检测方法研究与应用》一文中研究指出传统的新事件检测往往只注重检测过程中的某一具体环节,而尚未构架出一个完整而全面的能够保证新事件检测准确度和效率的系统。本文在现有新事件检测研究的基础上,针对现有社交网络检测新事件中监测节点较多导致算法效率较低、时间准确度不够、水军用户对结果产生影响、结果话题性单一甚至最终结果中存在伪舆情的情况,除了提出如何高效获得核心节点之外,还考虑了识别水军账号和基于信息的主题社区划分、伪舆情验证检测等问题,旨在建立一个相对完善、实用的严密而完善的新事件检测方法。本文以新浪微博为研究对象,首先用EBKND算法抓取核心用户数据,获得一个初始的可用数据库。紧接着,为了保证获得的新事件的准确性和严密性,本文引入了水军剔除和主题社区划分的步骤。通过基于综合指数和熵值法的水军识别算法来剔除水军主要是为了防止获得的用户中存在水军的可能性;除了水军问题之外,新浪微博还存在一个比较严重的问题就是关于娱乐报道及与明星有关的事件占据过高的关注度,通过社交网络中基于主题信息的社区划分算法,就可以保证获得的新事件的多样性和高效性。最后一个步骤,检测伪舆情可以剔除结果中的“假新事件”,保证最终结果的准确性。最后,本文采用NED实验和评估,从四个方面来评估算法:缺失率、误报率、平均准确率和平均检测时间。通过对这些指标数据的运算和比较,我们可以发现权威用户分析模型对于NED的效果影响显着,即EBKND算法和水军识别两种算法保证了新事件检测的精度和效率。最后给出了在NED中引入主题社区的好处,除了降低了算法时间复杂度,最重要的是提高了话题的多样性。(本文来源于《湖南大学》期刊2017-04-10)

蔡偃武,高大启,阮彤,蒋锐权[4](2014)在《面向大规模数据的在线新事件检测》一文中研究指出通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s~200条/s。(本文来源于《计算机工程》期刊2014年10期)

李营那,阮彤,顾春华[5](2013)在《基于新闻要素的在线新事件检测》一文中研究指出在线新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出未知事件。提出一种基于新闻要素的自动在线新事件检测方法。首先,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;为计算各要素对应特征的相似度提供对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;为了衡量各要素的重要性,使用SVM模型训练得出各要素的权值;最后,以single-pass聚类算法为基础,在算法过程中不断修改事件的表示向量以防止事件中心的漂移,同时使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。实验结果表明该方法可以有效地降低系统的漏检率和误检率,提高事件检测的性能。(本文来源于《计算机应用与软件》期刊2013年12期)

蔡偃武[6](2013)在《面向大规模数据的在线新事件检测》一文中研究指出新事件检测是从以时间顺序到来的新闻报道流中发现新闻话题种子事件的第一篇新闻报道。由于目前Internet高速发展,网络新闻信息规模变得十分巨大,传统的新事件检测算法在处理大规模数据时出现了性能上的瓶颈。随着云计算时代的到来,Hadoop分布式计算平台将有效地解决传统算法在处理大规模数据集时的性能瓶颈问题。设计一个适用于分布式平台的高效在线新事件检测算法并将算法移植到分布式计算环境下,突破性能上的限制有着重要的现实意义。本文以传统新事件检测算法为基础,通过分析算法时间复杂度上的瓶颈,研究了改进的快速新事件检测算法,分析了算法的并行化策略,进而在Hadoop分布式平台下实现了适用于大规模数据的在线新事件检测方法。本文所做的工作首先是介绍新事件检测技术的研究背景、现实意义及研究现状。然后详细介绍了传统的新事件检测所涉及到的各种关键技术以及MapReduce分布式计算框架的相关知识。在此基础上,提出了改进的在线新事件检测算法,算法采用的倒排索引策略显着降低了时间复杂度,算法中的一些步骤采用了并行化设计,进一步加快新事件检测的速度。本文设计并实现了基于MapReduce的分布式新事件检测系统。最后通过实验证明了该方法的可行性和有效性。(本文来源于《华东理工大学》期刊2013-12-06)

李营那[7](2012)在《基于新闻要素的在线新事件检测》一文中研究指出随着Internet技术的迅速发展,在线新闻己成为人们获取信息的主要途径。然而互联网上的新闻杂乱无序、增长迅速,人们很难从如此庞大的信息库掌握有用的信息,特别是最新的消息动态。本文的研究对象一一新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出一个新闻话题未知种子事件的第一篇报道。本文主要针对新闻的四要素:时间、地点、人物和内容在新事件检测中的作用进行研究,把地名、人物和内容作为衡量报道和事件相似度的标准;并对支持向量机进行研究,探讨了它在新事件检测中的应用;进而提出了一种基于新闻要素的自动在线新事件检测方法。本文主要工作如下:第一,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道时间、地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;第二,为了解决事件中心随时间的漂移问题提出了事件中心模板动态更新算法,让事件中心模板随着新闻报道的不断加入而改变;第叁,为计算报道和事件各部分对应特征的相似度提供了对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;第四,为了衡量报道和事件各部分的重要性,使用SVM模型训练得出各要素的权值;第五,以single-pass聚类算法为基础,同时在新事件检测中使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。最后,设计了一个实验系统,并从丢失率、误报率、标准化代价和时间复杂度四方面对本文采用的方法进行评测。通过与基准算法比较表明,使用基于新闻要素的方法能有效提高算法的性能。当报道向量大小为50、事件向量大小为200、使用计算得到事件质心的方法以及滑动时间窗口为4时,算法能够得到最优结果。使用基于手动调节参数的方法虽然也能得到很好的实验结果,但是需要频繁的进行参数调节且难以取得最优值;使用基于SVM的方法能得到更加优越的结果并且不影响算法效率。(本文来源于《华东理工大学》期刊2012-11-26)

黄颖[8](2012)在《LDA及主题词相关性的新事件检测》一文中研究指出目前,话题检测与跟踪已被广泛应用,新事件检测作为话题检测与跟踪领域中的研究任务之一,为跟踪后续话题发展的先验知识,在话题检测与跟踪领域具有重要的理论研究意义。LDA主题模型不能自动识别新事件,其主题数需通过人工或反复实验来确定,识别效率低。本文提出基于LDA及主题词间的相关性新事件检测算法,同时结合报道发生的时间,确定合理的主题数目,从而探知新事件。实验证明,与传统LDA算法及Gibbs LDA算法相比,该方法具有一定优势,提高了对新事件检测的敏感度。(本文来源于《计算机与现代化》期刊2012年01期)

仓玉,洪宇,姚建民,朱巧明[9](2011)在《基于时序话题模型的新事件检测》一文中研究指出新事件检测(New Event Detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志。为此,提出时序话题模型(Temporal TopicModel,简称TTM)。TTM将话题和报道切分为若干对应不同时间表达式的事件。其中,时间表达式描述事件发生的特定时间。TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率。此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重。在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配。(本文来源于《智能计算机与应用》期刊2011年03期)

周淑贤[10](2011)在《基于SVM的新闻报道特征新事件检测研究》一文中研究指出随着因特网的普及,新闻网页已经成为人们获取信息的一个主要来源之一。但面对浩瀚的信息量,人们需要借助某种方式来快速、准确地搜集自己感兴趣的信息。话题检测与追踪(Topic Detection and Tracking, TDT)是一项为了应对信息海量的问题而展开的研究。美国1996年开始组织有关研究机构进行TDT测评,新事件检测(New Event Detection, NED)作为其关键子任务之一,研究的主要内容是怎样通过新事件检测系统检测出事件的第一篇新闻报道。国内相关研究虽起步较晚,但由于话题检测与追踪在信息检索、文本分类等相关领域的实际应用价值,其相关研究已成为信息处理领域的热点。基本的新事件检测系统主要分为文本表示、文本的比较与文本分类与时间窗口选择等几大模块。本文在国内外研究的基础上,以文本形式的中文新闻数据流为处理对象,对自然语言处理技术中时间信息的统一表达、地名的规范化处理、人名库的有效建立方等方面作了改进。特别地,考虑到新闻报道趋向于尽早将报道要义告知读者的特点,本文提出了位置信息这一概念,并在此基础之上通过可加函数和可乘函数对Okapi相似比较函数进行改进。文本的分类方面,本文中采用的支持向量机(Support Vector Machine, SVM)的方法有坚实的数学基础,是机器学习领域关注度相当高的一种方法,尤其是在无监督情形下有着良好的鲁棒性,已被成功的应用于模式识别及回归问题的分析。本文对从中新网、新华网等大型网站收集的含有20个主题的14295篇新闻文档分别采用核回归法(kernel regression)、最近邻域方法(nearest neighbor method)和支持向量机法(Linear-kernel SVM、RBF-kernel SVM)等方法进行新事件检测,通过对采用基本NED系统和改进后的NED系统进行实验得出的检测代价系数进行对比,得到叁种方法对应的代价系数分别降低了4.9%、7.3%和13.1%。由此说明了NED系统在应用了基于新闻语料特征改进的向量空间模型和采用体现了词汇位置信息的Okapi相似比较函数后,采用SVM方法进行文本分类较之以核回归方法和最近邻域方法进行分类,NED系统的性能提升更加有效。(本文来源于《中南林业科技大学》期刊2011-04-01)

新事件检测论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

蒙古文作为内蒙古自治区主体民族使用的主要文字,在各个领域都被广泛应用。其使用者分布在中国、蒙古国和俄罗斯等国家,在世界范围也有一定的影响力。随着蒙古文相关的网络资源逐渐增多,对蒙古文信息进行检测与追踪的需求不断增加。然而,至今为止在国内外对蒙古文文本的新事件检测研究还是空白。因此,亟需对蒙古文的新事件检测任务展开研究。本文针对蒙古文新闻语料新事件检测任务,提出了基于深度学习的新事件检测方法。首先,使用向量空间模型(Vector Space Model,VSM)进行蒙古文新闻语料新事件检测。此方法主要对文档内容进行建模,并以此作为基线方法。其次,将命名实体识别(Named Entity Recognition,NER)融合到传统的向量空间模型中,进一步对文档的地点、机构名进行提取。相比传统的VSM模型,该方法误检率更低。然后,为了提取多维事件要素,包括主体、客体、时间和地点,本文引入双向循环神经网络(Bidirectional Recurrent Neural Networks,BiRNN)进行事件要素提取。实验结果表明,相比VSM-NER的方法,其错检率和误检率明显降低。为了进一步提高蒙古文新闻语料新事件检测的准确率,将双向循环神经网络和条件随机场(Conditional Random Field,CRF)相结合的方法应用于新事件检测中,检测性能得到了进一步提升。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

新事件检测论文参考文献

[1].郭磊,李弼程,赵军磊.基于主题词向量聚类的话题内新事件检测[J].中文信息学报.2019

[2].高耀文.面向蒙古文新闻语料的新事件检测[D].内蒙古大学.2018

[3].丁喆.基于混合模型的社交网络新事件检测方法研究与应用[D].湖南大学.2017

[4].蔡偃武,高大启,阮彤,蒋锐权.面向大规模数据的在线新事件检测[J].计算机工程.2014

[5].李营那,阮彤,顾春华.基于新闻要素的在线新事件检测[J].计算机应用与软件.2013

[6].蔡偃武.面向大规模数据的在线新事件检测[D].华东理工大学.2013

[7].李营那.基于新闻要素的在线新事件检测[D].华东理工大学.2012

[8].黄颖.LDA及主题词相关性的新事件检测[J].计算机与现代化.2012

[9].仓玉,洪宇,姚建民,朱巧明.基于时序话题模型的新事件检测[J].智能计算机与应用.2011

[10].周淑贤.基于SVM的新闻报道特征新事件检测研究[D].中南林业科技大学.2011

标签:;  ;  ;  

新事件检测论文-郭磊,李弼程,赵军磊
下载Doc文档

猜你喜欢