子话题论文-代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀

子话题论文-代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀

导读:本文包含了子话题论文开题报告文献综述及选题提纲参考文献,主要关键词:话题模型,子话题,层次聚类,隐狄利克雷分布

子话题论文文献综述

代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀[1](2019)在《基于层次聚类的子话题检测算法》一文中研究指出使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重迭话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性.(本文来源于《华南理工大学学报(自然科学版)》期刊2019年08期)

周楠,杜攀,靳小龙,刘悦,程学旗[2](2018)在《面向舆情事件的子话题标签生成模型ET-TAG》一文中研究指出关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势.(本文来源于《计算机学报》期刊2018年07期)

韩冰,汪波[3](2016)在《一种基于改进蚁群算法的子话题划分方法》一文中研究指出针对话题追踪与检测多停留在二维空间的平面集合操作,忽略了事件主题及其直接相关事件之间可能存在一定的层次关系这一问题,通过改进蚁群聚类算法中的相似度度量方法以及状态转换函数改进现有蚁群聚类算法,并利用改进的蚁群聚类算法实现新闻话题的子话题自动划分。结果表明,改进的算法能够具有较高的子话题划分识别能力。(本文来源于《济南大学学报(自然科学版)》期刊2016年06期)

翟羽佳[4](2016)在《特定事件微博子话题特征提取研究》一文中研究指出对特定事件的子话题特征提取,能够帮助我们挖掘当前用户关注的重点和细节,更深层次探索事件话题的语义特征。本文利用LDA主题模型对特定事件的微博进行主题建模,设计了主题顶层差异度和融合度对相似子话题进行融合,并合理利用科学的先验知识确定子话题数量,避免了以往基于专家知识确定话题数量的偏移,同时设计选择算法对子话题的候选关键词和主题微博进行标记,从而更好的描述子话题的类型和内容。(本文来源于《情报科学》期刊2016年03期)

李湘东,巴志超,黄莉[5](2015)在《基于LDA模型和HowNet的多粒度子话题划分方法》一文中研究指出针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(How Net)语义词典相结合的多粒度子话题划分方法(MGH-LDA)。首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分。通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。(本文来源于《计算机应用研究》期刊2015年06期)

魏明川,朱俊杰,张瑾,张凯,程学旗[6](2014)在《基于吸收马尔可夫链的子话题发现方法》一文中研究指出受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。(本文来源于《中文信息学报》期刊2014年01期)

陈儒华[7](2013)在《中文微博子话题构建技术研究与实现》一文中研究指出微博作为新兴的信息交流媒体,报道了社会、政治、经济和文化等各领域的大部分新闻事件。在微博平台中,用户难以在短时间内阅读完每天产生的大量微博,话题成为微博信息组织的重要方式。以话题的方式组织主题相关的微博,一定程度上缓解了微博数目巨大的问题,但是在一个话题中仍然包含数目巨大的微博。在话题中往往包含多个关系密切的子话题,如何将话题组织为子话题的形式成为一个亟待解决的问题。本文进一步细化组织话题,通过构建子话题和提取子话题标签来展示话题的内容。本文综合运用微博的内容信息和主题向量构建子话题,并考虑了地点、人物等因素对子话题构建的影响。在提取子话题标签时,研究了一种基于随机游走模型的Label Rank子话题标签提取算法,本文的主要工作和创新点如下:(1)在微博数据预处理方面,本文首先过滤信息量较小或者不包含人物和地点名词等无意义的微博,然后利用正则表达式对微博数据进行清洗,如删除URL链接和“@用户”等,最后利用维基百科的简繁体对应表对文本中的繁简体进行了统一。(2)本文研究了一种基于微博内容和主题向量的子话题构建方法。本文方法考虑了地点、人物等因素对子话题构建的影响,通过构建人物向量、地名向量、关键词向量和微博内容的主题向量综合判断微博文档之间的相似度,实验证明,本文研究的方法能有效的构建话题下的子话题,相比只构建主题模型的方法1F值提高了4.2%,归一检测错误开销降低了8.6%,且对主题内容相近难以区分的子话题在区分上十分有效。(3)本文研究了一种Label Rank子话题标签提取算法,该算法通过构建基于LDA的词共现加权图,采用随机游走模型对图中的关键词进行排序,并选取计算结果中的Top-K个关键词作为子话题的标签,实验证明Label Rank算法能够有效的提取子话题标签。(4)在舆情监控系统YHPODS的框架内,实现了区域话题的子话题构建模块。子话题构建模块采用了Cassandra分布式集群和关系数据库Oracle的双策略存储机制,实现了基于中国地名库的区域话题微博采集算法、IP地址与地理位置映射算法和基于微博内容与主题向量的子话题构建算法,取得了很好的效果。(本文来源于《国防科学技术大学》期刊2013-09-01)

周学广,高飞,孙艳[8](2013)在《基于依存连接权VSM的子话题检测与跟踪方法》一文中研究指出针对在新闻话题中报道突发、热点相似且子话题层次丰富的现象,依据增量TF-IDF值构造特征维,生成全局向量;然后在时间窗内生成特征连接权的局部邻接图,利用依存句法进行分析降维;最后采用领域词典加权,时间阈值衰减;从而构造出利用依存连接权VSM进行关联分析的子话题检测与跟踪(sTDT)计算方法。实验表明,利用依存关联分析使文本表示由线性变为平面结构,能够有效地提取描述子话题;在人工标注的测试语料下,其最小DET代价比经典方法至少降低2.2%。(本文来源于《通信学报》期刊2013年08期)

赵爱华,刘培玉,郑燕[9](2013)在《基于LDA的新闻话题子话题划分方法》一文中研究指出针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.(本文来源于《小型微型计算机系统》期刊2013年04期)

仲兆满,李存华,戴红伟,刘宗田[10](2013)在《融合内容与时间特征的中文新闻子话题聚类》一文中研究指出子话题是对话题的再次划分,是比话题粒度更细的新兴研究方向,子话题的聚类是话题内部演化关系分析的基础。提出了融合内容特征和时间特征的中文新闻子话题聚类方法,重点分析了子话题内容特征的表现规律,研究了子话题特征词的权重计算和降维方法。选取5个话题的18个子话题进行了实验,结果表明,所提方法的性能与已有的子话题聚类方法相比有显着提高。(本文来源于《计算机科学与探索》期刊2013年04期)

子话题论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

子话题论文参考文献

[1].代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀.基于层次聚类的子话题检测算法[J].华南理工大学学报(自然科学版).2019

[2].周楠,杜攀,靳小龙,刘悦,程学旗.面向舆情事件的子话题标签生成模型ET-TAG[J].计算机学报.2018

[3].韩冰,汪波.一种基于改进蚁群算法的子话题划分方法[J].济南大学学报(自然科学版).2016

[4].翟羽佳.特定事件微博子话题特征提取研究[J].情报科学.2016

[5].李湘东,巴志超,黄莉.基于LDA模型和HowNet的多粒度子话题划分方法[J].计算机应用研究.2015

[6].魏明川,朱俊杰,张瑾,张凯,程学旗.基于吸收马尔可夫链的子话题发现方法[J].中文信息学报.2014

[7].陈儒华.中文微博子话题构建技术研究与实现[D].国防科学技术大学.2013

[8].周学广,高飞,孙艳.基于依存连接权VSM的子话题检测与跟踪方法[J].通信学报.2013

[9].赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统.2013

[10].仲兆满,李存华,戴红伟,刘宗田.融合内容与时间特征的中文新闻子话题聚类[J].计算机科学与探索.2013

标签:;  ;  ;  ;  

子话题论文-代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀
下载Doc文档

猜你喜欢