主题聚类论文-徐汉青,王思茗,孙熊兰,滕广青

主题聚类论文-徐汉青,王思茗,孙熊兰,滕广青

导读:本文包含了主题聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:知识网络,主题聚类,知识群落,知识演化

主题聚类论文文献综述

徐汉青,王思茗,孙熊兰,滕广青[1](2019)在《知识群落在文献资源动态主题聚类中的有效性》一文中研究指出文章将网络分析与时间序列分析相结合,基于社群发现算法和知识关联频度提取层次知识群落。从时间序列的层面,对层次知识群落在文献资源主题聚类中的有效性进行测算与验证。研究表明,层次知识群落能够凸现知识之间的强关系,能够有效表征文献资源的动态主题聚类。(本文来源于《图书馆理论与实践》期刊2019年11期)

李海林,邬先利[2](2019)在《基于时间序列聚类的主题发现与演化分析研究》一文中研究指出针对现有研究对文献主题发现和演化分析方法的单一性,本文提出了基于时间序列聚类的主题发现与演化分析方法。该方法首先通过共词分析找出文献数据集中高频关键词的共现矩阵,利用Ochiia系数计算方法将共现矩阵转换为相似性矩阵,然后使用近邻传播聚类算法发现文献主题。同时,再将主题在某段时间内的研究热度进行分析并转化为反映主题热度时间序列数据,结合时间序列聚类方法对各主题进行分类以及演化趋势的分析。实验结果表明,通过对中国知网中2000—2018年与创新管理相关的期刊文献进行数据处理与挖掘,提出的方法能有效地发现期刊的研究主题,并且能较好地分析这些主题的演化趋势。(本文来源于《情报学报》期刊2019年10期)

张会兵,钟昊,胡晓丽[3](2019)在《基于主题分析的用户评论聚类方法》一文中研究指出在社会化商务中对用户评论进行合理的聚类分析有利于商家提供精准服务或推荐信息,文中提出了一种基于主题分析的用户评论聚类方法。根据主题词在用户评论中的互信息强度以及主题词之间的相似度计算主题词权重,并依此构建用户评论主题向量。在此基础上,提出了一种基于用户评论相似度自动选择canopy聚类算法初始阈值的自适应canopy+kmeans聚类算法,对主题向量进行聚类分析。在亚马逊的评论数据上进行测试,结果表明:该方法充分描述了用户评论中不同主题词对用户观点的突出程度不同,并改善了K-means聚类算法易陷入局部最优的缺点,与传统的LDA+K-means算法相比,取得了更好的效果。(本文来源于《计算机科学》期刊2019年08期)

刘姬艳[4](2019)在《基于CNKI的中医治未病领域载文特点及主题聚类分析》一文中研究指出目的分析我国中医中文核心期刊在治未病领域的载文特点和主题聚类。方法以中国学术期刊网络出版总库(CNKI)为数据源,采用文献计量方法和Citespace 5.3.R4软件,对2018年11月5日之前的中医中文核心期刊(2017年第八版)治未病领域载文数量、载文期刊、发文作者、发文机构、主题热点等指标进行统计分析。结果共检索出国内中医中文核心期刊在治未病领域的载文411篇,载文数量从2006年开始出现增长,2017年达到峰值43篇。载文数量排名前5位的中医中文核心期刊载文数量占全部载文量的71.53%(294/411);发文量≥2篇的作者共为110名;发文量排名前5位的机构共发文58篇(14.11%)。载文热点聚类形成了治未病理论和思想研究、治未病在预防医学中的相关研究、治未病在糖尿病及糖尿病前期阶段防治的研究、治未病在健康管理中的相关研究4个聚类。根据关键词的凸显词和时区图结果显示,主要载文新热点在利用治未病理论进行健康整体管理,以及糖尿病等慢性病防治方面。结论治未病领域载文期刊较为集中,发文作者较分散,发文机构间存在一定的合作关系,但整体合作还不密切。载文新热点主要出现在健康管理和慢性病防治等方面。(本文来源于《中国中医药图书情报杂志》期刊2019年03期)

杨传春,张冰雪,李仁德,郭强[5](2019)在《基于LDA模型的网络刊物主题发现与聚类》一文中研究指出随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2 794篇学习刊物进行了主题发现和聚类实验,建立了包含3 800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。(本文来源于《上海理工大学学报》期刊2019年03期)

丁丽[6](2019)在《基于主题特征中心的微学习单元的层次聚类研究》一文中研究指出随着现代信息技术的迅猛发展,Web2.0时代开启了人类史上真正有意义的互联网在线学习之旅。信息运行载体和传播形态的改变导致学习内容碎片化,快节奏生活和多任务处理导致学习时间碎片化。此外,信息更新周期缩短带动了终身学习时代的到来。在碎片化学习和终身学习的大数据背景的推动下,构建主义学习观催生了一种新型学习范式——微学习。微学习的学习单元松散链接、动态重组,有利于拓展学习者的发散思维。微学习资源可按需提供,学习时间可控且灵活,学习兴趣易维持,学习效率更高等优势,因此微学习这种新型学习范式得以迅猛发展。Web2.0改变早期网络的“单行道”架构,让大众可以向网络发送并分享信息,微学习利用这一功能,推开“微”时代的大门。随着微学习的兴起,越来越多的微学习平台不断建立和发展,大规模开放式在线课程MOOC(Massive Open Online Courses)作为代表性的微学习平台之一,通过MOOC进行学习逐渐成为一种趋势。然而,微学习平台的发布者不是唯一的,大量学习资源的发布使得学习内容多源,即重复问题,学习者浪费大多时间在资源选择上,导致学习效率低下。因此,合理地组织和管理微学习资源是微学习研究的基础核心方向。微学习资源是由松散动态联结的微学习单元组成,微学习单元的组织形式可分为文本、图片和视频等。其中,视频形式的资源深受大众欢迎,能够激发学习的乐趣,且大量存在于微学习平台中。本文将视频形式的微学习单元作为研究对象,通过分析将视频字幕转录本作为微学习单元的特征,对微学习单元的视频字幕转录本采用聚类相关技术进行合理地组织微学习资源。本研究主要工作如下:(1)通过分析微学习,重点研究了MOOC平台中视频形式的微学习资源。本文将每个微学习视频看作一个微学习单元,对每个微学习视频的文本字幕转录本进行分析。另外对比分析常用文本聚类的优劣,重点研究了层次聚类技术和AP聚类技术。(2)通过分析微学习单元存在的层次结构和聚集特性,本文针对凝聚层次聚类算法不能处理大规模数据和该算法终止条件模糊且不可回溯的不足,创造性地采用了发现优质代表点的融合层次聚类技术。本算法的主要思想是:首先运用AP算法得到类代表点和相应的聚类簇,然后结合快速密度峰值算法对AP进行优化以发现优质类代表点,最后运用凝聚层次聚类技术构建簇内关系结构树和簇间关系结构树,完成基于主题特征中心发现的层次聚类技术。(3)通过分析文本聚类技术使用到的相关算法,结合微学习单元特点,构建了微学习单元文本主题中心发现的层次聚类系统模型,并且通过实验进行了具体的实现。其主要分为叁大阶段,依次为微学习单元文本前期预处理阶段、文本模型表示阶段和文本聚类阶段。前期预处理阶段又分为文本分词、去除噪声词和词干提取,文本模型表示阶段采用LDA模型对微学习单元主题进行建模,文本聚类阶段包括JS距离作为文本相似度和本文设计的聚类方法的实现。本文在微学习单元的字幕转录本数据集上分别采用k-means、HAC算法和本文算法作对比实验,实验证明采用基于主题特征中心发现的层次聚类方法对微学习单元具有较好的聚类结果,其聚类划分结果更加准确。(本文来源于《太原理工大学》期刊2019-06-01)

董静[7](2019)在《基于主题模型和聚类算法的网络热点话题发现》一文中研究指出社交媒体的快速发展引发的网络复杂性问题给网络的研究带来了很大挑战,网络中出现的舆情问题此起彼伏,用户可以随时随地发表自己的看法,这就积累了大量用户产生的数据。如:图片、文本、视频等。这些数据中隐藏着很有价值的信息,它反映了当前网民关注的热点话题,但是网络的错综复杂使人们不能及时有效地获取信息,如何准确发现网络中的热点话题成了学者们研究的重点问题。本文采集新浪微博数据,通过对微博文本内容、用户转发、评论等信息以及用户特点相关属性深入分析,主要工作如下:(1)针对传统词对主题模型在短文本处理时对所有词采取同一处理,忽略用户个性化问题,提出基于词对主题模型的话题特征提取方法。首先,主题建模时引入用户因素,将同一用户产生的所有文本作为一个文档;其次考虑背景词和主题词,删掉无关背景词,引入用户的吉布斯采样对模型参数推导;最后使用JS和余弦相似度联合判断话题是否为同一个分类,从而保证特征提取的准确度。(2)针对萤火虫算法易陷入局部最优,迭代过程中容易跳过最优解的问题,提出动态自适应步长萤火虫算法。迭代初期较大步长保证以较快的速度定位在接近全局最优解的范围内,迭代后期以较小步长在最优解附近寻优,从而增强算法的寻优能力。(3)针对模糊聚类算法(Fuzzy c-means algorithm,FCM)对初始中心点敏感,单纯对距离的聚类不能准确发现网络热点话题的问题,提出基于改进萤火虫算法的模糊聚类方法。通过改进萤火虫算法优化聚类中心,此过程中,话题影响力作为萤火虫相互吸引度,并将其应用到FCM算法中改善适应度函数寻优,依据文本相似度建立萤火虫个体的联系,得到初始中心后使用FCM算法再聚类。对聚类得到的话题根据影响力值高低排序,从而获得准确度高的热点话题。采集新浪微博真实数据,对上述工作进行实验,比较不同条件下各算法性能,实验结果表明本文所提算法的性能要优于其它算法。(本文来源于《河北大学》期刊2019-06-01)

杨秀璋[8](2019)在《基于LDA模型和文本聚类的水族文献主题挖掘研究》一文中研究指出针对传统民族文献主题识别不精准,缺乏深层次语义理解等问题,提出一种基于LDA模型和文本聚类的水族文献主题挖掘算法。通过Python抓取中国知网水族文献990篇,利用LDA模型挖掘水族文献主题分布特征,融合水族特征词典进行文本聚类,并挖掘出水族文化、体育、音乐、医学和水书五大主题的关键词,通过准确率、召回率和F特征值进行实验评估。实验结果表明,该方法有效地挖掘出水族文献主题关键词及热门研究领域,使得水族文献的主题脉络更加清晰,为下一步水族引文分析和数字化保护民族文献提供帮助,具有一定的应用前景和实用价值。(本文来源于《现代计算机(专业版)》期刊2019年05期)

肖巧翔,曹步清,张祥平,刘建勋,李晏新闻[9](2018)在《基于Word2Vec和LDA主题模型的Web服务聚类方法》一文中研究指出为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。(本文来源于《中南大学学报(自然科学版)》期刊2018年12期)

陈艳艳,张萍[10](2018)在《语义和主题聚类呈现对英语词汇联想反应的影响》一文中研究指出本研究通过词汇联想测试对比语义和主题聚类呈现条件下的高中英语词汇教学效果。研究结果表明:在新词初学、再学和延时保持阶段,主题聚类都更有利于语义联想和体现搭配共现关系的横组合联想;在新词再学阶段,语义聚类则更显着地促进语义联想和横组合联想提升;高、低水平学习者的横组合知识学习成效具有显着性差异。通过对学习者认知与记忆方式、词汇微语境促学作用、词汇学习阶段性特点的讨论,研究提出以主题聚类呈现为本、语义聚类呈现有序介入的渐进式词汇教学范式。(本文来源于《外语界》期刊2018年06期)

主题聚类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对现有研究对文献主题发现和演化分析方法的单一性,本文提出了基于时间序列聚类的主题发现与演化分析方法。该方法首先通过共词分析找出文献数据集中高频关键词的共现矩阵,利用Ochiia系数计算方法将共现矩阵转换为相似性矩阵,然后使用近邻传播聚类算法发现文献主题。同时,再将主题在某段时间内的研究热度进行分析并转化为反映主题热度时间序列数据,结合时间序列聚类方法对各主题进行分类以及演化趋势的分析。实验结果表明,通过对中国知网中2000—2018年与创新管理相关的期刊文献进行数据处理与挖掘,提出的方法能有效地发现期刊的研究主题,并且能较好地分析这些主题的演化趋势。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

主题聚类论文参考文献

[1].徐汉青,王思茗,孙熊兰,滕广青.知识群落在文献资源动态主题聚类中的有效性[J].图书馆理论与实践.2019

[2].李海林,邬先利.基于时间序列聚类的主题发现与演化分析研究[J].情报学报.2019

[3].张会兵,钟昊,胡晓丽.基于主题分析的用户评论聚类方法[J].计算机科学.2019

[4].刘姬艳.基于CNKI的中医治未病领域载文特点及主题聚类分析[J].中国中医药图书情报杂志.2019

[5].杨传春,张冰雪,李仁德,郭强.基于LDA模型的网络刊物主题发现与聚类[J].上海理工大学学报.2019

[6].丁丽.基于主题特征中心的微学习单元的层次聚类研究[D].太原理工大学.2019

[7].董静.基于主题模型和聚类算法的网络热点话题发现[D].河北大学.2019

[8].杨秀璋.基于LDA模型和文本聚类的水族文献主题挖掘研究[J].现代计算机(专业版).2019

[9].肖巧翔,曹步清,张祥平,刘建勋,李晏新闻.基于Word2Vec和LDA主题模型的Web服务聚类方法[J].中南大学学报(自然科学版).2018

[10].陈艳艳,张萍.语义和主题聚类呈现对英语词汇联想反应的影响[J].外语界.2018

标签:;  ;  ;  ;  

主题聚类论文-徐汉青,王思茗,孙熊兰,滕广青
下载Doc文档

猜你喜欢