网络短文本论文-赵越

网络短文本论文-赵越

导读:本文包含了网络短文本论文开题报告文献综述及选题提纲参考文献,主要关键词:社交网络,短文本分类,多属性特征,回归融合

网络短文本论文文献综述

赵越[1](2019)在《社交网络短文本的分类方法研究》一文中研究指出社交网络中的丰富信息,使之成为数据挖掘技术的研究热点。通过数据挖掘技术可以对灾害事件、民众舆情、可疑用户账号等进行监控,从而提升相关机构的灾害防御和救援能力,实现更智能的政治决策等。但社交网络数据的低信噪比等特点,并且现有的数据挖掘技术中较少考虑噪声的影响,价值信息被垃圾信息所掩盖,影响数据挖掘的效果。通过对社交网络短文本数据进行分类,过滤垃圾数据,保留价值数据,可以为数据挖掘提供更干净的输入数据,从而提升数据挖掘的效果。社交网络数据具有长度短、内容少、特征选择单一且特征表达能力弱等特点,因此传统的文本分类方法在社交文本分类应用中效果不好。并且现有文本分类方法多采用有监督学习的方法来实现,但有监督方法为构建良好的分类模型,对标注数据集的大小和质量有很高的依赖性,但实际工作中往往存在标注数据不足、标注困难、标注代价高昂等问题,这导致现有方法很难获得社交网络短文本的准确分类结果。本文针对上述二个问题开展研究,主要贡献概括如下:1.提出基于多属性特征的社交网络短文本分类方法。在特征抽取阶段,在传统的文本语义特征基础上,通过分析数据的特点,抽取了社交属性和结构属性作为语义属性的重要补充特征,解决了传统方法中特征表达能力弱等问题,很好的利用了社交网络所提供的信息。在特征学习阶段,利用不同的回归模型对多属性特征进行学习,提高了各模型的学习能力,以及特征表达能力,并在多模型融合中采用了加权平均的回归融合软处理操作,减少了噪声的引入,增强了模型的鲁棒性,从而实现数据的有效分类。在真实数据的测试中,本方法与常用方法相比,特征表达能力强,回归融合策略有效,分类性能有显着的提升,满足应用需要。2.提出基于主动学习的社交网络短文本分类方法。在多属性特征分类方法的基础上,加入主动学习框架,通过查询函数批处理选择数据交由专家标注的过程,大大的提高了算法的训练效率,引入外部专家的知识,减少了噪声的引入和错误的传播,利用迭代次数作为终止条件,简化了参数的设定,最终减少算法对训练数据的需求,降低分类成本,实现算法的高效训练。在真实数据的测试中,本方法与多属性特征的分类方法相比,在保证分类性能情况下,对训练数据的需求减少了20倍,从而解决了标注数据不足等问题。(本文来源于《电子科技大学》期刊2019-04-01)

艾阳坤[2](2018)在《基于词向量多维度注意力的卷积神经网络短文本语义相似度检测算法》一文中研究指出信息爆炸时代的到来使得每天在互联网中所流通的信息量急剧攀升,文本作为承载信息的主要载体也使得自然语言处理成为重要的议题,其中短文本相似度检测问题是一项重要的议题,即对于给定的两项短文本,用数字去量化它们之间的语义相似程度。在信息检索领域,短文本相似度检测算法可以帮助我们对文章进行初步的归类与消重。本文基于孪生卷积神经网络来处理两项短文本的文本相似度问题,我们使用GloVe词嵌入层模型用于描述短文本的特征,在嵌入层之后使用了两个维度来计算注意力矩阵,然后对句子的特征矩阵进行加权与原特征矩阵进行拼接。在卷积层,我们根据计算注意力矩阵时所使用的不同维度在卷积层也使用了不同粒度的卷积核。对于词向量维度的注意力矩阵加权拼接后的特征矩阵,我们使用整体卷积核进行卷积计算,而对于词向量单个维度的注意力矩阵加权拼接后的特征矩阵,我们使用单维卷积核进行卷积计算。根据计算注意力矩阵的维度和卷积核粒度的不同,以上的过程天然将我们的模型划分成了module_A和module_B两个数据流,本文参考了Hua He等人的池化方式对module_A和module_B使用了两种不同的池化策略,然后对拼接这两个模块所得到的结果进行相似度比较,最后再接入全连接层用于语义相似度的计算,并使用KL散度作为我们的损失函数。本文最终也在STS Benchmark数据集和SICK数据集上设计了多组对照试验,实验证明,相比较仅基于词向量维度注意力的卷积模型,皮尔逊系数有了1%左右的提升,而P值则落在1%到5%的区间,说明模型的改进具有显着性。并且相比较于效果更好的REGMAPR,我们在词嵌入层的处理完全基于注意力的原理,并没有在预训练的词向量之外引入其他的数据源,因此非常简洁。(本文来源于《华中科技大学》期刊2018-12-01)

沈美英[3](2018)在《基于免疫网络学习机制的中文网络短文本聚类算法》一文中研究指出近些年来,越来越多人习惯用网络上的文本来写作或者记录一些比较重要的事情。如果网络安全工作没做好,将会给个人带来一些不必要的损失。为了避免这种情况的出现,可以用网络短文本聚类来保护网络文本内容的安全。但网络文本聚类在使用过程中也有自身的缺点,例如网络文本的关键词不够准确、存在大量的变形词等,本文主要就是针对这种情况提出基于免免疫网络学习的文本聚类算法,首先选择合适的拼音序列组成网络文本来表示,然后将选择的文本构建一个学习机制,从中找到网络文本聚类之间的联系,致力于获得一个合理的结果。(本文来源于《自动化与仪器仪表》期刊2018年10期)

刘敬学,孟凡荣,周勇,刘兵[4](2019)在《字符级卷积神经网络短文本分类算法》一文中研究指出由于短文本具有长度短、特征稀疏以及上下文依赖性强等特点,传统方法对其直接进行分类精度有限。针对该问题,提出了一种基于字符级嵌入的卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的神经网络模型进行短文本的分类。该模型同时包括了高速公路网络(Highway networks)框架,用于缓解深度神经网络训练时的困难,提高分类的准确性。通过对几种数据集的测试,结果表明提出的模型在短文本分类任务中优于传统模型和其他基于CNN的分类模型。(本文来源于《计算机工程与应用》期刊2019年05期)

左颖[5](2018)在《基于深度学习的网络短文本情感倾向性分析》一文中研究指出随着移动互联网的迅猛发展,人们通过移动端参与各类网络活动时,产生了大量具有情感倾向性的网络短文本。如何快速从这些网络短文本中挖掘出其情感倾向性,为政府、企业以及个人的决策提供有效地帮助,已经成为自然语言处理领域的热点问题。对于网络短文本的情感倾向性分析问题中的关键环节,本文主要做了以下几个方面的研究。首先,针对传统的文本表示存在的问题,本文基于无监督的Word2vec模型的使用static和non-static两种方式训练两个公共文本数据集得,到对应的词向量,解决文本表示的相关问题。然后,针对文本特征提取问题,对传统情感分析方法进行研究分析,分别使用词向量和TF-IDF两种方式构造实验数据作为叁种经典机器学习模型的输入进行实验,分析对比实验结果,发现传统的机器学习模型对词向量中包含的情感信息学习能力有限。随后,针对传统机器学习模型对词向量中包含的情感信息学习能力有限的问题,将深度学习方法引入到网络短文本情感分析问题中。通过对比分析,提出了基于深度学习的卷积神经网络模型TCNN,并通过实验与传统机器学习模型对比,验证了在网络短文本的情感倾向性分析问题上,基于深度学习的卷积神经网络模型的有效性,同时对于可能影响该模型效果的影响因子进行实验对比分析。最后,在TCNN模型的基础上,为了能够更加充分地提取到文本中的局部敏感信息,提出了双通道卷积神经网络模型Double-TCNN,并通过实验与传统的机器学习模型和TCNN模型对比,验证了该模型的有效性。综上,在网络短文本情感倾向性分析问题上,本文使用词向量解决了文本数据表示问题;在传统机器学习模型的基础上,提出了基于深度学习的卷积神经网络模型TCNN,取得了比传统机器学习模型更好的效果;对TCNN模型进行改进,提出了双通道卷积神经网络模型Double-TCNN,实验证明该模型取得了比传统机器学习模型以及TCNN模型更好的实验效果。(本文来源于《西南交通大学》期刊2018-06-03)

胡博宏[6](2017)在《中文社交网络短文本情感分析研究》一文中研究指出移动互联网的井喷式发展使得社交平台短文本正以爆炸式的速度产生,然而传统文本分析方法难以应对短文本的稀疏性、随意性与热词性,且大部分应用深度学习的短文本分析都是针对英文语料,如何高效地分析、提取中文社交网络短文本的情感倾向具有不可估量的商业和社会价值。本文首先系统分析了传统文本情感分析模型,将词典方法与机器学习模型结合,完成情感分类器的训练。发现词典方法并不适用于简短随意的短文本,且传统方法数据预处理阶段滤除表情字符,造成重要情感特征的缺失。本文引入深度学习模型,结合社交网络短文本的特点,提出面向中文社交网络的短文本情感分析新机制。一方面使用word2vec工具训练词向量,提取短文本的语义特征,另一方面保留、提取微博文本中的表情字符,作为情感特征,共同构成多维特征集合;再通过卷积神经网络模型挖掘深度抽象特征,最终训练分类器完成情感分类任务,解决传统方法难以对短文本有效建模、分析的问题。实验结果表明,表情字符的融入使得情感分析准确率相对提高2.62%;此外,相比基于词典的机器学习模型,基于卷积神经网络的多维特征情感分析新机制将情感分析准确率与F度量分别相对提升21.29%和19.20%。(本文来源于《天津大学》期刊2017-11-01)

黄发良,李超雄,元昌安,汪焱,姚志强[7](2016)在《基于TSCM模型的网络短文本情感挖掘》一文中研究指出针对网络短文本情感挖掘问题,提出一种新的基于LDA和互联网短评行为理论的主题情感混合模型TSCM,TSCM模型中的整篇评论中每个句子的主题分布是不同的,TSCM产生词的流程是先确定词的情感极性,再确定词的主题,TSCM考虑了词与词之间的联系.真实数据集Movie与Amazon上的大量实验表明,与代表性算法JST、SLDA、D-PLDA和SAS相比较,TSCM模型能对用户真实情感与讨论主题进行更加有效的分析建模.(本文来源于《电子学报》期刊2016年08期)

李超雄[8](2016)在《基于主题模型的网络短文本情感分析研究》一文中研究指出随着Web2.0的快速发展,社交网站、微博和BBS论坛等平台给用户交流提供了更加方便的渠道,用户可以很方便地通过这些渠道发表自己的观点、意见。用户在网上发表的的文章评论、微博、论坛回复等等通常都是字符数量较少的文本,相对于传统的长文本,例如新闻、论文等,我们将用户发表的这些短文本称为网络短文本。用户发表的这些网络短文本常常饱含个人情感,隐含着巨大的价值,这使得网络短文本的情感挖掘备受关注,如何快速有效地从网络短文本中提取文本的情感极性并对其进行分析即文本情感分析已经成为一个研究热点。挖掘性能良好且可同步进行文本主题与情感分析的LDA(Latent Dirichlet Allocation)主题情感混合模型近来备受关注。本文通过大量研读LDA主题情感模型相关论文,发现现有LDA主题情感模型没有很好地考虑用户短评行为习惯;许多模型没有融入时间参数导致无法对文本进行主题情感演化分析;少有模型考虑微博等社交平台的用户关系致使对微博等社交平台文本情感分析准确率较低。针对上述3个问题,提出3个策略并将其应用于文本情感分析:1、现有LDA主题情感模型没有很好地考虑用户短评行为习惯,针对此不足,基于互联网短评行为理论在LDA主题情感模型中加入句子层改进LDA主题情感模型,构造新的主题情感混合模型(Topic Sentiment Combined Model,TSCM)。真实数据集上实验结果表明,TSCM拥有更高的文本情感分析准确率。2、针对现有LDA主题情感模型无法分析文本主题情感的演化与现有LDA主题演化模型无法对文本进行情感分析的缺陷,在LDA主题情感模型中加入时间参数,提出动态主题情感混合模型(Dynamic Topic Sentiment Combining Model,DTSCM)。在真实数据集上进行实验,实验结果表明DTSCM可以捕捉文本主题情感的演化。3、针对现有LDA主题情感模型没有很好地考虑微博等社交平台用户关系对文本情感分析准确率的影响,在研究微博用户关系的基础上,提出了用户关系主题情感模型(Social Relationship Topic Sentiment Model, SRTSM)。该模型在LDA主题情感模型中加入用户关系分布与用户关系参数,以期提高微博文本情感分析准确率。真实微博数据集实验表明,该模型可以有效地提高微博情感分析准确率。(本文来源于《福建师范大学》期刊2016-06-02)

尚勃[9](2016)在《Spark平台下基于深度学习的网络短文本情感分类研究》一文中研究指出如今,互联网的发展推动了大数据时代的到来,网络社交媒体产生的信息呈现出爆炸式的增长。通过对这些信息的整合与分析,可以及时了解大众的心理需求,掌握舆情走向。针对这些现状,本文以网络短文本为研究对象,利用文本挖掘、深度学习以及分布式并行计算等相关技术对其进行情感分类,主要工作包含以下叁个方面:(1)针对向量空间模型在表示网络短文本时存在特征词独立、向量高维稀疏等问题,本文引入Word2Vec中的CBOW模型,利用大量样本数据训练,得到一个多维的分布式词向量集合,实现了对短文本的表示,并通过计算词向量之间的距离获得同义词,完成对现有情感词典的扩充。(2)鉴于现有浅层结构学习算法对复杂函数的表示能力有限和泛化能力不足等问题,本文基于深度学习思想,构建了深度置信网络分类模型,该模型首先通过多层无监督的受限玻尔兹曼机实现特征向量的逐层转换,然后利用一层有监督的BP网络实现误差反馈并完成对网络短文本的情感分类任务,最后通过实验表明深度置信网络具有较好的特征提取能力,分类结果令人满意。(3)面对海量文本数据,为了提高情感分类的效率,本文利用HDFS实现网络文本数据的分布式存储,并结合Spark分布式内存并行计算框架,实现了对文本预处理以及深度置信网络的并行优化。通过实验表明,基于分布式的深度置信网络能够大幅度缩短训练时间,加快运算速率。设计并实现了网络短文本情感分类系统,该系统主要分为数据采集模块、数据预处理模块、情感分类模块以及分类结果可视化显示模块,实现了研究成果的具体应用,进一步验证了本文所提出研究方法的有效性。(本文来源于《西安建筑科技大学》期刊2016-06-01)

赵小娜[10](2016)在《社交网络短文本聚类研究与实现》一文中研究指出随着大数据时代的到来,互联网作为其载体以更加快速、便捷的方式渗入到民众的生活,扮演着越来越重要的角色。各大社交网络平台也应运而生,成为人们获取信息、发表自己观点的重要途径。社交网络承载的信息包罗万象却杂乱无章,对时事热点话题发现、舆情监测分析等文本研究带来了许多难题,不论机构还是个人,都很难从大量的信息中快速定位到所需内容。因此,通过对社交网络信息进行聚类分析来挖掘信息中蕴含的商业和军事价值具有重要意义。而不同于其他文本信息,社交网络信息绝大多数是以简洁的短文本形式出现的,传统长文本聚类方法并不适用。因此,如何快速有效的实现短文本的聚类也是文本聚类所面临的新挑战。本文针对目前短文本聚类存在的技术难点,提出了相应的解决方法。主要研究工作如下:(1)针对社交网络上不断涌现的大量网络流行语对中文分词的影响,提出基于广义后缀树的新词发现方法。在利用中科院分词系统对短文本进行分词和词性标注的基础上,制定新词词性组合规则从短文本中抽取组合词串,并构造组合词串的广义后缀树。一定程度上降低了构造树的时间、空间复杂度。提出基于词串长度特征与词串内部互信息特征的抽取方法进行新词发现,有效修正了单纯考虑词串外部结构特征或内部关联度带来的偏差,一定程度上纠正了中文分词的错误,为短文本聚类奠定基础。(2)针对短文本特征稀疏以及K-means聚类算法对初始K值、聚类中心点的选取敏感的问题,提出改进的特征词抽取方法和基于词共现的K-means聚类算法实现短文本聚类。短文本表示中结合新词的丰富含义与词语词性特征来提取短文本特征词,并抽取短文本集合的频繁词集构建词共现图,提取图中簇的个数作为K-means算法中的K值,并根据节点重要度提取各个簇的主题词作为初始聚类中心点。利用改进的短文本特征词表示模型与聚类初始值对短文本进行聚类,在解决短文本特征词稀疏难以提取的问题的同时修正了随机选取聚类初始值为结果带来的偏差。提取各个簇中贡献较大的词作为簇标签,确定每个类别的主题词,弥补了聚类完成后簇主题缺失的不足,使聚类结果更具直观性。(3)融合提出的新词发现方法与基于词共现的K-means聚类方法,设计并实现社交网络短文本聚类原型系统。该系统主要集成了读取原始数据、中文分词、新词发现、抽取特征词、提取初始聚类中心、文本聚类等功能。在系统环境下,完成对社交网络真实信息文本的聚类工作,并验证提出方法的正确性和有效性。(本文来源于《武汉理工大学》期刊2016-03-01)

网络短文本论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

信息爆炸时代的到来使得每天在互联网中所流通的信息量急剧攀升,文本作为承载信息的主要载体也使得自然语言处理成为重要的议题,其中短文本相似度检测问题是一项重要的议题,即对于给定的两项短文本,用数字去量化它们之间的语义相似程度。在信息检索领域,短文本相似度检测算法可以帮助我们对文章进行初步的归类与消重。本文基于孪生卷积神经网络来处理两项短文本的文本相似度问题,我们使用GloVe词嵌入层模型用于描述短文本的特征,在嵌入层之后使用了两个维度来计算注意力矩阵,然后对句子的特征矩阵进行加权与原特征矩阵进行拼接。在卷积层,我们根据计算注意力矩阵时所使用的不同维度在卷积层也使用了不同粒度的卷积核。对于词向量维度的注意力矩阵加权拼接后的特征矩阵,我们使用整体卷积核进行卷积计算,而对于词向量单个维度的注意力矩阵加权拼接后的特征矩阵,我们使用单维卷积核进行卷积计算。根据计算注意力矩阵的维度和卷积核粒度的不同,以上的过程天然将我们的模型划分成了module_A和module_B两个数据流,本文参考了Hua He等人的池化方式对module_A和module_B使用了两种不同的池化策略,然后对拼接这两个模块所得到的结果进行相似度比较,最后再接入全连接层用于语义相似度的计算,并使用KL散度作为我们的损失函数。本文最终也在STS Benchmark数据集和SICK数据集上设计了多组对照试验,实验证明,相比较仅基于词向量维度注意力的卷积模型,皮尔逊系数有了1%左右的提升,而P值则落在1%到5%的区间,说明模型的改进具有显着性。并且相比较于效果更好的REGMAPR,我们在词嵌入层的处理完全基于注意力的原理,并没有在预训练的词向量之外引入其他的数据源,因此非常简洁。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

网络短文本论文参考文献

[1].赵越.社交网络短文本的分类方法研究[D].电子科技大学.2019

[2].艾阳坤.基于词向量多维度注意力的卷积神经网络短文本语义相似度检测算法[D].华中科技大学.2018

[3].沈美英.基于免疫网络学习机制的中文网络短文本聚类算法[J].自动化与仪器仪表.2018

[4].刘敬学,孟凡荣,周勇,刘兵.字符级卷积神经网络短文本分类算法[J].计算机工程与应用.2019

[5].左颖.基于深度学习的网络短文本情感倾向性分析[D].西南交通大学.2018

[6].胡博宏.中文社交网络短文本情感分析研究[D].天津大学.2017

[7].黄发良,李超雄,元昌安,汪焱,姚志强.基于TSCM模型的网络短文本情感挖掘[J].电子学报.2016

[8].李超雄.基于主题模型的网络短文本情感分析研究[D].福建师范大学.2016

[9].尚勃.Spark平台下基于深度学习的网络短文本情感分类研究[D].西安建筑科技大学.2016

[10].赵小娜.社交网络短文本聚类研究与实现[D].武汉理工大学.2016

标签:;  ;  ;  ;  

网络短文本论文-赵越
下载Doc文档

猜你喜欢