文本内容分类论文-王浩铭

文本内容分类论文-王浩铭

导读:本文包含了文本内容分类论文开题报告文献综述及选题提纲参考文献,主要关键词:电网安全隐患,文本分类,句式内容表,机器学习

文本内容分类论文文献综述

王浩铭[1](2019)在《基于句式内容表的电网安全隐患文本分类方法》一文中研究指出文章使用构建的句式内容表配合机器学习的方式对长白电网历年储存的电网安全隐患信息进行精准分词并将其按要求分类,方便按类别精准取用信息为日后进一步数据分析打下基础。(本文来源于《信息通信》期刊2019年09期)

汪明阳[2](2018)在《基于文本内容分析的Web API协同标注与分类研究》一文中研究指出随着Web服务方式的发展,新型的数据资源Web API大量地涌现出来。为了更加方便地管理快速增长的Web API,人们基于Web API的描述文本使用标签信息对Web API进行标记,而如何正确高效地对Web API进行分类标注的方式显得尤为重要。鉴于此,本文结合深度学习与文本内容分析的相关技术,对于Web API单标签的分类任务,将卷积神经网络(Convolutional Neural Network,CNN)文本分类模型应用于Web API数据,实践CNN对Web API数据的分类效果;对于Web API多标签的标注任务,本文基于文本内容分析及协同过滤的思想,提出基于自编码网络的协同标注模型进行处理。本文的创新之处在于使用自编码网络提取的文本特征来增强相似性计算继而基于文本内容进行协同标注,避免了因为Web API数据稀疏导致协同标注效果不佳的情况。具体来说,本文的主要工作如下:1)通过CNN有监督地学习方式,将相关的基于CNN的分类标注模型应用于Web API文本数据上,并设计相关的实验来验证分类标注模型对Web API文本的分类效果。本文使用的基于CNN分类标注模型有两个,一个是通过CNN连接Softmax进行文本分类;另一个是使用CNN提取文本特征,然后计算文本特征向量与类别标记之间的相似度,并通过相似性对API文本进行分类。2)提出基于自编码网络的Web API协同标注模型,使用自编码网络对Web API文本内容进行无监督地学习,提取得到Web API的文本特征。由于Web API数据的稀疏性,不能直接使用协同过滤算法对Web API数据进行标签推荐。利用自编码网络学习得到的Web API文本特征,求得待标注API的相似API集合,根据相似API集合中的标签类别,完成多个标签的标注任务。设置不同的协同过滤算法中的超参数,查看超参数对Web API协同标注模型的影响。3)选取各个模型中效果最好的结果,纵向比较模型对Web API的分类或者标注的效果,实验最终结果表明基于自编码网络的协同标注模型对于Web API文本的综合分类效果最好。(本文来源于《云南大学》期刊2018-05-01)

焦桐[3](2018)在《面向微博文本的情绪内容分类系统设计与实现》一文中研究指出互联网和信息技术日新月异的发展,改变了人们以往的生活方式。各式各样的社会化网络应用,吸引了大量的网民用户注册使用。通过这些网络平台,人们可以及时查阅新闻热点、自由发表观点见解。微博作为当前主流的社交网络应用,拥有庞大的活跃用户群体,逐渐成为网民发言互动和宣泄情绪的首要平台。大量的情感信息充斥在海量微博数据中,对这些数据进行情绪内容分类不仅可以及时掌握大众情绪走向、实行舆情监控,还可以观察情绪变化状态,有利于个人情绪的管理和调节。因此,准确识别微博文本内容中的用户情绪,实现文本内容的情绪类别划分,在理论研究和系统应用层面都有重大意义。在现有的微博文本情绪分析研究中,存在着情绪词典构建不完善、分类方法准确度不高等问题。为了解决这些问题,本文提出一种情绪词典和情绪分析规则结合的分类方法,可以识别微博用户在发布内容时的主观情绪,并设计实现了能对微博文本内容进行情绪类别判定与划分的分类系统。具体的研究工作如下:1、收集整理了现有的知名中文情感词典资源,通过去重合并构造出中文基准情绪词典,并对微博文本表达中常用的表情符号和网络词语进行收集和情绪判定,更深入地完善微博情绪词典。详细介绍了情绪词典各组成部分的具体构建规则,并使用多点扩充的SO-PMI算法完成微博情绪词典的自动扩展,提高词典对新情感词的识别准确率。2、综合考虑微博文本中的情绪表达特点,分析比较了传统的以情绪词典为核心的情绪分类方法和以机器学习方法为核心的情绪分类方法,针对两种方法的不足,归纳总结出微博情绪识别规则,提出情绪词典与识别规则结合的情绪分类方法,利用公式计算得到各类情绪强度数值,通过分析强度值得出微博文本的所属情绪类别。设计分组实验验证了该分类方法的有效性,也证明了构建的微博情绪词典和提出的情绪识别规则能有效提升分类结果的准确率。3、在构建完成微博情绪词典和情感强度计算公式的基础上,设计并实现了面向微博文本的情绪内容分类系统。系统分为数据采集和管理、情绪词典构建、文本处理和情感值计算、情绪类别判定四个功能模块,通过对微博文本中情感信息的准确识别和计算,可以实现对大规模微博文本数据集的情绪自动分类,并将分类后的统计情况展示出来。(本文来源于《北京邮电大学》期刊2018-04-15)

刘晋宏[4](2018)在《基于用户生成内容的多标签文本分类方法的研究与实现》一文中研究指出随着Web2.0技术的发展,用户生成内容的模式已经成为发展最为迅速的资源创作和分享模式。在用户生成内容的模式下,生成了大量的多标签的文本数据。这些文本数据在信息检索、数据挖掘领域有广泛的应用。如何对这些多标签文本进行自动类别标记,是一个值得研究的问题。在传统的单标签分类问题中,每个样本仅属于一个类别标签,但是在多标签分类问题中,一个样本可以同时属于多个类别标签。多标签分类在数据预处理、特征选择、模型训练和预测等方面与单标签分类有很大的区别。多标签分类技术现已成为数据挖掘技术中的一个研究热点。其研究成果广泛地应用于不同的领域,如图像视频的语义标记、功能基因组和音乐情感分类等。在用户生成内容的场景中,不仅内容在以很快的速度进行更新,标签的数目也在不断发生变化,传统多标签分类算法并不能很好地适应这样的场景。同时,标签的大量增加,也带来了如何对数据高效地进行特征选择等问题。基于以上内容,本文的主要研究工作如下:1)提出了一种基于信息增益的快速多标签特征选择方法MLFSIG。该方法基于特征独立性假设,通过计算每一个特征对于标签集合的信息增益来计算特征的重要程度。通过对信息增益计算过程的优化,大大降低了算法的时间复杂度。本文在多个数据集上进行了实验,验证了算法的有效性。2)提出了一种基于重启动随机游走的多标签分类方法ML-RWR。该方法把多标签数据映射为图上顶点,通过不同的连接方式构造不同的随机游走图。对于新的样本,把它加入到随机游走图中开始随机游走,并通过随机游走结果来确定样本在标签上的概率分布。在本文中,我们构造了两种随机游走图,一种是基于KNN连接方式的随机游走图,另一种是基于标签中心点连接方式的随机游走图。文本基于标签中心点连接方式的随机游走图,提出了一种自适应的多标签分类方法,相比传统的多标签分类方法,该方法能更快地适应标签不断变化的场景。最后,本文在多个数据集上进行了实验,通过与多个算法在多个评价指标上进行比较,验证了算法的有效性。3)多标签文本分类原型系统的设计与实现。本文基于Django框架和MVC模式,设计了一个多标签文本分类原型系统。使用该系统可以快速进行多标签文本分类器的构建,完成数据处理、模型训练和数据预测等功能。(本文来源于《北京邮电大学》期刊2018-03-10)

律佳[5](2016)在《基于内容的文本分类算法综述》一文中研究指出随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化时代,可以获得越来越多的数字化信息,而这些信息大都是半结构化或非结构化数据,为了从中快速有效地获得自己需要的信息,我们需要研究基于内容的文本信息分类技术。(本文来源于《“决策论坛——企业党建与政工创新工作发展学术研讨会”论文集(下)》期刊2016-05-12)

刘嘉谊,刘高勇[6](2015)在《基于文本分类的标准文献内容比对模型研究》一文中研究指出在分析标准文献结构和文本分类的基础上,提出基于文本分类的标准文献内容比对模型,实现标准文献内容的快速提取和自动分类,支持相关技术人员和企业轻松快捷地实现标准比对工作,为标准文献比对工作的可持续发展提供方法和策略。(本文来源于《科技情报开发与经济》期刊2015年06期)

吴克贤[7](2013)在《基于分类的文本内容判别方法研究》一文中研究指出随着近年来互联网的高速发展,人们接触到的信息愈加丰富。这些信息绝大部分都是积极向上的,但也不乏包括色情、反动和暴力恐怖在内的不良信息,这些信息已经占据中文总网页的12%,极大的影响着网络文化的发展,因此快速有效的屏蔽不良网页成为网络文化发展的重要内容之一。经过多年的发展,人们已普遍采用技术手段和法律法规相结合的方式来杜绝不良信息,即:先通过技术手段从大量的网页中识别出含有不良信息的网页和网站,然后根据法律法规对其做出相应的处罚。这是一种有效的方法,但是受技术的限制,仍有很大一部分的不良网页难以被识别和屏蔽。近年来,受益于中文处理相关技术的发展,不良网页识别方法获得新的发展机遇。其中以中文文本分类技术最为突出,相比基于关键词的方法,它具有误判率低和识别率高的优点。但面对海量的中文网页,单级文本分类器在速度和准确度上都难以满足要求。通过对大量网页文本的分析发现,绝大多数的不良网页集中出现在少数的类别中,因此本文提出一种先分类后判别的二元级联识别方法,即:先通过在多类分类中召回率和速度均具有优势的KNN分类器筛选出高危类别,再利用快速准确的二元分类器SVM进行是否含有不良信息的判别。该方法的优势在于通过第一级分类器过滤掉大部分正常的网页,仅留下高危类别网页,减少后续判别的压力,提高了处理速度,同时保证了整体的判别准确度。为此,本文做了大量的相关工作,包括以下研究内容和创新点:a)研究中文分词技术,比较常见分词系统的优缺点;掌握TF-IDF量化方法与向量空间模型,以及特征向量的降维;b)文中着重研究分析了NB、KNN和SVM分类算法的原理和特点,通过实验对几种算法的性能进行了对比测试;c)根据不良网页的分布情况设计分类判别系统,包括:系统模型的构建,KNN分类器的改进,SVM分类器的改造,系统实现与测试,相关文本的收集和整理等。(本文来源于《中国地质大学(北京)》期刊2013-05-01)

张朝阳[8](2013)在《基于内容和情感的文本分类方法研究》一文中研究指出文本分类在自然语言处理、信息组织、内容过滤等领域都有着广泛的应用。传统的K最邻近法具有简单、强壮、无参数、分类精度高的优点,但它需要计算一个新文本和所有训练文本的距离,因而需要大量的计算时间。针对这一问题,本文在使用K最邻近法之前先使用聚类方法对数据进行预处理,具体做法是使用CHAMELEON算法把训练集中的每个类聚成多个小簇,计算小簇的质心得到广义实例集,找到与未知文本最近的k1个广义实例,再用回溯法找到这k1个广义实例所代表的原始文本,从这些原始文本中找到与未知文本最近的k2个文本,用它们投票表决未知文档的归类。在Tan语料库和复旦语料库上的实验表明该方法能够达到与传统KNN相同的分类精度和召回度,而运行时间只需要KNN的十分之一左右。在网络购物中消费者对商品的评论已成为电子商务信任机制的重要组成部分,但大多数电子商务网站还不能从语义层面上自动区分好评与差评。本文以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootrapping情感词挖掘算法,并利用互信息将这些情感词分为正面和负面两类。根据句子中包含正面和负面情感词的数目将电子商务网站上的图书评论自动分为好评和差评。对2026条图书评论作分类实验,正确率将近82%,说明了算法的有效性。分词和特征项选择是文本分类的前期准备工作。本文通过在微软研究院提供的中文语料上做分词实验发现条件随机场要优于隐马尔可夫模型。信息增益、互信息、期望交叉熵和卡方统计量是四种特征选择的方法,本文的对比实验表明信息增益和卡方统计量这两种方法在文本分类中表现较好。(本文来源于《华中科技大学》期刊2013-01-01)

陈细华[9](2013)在《基于内容和文本辅助的web图像分类系统的设计与实现》一文中研究指出随着移动互联网时代的到来,人们可以通过任何手持移动设备发布声音、图像和视频等多媒体资源到互联网上,导致互联网上的多媒体信息呈爆炸式增长,基于内容的图像分类和检索技术由于在管理和准确查询web图像等领域拥有广阔的应用前景而受到业界越来越广泛的关注,例如Google和百度等搜索巨头都推出了自己的图像检索功能。本文在分析目前web图像分类技术的基础上进行了深入的研究,结合图像视觉特征和网页相关文本信息,设计并开发了一个web图像分类系统TinyPanda。首先,为了全面的描述图像内容本身,本文提出一种基于SVM将SURF局部特征描述子和全局特征决策融合的图像分类算法。该算法首先提取图像的SURF特征向量集合,利用局部敏感哈希(LocalitySensitiveHashing,LSH)归约成单一直方图向量,然后提取图像的全局特征(如颜色),接着分别利用SVM对上述特征进行分类,并对其分类结果做决策融合,从而得到最终的分类结果。该算法除了综合利用图像的局部特征和全局特征各自在图像特征描述方面的优势之外,既能克服全局特征和局部特征直接融合用于图像分类时的维数泛滥,又能解决由于SURF关键点数量造成的匹配点寻找时间复杂度过高的问题。然后,在构建web图像分类系统的数据库时,设计并实现了基于关键字的web图像主题爬虫,在爬取图像的过程中,根据预先限定的一系列关键字来计算网页相关度,并对网页正文区域进行识别,以达到网页级图像筛选以及网页中图像和文本信息获取的目的,从而克服由于Web网页上图像纷繁复杂难以限定图像类别的问题。最后,采用融合图像和文本辅助的web图像分类技术,通过人工决策算法,融合图像在视觉特征提取和SVM分类决策融合后获取的属于各类别的概率,以及网页按照关键字相关度计算后获取的该图像所在网页对应文本类别的权重,实现web图像分类准确率的提高。为了验证上述算法,本文设计并开发了一个web图像分类系统TinyPanda,系统主要包括查询模块、视觉特征提取模块、多特征融合模块、web图像主题爬虫模块、视觉特征和文本信息融合模块等功能模块。通过对从网页上实时爬取的13719张web图像构建的图像库进行的实验,结果表明,决策融合HSV颜色和局部SURF特征后能将平均分类准确率从单一视觉特征的74.6%提高到82.7%;网页文本信息辅助视觉特征的web图像分类能将平均分类准确率进一步提高到91.5%。充分验证了本文的多特征融合算法和文本辅助算法的有效性。本文的研究工作是对基于内容的web图像分类和检索技术走向实用化和商业化的有意探索和尝试,论文中提出的算法具有一定的理论意义及应用价值。(本文来源于《华中科技大学》期刊2013-01-01)

朱学芳,冯曦曦[10](2012)在《基于文本内容的农业网页信息抽取和分类研究》一文中研究指出通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。(本文来源于《情报科学》期刊2012年07期)

文本内容分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着Web服务方式的发展,新型的数据资源Web API大量地涌现出来。为了更加方便地管理快速增长的Web API,人们基于Web API的描述文本使用标签信息对Web API进行标记,而如何正确高效地对Web API进行分类标注的方式显得尤为重要。鉴于此,本文结合深度学习与文本内容分析的相关技术,对于Web API单标签的分类任务,将卷积神经网络(Convolutional Neural Network,CNN)文本分类模型应用于Web API数据,实践CNN对Web API数据的分类效果;对于Web API多标签的标注任务,本文基于文本内容分析及协同过滤的思想,提出基于自编码网络的协同标注模型进行处理。本文的创新之处在于使用自编码网络提取的文本特征来增强相似性计算继而基于文本内容进行协同标注,避免了因为Web API数据稀疏导致协同标注效果不佳的情况。具体来说,本文的主要工作如下:1)通过CNN有监督地学习方式,将相关的基于CNN的分类标注模型应用于Web API文本数据上,并设计相关的实验来验证分类标注模型对Web API文本的分类效果。本文使用的基于CNN分类标注模型有两个,一个是通过CNN连接Softmax进行文本分类;另一个是使用CNN提取文本特征,然后计算文本特征向量与类别标记之间的相似度,并通过相似性对API文本进行分类。2)提出基于自编码网络的Web API协同标注模型,使用自编码网络对Web API文本内容进行无监督地学习,提取得到Web API的文本特征。由于Web API数据的稀疏性,不能直接使用协同过滤算法对Web API数据进行标签推荐。利用自编码网络学习得到的Web API文本特征,求得待标注API的相似API集合,根据相似API集合中的标签类别,完成多个标签的标注任务。设置不同的协同过滤算法中的超参数,查看超参数对Web API协同标注模型的影响。3)选取各个模型中效果最好的结果,纵向比较模型对Web API的分类或者标注的效果,实验最终结果表明基于自编码网络的协同标注模型对于Web API文本的综合分类效果最好。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本内容分类论文参考文献

[1].王浩铭.基于句式内容表的电网安全隐患文本分类方法[J].信息通信.2019

[2].汪明阳.基于文本内容分析的WebAPI协同标注与分类研究[D].云南大学.2018

[3].焦桐.面向微博文本的情绪内容分类系统设计与实现[D].北京邮电大学.2018

[4].刘晋宏.基于用户生成内容的多标签文本分类方法的研究与实现[D].北京邮电大学.2018

[5].律佳.基于内容的文本分类算法综述[C].“决策论坛——企业党建与政工创新工作发展学术研讨会”论文集(下).2016

[6].刘嘉谊,刘高勇.基于文本分类的标准文献内容比对模型研究[J].科技情报开发与经济.2015

[7].吴克贤.基于分类的文本内容判别方法研究[D].中国地质大学(北京).2013

[8].张朝阳.基于内容和情感的文本分类方法研究[D].华中科技大学.2013

[9].陈细华.基于内容和文本辅助的web图像分类系统的设计与实现[D].华中科技大学.2013

[10].朱学芳,冯曦曦.基于文本内容的农业网页信息抽取和分类研究[J].情报科学.2012

标签:;  ;  ;  ;  

文本内容分类论文-王浩铭
下载Doc文档

猜你喜欢