导读:本文包含了文本自动分类论文开题报告文献综述及选题提纲参考文献,主要关键词:文本表示,数据集偏斜,多层分类
文本自动分类论文文献综述
韦灵,黎伟强[1](2019)在《基于机器学习的中文文本自动分类的实践研究》一文中研究指出信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面地开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。(本文来源于《智库时代》期刊2019年46期)
韦灵,黎伟强[2](2019)在《基于机器学习的中文文本自动分类的实践研究》一文中研究指出信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。(本文来源于《智库时代》期刊2019年45期)
曲泷玉,贾依真,郝永乐[3](2019)在《结合CNN和文本语义的漏洞自动分类方法》一文中研究指出为解决大规模漏洞分类问题,提出一种基于卷积神经网络(convolutional neural network,CNN)的漏洞自动分类方法,借鉴深度学习的技术思想自动获取漏洞描述的相关局部特征,通过batchnorm规范化数据解决文本训练不稳定问题,进而实现漏洞类型的有效划分.实验表明,与传统方法相比,该方法在漏洞自动分类效率上能够得到显着的提高.(本文来源于《北京理工大学学报》期刊2019年07期)
王琳[4](2019)在《地震应急指挥系统信息文本的检索与自动分类研究》一文中研究指出我国的地震活动不仅频率高、强度大而且分布十分广泛,由其造成的社会经济损失居于自然灾害首位,因此如何有效的减轻和降低地震造成的社会经济损失,成为地震应急领域探讨和研究工作的重点。与发达国家相比,我国地震应急信息的管理主要存在着以下叁个方面的差异:(1)信息采集手段较单一;(2)信息传送不够及时、准确,甚至存在死角、失真现象;(3)信息获取速度较慢,产出与存储源多样。因此针对目前我国地震应急基础信息多渠道上传模式以及震后大量灾情等信息的纷纭复杂,基于信息检索在智能化领域的快速发展,本文收集了四川省2013年4月20日芦山7.0级地震、2014年11月22日康定6.3级地震、2017年8月8日九寨沟7.0级地震、2017年9月30日广元青川5.4级地震的四次地震应急资料,就我国的地震应急工作以及应急信息的检索分类做了以下分析与研究:(1)详细介绍了我国地震应急的工作体系、工作内容;分析了地震应急信息多渠道源的特点,按照信息产出的空间属性,将信息源划分为地震发生现场信息源和非现场信息源,结合应急信息的服务对象,以地震系统工作内部和工作外部环境来对信息的渠道和用户进行细分。(2)基于近年来专家学者在地震应急信息分类方面的研究成果,以信息服务的高效便捷为目的,按照地震事件的震前、震时、震后时间主线,将地震应急信息分为震前基础背景信息(震区自然灾害以及社会基础背景信息)、地震震情灾情信息(地震本身属性以及其造成的直接、间接损失信息)、震后应急救援信息(应急救援动态行动信息)叁类。(3)通过对文本信息检索方法的学习,考虑到目前地震应急信息手动归类存在的现实困难,基于地震应急信息分类的需求,构建了一种高效便捷的信息分类处理方法。对比分析了信息检索的叁种基本检索模型,采用TF-IDF为权值公式,选取传统的布尔模型(关键词分类法),展开了地震应急信息自动分类的研究。(4)采用“关键词分类法”,对多渠道地震应急信息的自动分类进行研究。主要工作有:1)信息的分类。对收集的应急资料,按建立的分类标准进行分类;2)文本的结构化处理。首先将各类信息集成于一个文本文档(.txt文档),再按动词、名词进行分词、词频统计处理;3)筛选关键词,得到关键词库。选取词频统计top20的词、计算每个词对应的TF-IDF值,按规则手动选取得到关键词库;4)在计算机语言的支持下,按词频所占比例将关键词库划分五个区间,采用布尔模型最大匹配的方式,设计地震应急信息自动分类的实现方法。信息经过结构化规范处理后,选取的震前基础背景信息关键词主要有人口、降水量、GDP等;地震震情灾情信息关键词主要有灾区、震情、余震等;震后应急救援信息关键词主要有绑带、搜救、医疗器材等。由筛选结果来看,各类信息的关键词之间具有一定的辨识度,处理后的信息使得传输的条理性更强,更便于进一步的信息加工与处理。实现地震应急信息的自动分类,能大大的提高信息的利用率,在一定程度上缩短应急信息加工处理与服务的时间,快速高效地为应急指挥提供信息服务。(本文来源于《中国地震局地震预测研究所》期刊2019-06-24)
多杰措,安见才让[5](2019)在《藏文应用文文本自动分类研究》一文中研究指出随着藏文应用文的数量与类型与日俱增,人们对藏文应用文信息准确性的要求也越来越高,图书资料的现代化管理迫在眉睫。为了适应应用文管理的新趋势,更好地使用户查阅应用文资料,研究藏文应用文检索系统有很大的必要性。KNN分类方法是一种用实例解决问题的分类方法,KNN分类方法在向量空间模型下是一种性能较好的分类算法。需要通过对文本的预处理、特征选择、模型建立、训练分类器和分类五个步骤来实现对文本的分类处理。(本文来源于《信息技术与信息化》期刊2019年05期)
胡波[6](2018)在《运营商客服通话信息的文本自动分类》一文中研究指出随着大量的运营商客户热线语音能够被智能识别形成文本文件,如何有效利用这些文本信息,进行有效的分类管理,发挥潜在的数据价值,是目前大数据整合的一个关键问题。本文采用文本分类技术进行建模,将中文分词、特征提取、分类算法等方法综合应用到客户文本的自动分类中。在分类算法选择上我们采用深度神经网络,并结合分层抽样的方法取得了良好的建模和实际应用准确率。(本文来源于《江苏通信》期刊2018年05期)
李湘东,高凡,李悠海[7](2018)在《共通语义空间下的跨文献类型文本自动分类研究》一文中研究指出【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领域相关特征构建双向图并进行谱聚类,关联表达类似语义的领域相关特征,产生由聚类特征定义的共通语义空间。【结果】实验结果表明,与传统的文本自动分类方法相比,本文方法的分类性能提高了3.0%-6.9%。【局限】构建共通语义空间时,需要大量与待分类文本属于同领域的语料。【结论】共通语义空间能够对不同文献类型的数字资源进行有效整合。(本文来源于《数据分析与知识发现》期刊2018年09期)
贺姣姣[8](2018)在《基于深度学习的教育技术学术论文文本自动分类研究》一文中研究指出随着教育技术学科的发展,教育技术研究人员和学术论文数景地不断增加,研究人员在线查找相关文献进行阅读、学习、参考的需求越来越大,而当前各文献数据库平台对文献类型的分类仅包括综述类文献和政策研究类2类,这就造成研究人员在查阅文献的过程中十分不便。随着深度学习的发展,进行文本分类的神经网络模型越来越多,应用领域不断扩大,对教育技术学术论文进行文本分类成为了可能。文本分类可以让研究人员更好地获取学科某方向的信息或学科的发展方向与趋势。因此,本论文为解决教育技术研究人员在海量的文献数据库中检索不便的问题,基于深度学习的方法对教育技术学术论文进行文本分类研究,探究适用于教育技术学术论文文本分类的方法,并采用该方法对2008-2017年教育技术期刊论文的进行分类并对分类结果进行分析。本研究的主要内容为:结合教育技术论文内容热点以及行业内对期刊论文的分类方式,将教育技术学术论文根据研究主题分为:教育理论与教学方式方法研究、远程教育与在线教育研究、学习资源与技术、学科发展与教学管理4类,并对每一类别进行了详细介绍和关键词总结.对教育技术学术论文文本进行预处理时构建了教育技术语料库,并将其用于教育技术学术论文文本的分词。通过实验研究训练教育技术词向量对教育技术学术论文文本分类效果的影响,不同神经网络模型对教育技术学术论文文本分类效果的影响,寻求适用于教育技术学术论文文本分类的分类方法,通过实验结果得出结论:(1)使用教育技术词汇训练出的Word2vec词向量进行文本分类的准确率高于使用随机初始化的Word2vec词向量。(2)采用Bi-GRU模型进行文本分类训练的准确率高于Text-CNN模型和Bi-LSTM模型,准确率可达79.35%,由些看来,训练教育领域词向量后再采用Bi-GRU模型进行文本分类的训练是一种适用于教育技术领域的文本分类方法最后,本文采用该方法对2008-2017年教育技术期刊论文的进行分类并对分类结果进行分析。结论如下:教育技术期刊论文的研究中,对教育理论与教学方式力法的研究在2014年以来呈不断上升的趋势,预测在未来几年也将会是研究的热点;对远程教育与在线教育的研究总体来说呈下降趋势,但存在波动,预测未来几年会微小波动,呈总体下降的趋势:对学习资源与技术、学科发展与教学管理的研究较为平稳,预测未来几年也将平稳发展。(本文来源于《天津师范大学》期刊2018-05-01)
邢翀[9](2018)在《基于文本挖掘的计算机漏洞自动分类技术研究》一文中研究指出随着社会的发展和信息技术的进步,在这个信息化的时代下,计算机的应用频率越来越高。伴随计算机应用产生的各种软件也都不尽相同,计算机和网络的出现改变了人们传统的交流方式,人们可以不需要通过面对面的方式也可以实现在虚拟网络中的交流。信息化时代的到来催生了电商平台的发展,人们可以通过网上购物、付款的方式,实现方便快捷的线上购物。虽然网络丰富方便了我们的生活,但是网络安全漏洞问题同时会危及我们的信息、财产安全,提升网络环境的安全性,创造干净、安全的网络空间,已经成为信息化时代下我们信息工作者的重要任务,解决网络安全问题刻不容缓。本文首先介绍了计算机文本挖掘技术和网络安全问题的相关概念和现状,其次分析了计算机文本挖掘技术的工作原理,最后阐述了计算机文本挖掘技术在解决网络安全问题中的应用。通过计算机文本挖掘技术,完善计算机漏洞自动分类技术,打造一个无垃圾信息的网络环境,大大提升了网络空间的安全性。(本文来源于《农村经济与科技》期刊2018年08期)
朱青,卫柯臻,丁兰琳,黎建强[10](2018)在《基于文本挖掘和自动分类的法院裁判决策支持系统设计》一文中研究指出在许多大陆法系国家,不断产生的新型法律关系使得成文法无法及时制定和修改的缺陷逐渐显现。与此同时,世界各国纠纷诉讼的数目也在急剧增长,所以,很多国家面临如何在保证审判质量的前提下提高司法系统审判效率的问题。因此,在进行制度改革的同时,建立决策支持系统将会有效地辅助司法判决。本文以中国的医疗损害诉讼文本为例,使用文本挖掘和自动分类技术提出了一个法院裁判决策支持系统(CJ-DSS),该系统可以依据以往判例预测新诉讼文本的判决结果:驳回与非驳回。结合案例,本文研究发现,组合特征提取法确实能够改进和提高分类器的分类性能,而且针对支持向量机(SVM)、人工神经网络(ANN)、K最近邻(KNN)叁种不同的分类器,文档词频-卡方(DF-CHI)组合特征提取法对性能的改进程度有所差异,其中ANN的性能改进最高。除此之外,集成学习后该系统的分类性能更加稳定,显着优于单一分类器,F1值达到93.3%。(本文来源于《中国管理科学》期刊2018年01期)
文本自动分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
信息技术应用平台的拓展、互联网用户数量的大幅度增加,使得网络平台成为人们生活、工作的重要阵地,随之而来的,网络数据计算、分类需要以秒级为单位处理,技术难度更大。为深入、全面的开发数据资源的内在价值,进一步提升文本分类的实践技术应用成为当务之急。作为信息检索与数据分类、文本挖掘、信息利用的重要技术手段,文本分类的技术研究已经迈入新的阶段,以非线性、核方法、数据集偏斜与多层分类、web网页分类为代表的技术创新应用,已经成为现阶段文本分类的重要技术研究方向。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本自动分类论文参考文献
[1].韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代.2019
[2].韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代.2019
[3].曲泷玉,贾依真,郝永乐.结合CNN和文本语义的漏洞自动分类方法[J].北京理工大学学报.2019
[4].王琳.地震应急指挥系统信息文本的检索与自动分类研究[D].中国地震局地震预测研究所.2019
[5].多杰措,安见才让.藏文应用文文本自动分类研究[J].信息技术与信息化.2019
[6].胡波.运营商客服通话信息的文本自动分类[J].江苏通信.2018
[7].李湘东,高凡,李悠海.共通语义空间下的跨文献类型文本自动分类研究[J].数据分析与知识发现.2018
[8].贺姣姣.基于深度学习的教育技术学术论文文本自动分类研究[D].天津师范大学.2018
[9].邢翀.基于文本挖掘的计算机漏洞自动分类技术研究[J].农村经济与科技.2018
[10].朱青,卫柯臻,丁兰琳,黎建强.基于文本挖掘和自动分类的法院裁判决策支持系统设计[J].中国管理科学.2018