中文文本分类系统论文-张昭楠

中文文本分类系统论文-张昭楠

导读:本文包含了中文文本分类系统论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,支持向量机,文本表示,特征选择

中文文本分类系统论文文献综述

张昭楠[1](2016)在《基于SVM的中文文本分类系统的设计与实现》一文中研究指出互联网已经成为现代生活中不可或缺的一部分,网络上的信息量也在以数倍的速度快速增长。无论是企事业单位,学校,或者科研院校等等机构中,都积累了非常多的资料,这些资料绝大多数都以文档的形式存在。所以,如何将数以万计且排序混乱的文本信息,按照一定的规则和形式进行统一的管理,以达到方便使用和管理的目的成为了一个不得不去解决的问题。本文就是在SVM,即支持向量机方法的基础上,设计了一个中文文本分类系统。介绍了系统的需求分析,并对系统进行了详细设计,从概念的初始化设计到之后的详细设计,实现了基于SVM的中文文本分类系统的最终目的,达到了设计要求。(本文来源于《电子设计工程》期刊2016年16期)

徐凯,陈平华,刘双印[2](2016)在《基于AdaBoost-Bayes算法的中文文本分类系统》一文中研究指出针对中文文本分类准确率低,分类算法低效不稳定问题,提出基于自适应提升朴素贝叶斯算法.该算法采用Naive Bayes和AdaBoost,并且通过优化组合结构,融合两种算法的优点.首先,使用SMEL序列组合成词算法对中文语料进行分词,提取文本特征词汇.然后,使用增强的贝叶斯分类器,通过较小的样本训练,提取出文本特征,生成训练分类矩阵.结合自适应提升算法对简单分类器进行加权,保证分类有平稳准确的效果.通过实验证明,该算法与其他算法相比,错误率更低,可以使分类准确率达到98%以上,而且F1值也优于其他分类算法.(本文来源于《微电子学与计算机》期刊2016年06期)

崔伟[3](2015)在《一种基于朴素贝叶斯算法的中文文本分类系统》一文中研究指出本文针对中文文本分类的特点,采用中科院汉语词法分析系统ICTCLAS对文档进行分词,并进行数据清洗和过滤停用词,运用信息增益和文档频率特征选择算法对文档进行特征选取。(本文来源于《信息技术与信息化》期刊2015年10期)

吴佳琳[4](2014)在《结合IFC标准的建设领域中文文本分类系统研究》一文中研究指出新涌现的通信和信息技术改进了建设行业中项目团队之间的合作、协作和信息共享,建筑信息模型也得到了大量的研究和应用。建筑信息模型中包含了建筑整个生命期中各个阶段的信息,可以在项目整个生命期中为多个参与方提供一个信息交流和共享的平台。实现信息的交流和共享不仅需要建筑信息模型这样的信息载体,同时需要一套行业通用的信息交换标准。由国际协同工作联盟IAI提出的IFC标准已经被接受为国际标准,通过了ISO认证,成为了事实上的行业数据交换标准。在我国,由于大量的建设行业信息是以中文文本形式存在的,将这些中文的文本数据进行系统化集成对于建设行业信息的充分交换和共享非常重要。基于以上需求,本文研究了结合IFC标准的建设领域中文文本的分类方法,并将分类结果结合建筑信息模型进行系统化分类管理,实现我国建设领域中文文本的分类和管理。首先对建筑信息模型和文本管理的国内外现状进行了综述,并对建筑信息模型、IFC标准等基本理论进行了详细的介绍,指出了建筑信息模型和IFC标准的应用情况和存在的问题。接着对项目管理的特点以及我国传统的文档管理方式进行了分析,指出了现有的文档管理方式存在的不足和急需改善的迫切性。提出了建设领域中文文本分类管理的方法。提出了将非结构化的中文文本通过预处理、特征值提取和权值计算等步骤转化为结构化的数据并基于国际通用的IFC标准进行分类,并将分类结果与IFC体系进行关联的方法。然后研究了分类结果的系统化集成方法。介绍了完成本文所提出的系统所需要用到的重要的软件,对系统框架中的分类阶段、查询检索阶段和数据库准备阶段进行了详细的描述,设计了结合IFC标准的建设领域中文文本信息分类管理系统框架。最后对本文提出的中文文本分类系统进行了实例验证,并对分类算法结果进行了分析,证明了算法的可行性;对分类结果与IFC实体对象类进行关联并将结果与BIM进行了系统化集成,指出了信息共享方法的系统结构,通过分析证明了文章提出的结合IFC标准的建设领域中文文本分类管理系统的可行性,为进一步的系统开发提供基础。(本文来源于《大连理工大学》期刊2014-05-01)

刘佳[5](2014)在《基于SVM的WEB中文文本分类系统研究与实现》一文中研究指出近几年来,我国的互联网处于飞速发展之中,计算机的使用也不断普及,互联网上出现了海量的信息资源。如何管理、获取这些资源成为了一个极具挑战性的问题。就国内的现状而言,互联网上的信息多数是以中文Web文本的形式存储、展示的。针对中文Web文本的自动分类系统,由于其在解决获取、管理互联网信息资源中的重要意义,而受到了广泛的关注。不同于印欧语系语言,中文由于其独特的特性决定,其特征词之间并没有明显的分界线,且相同长度文字之中的信息量也远大于印欧语系语言,因而在对中文Web文本分类的过程中,首先必须使用一种合理有效的方式表示文本并提取特征信息,其次才能根据这些信息进行分类。因而中文Web文本的表示模型与分类算法一起,成为中文分类系统中的两个关键问题。本文介绍了中文Web文本分类的相关背景技术,研究与讨论了经典TF-IDF信息检索模型和、LSA语义信息检索模型和LDA概率主题检索模型在中文文本分类技术中的应用,研究并分析了现有的基于支持向量机的分类算法的优缺点。之后实现了使用上述叁种检索模型的基于支持向量机的文本分类算法。使用公开的数据对系统进行了测试。对基于上述叁种模型的分类结果进行了分析和比对,提出了可以在准确率和时间上权衡的Web中文文本分类系统,并通过实验验证了该系统的正确性和实用价值。(本文来源于《西安电子科技大学》期刊2014-03-01)

苏红刚[6](2012)在《基于SVM的中文文本分类系统实现》一文中研究指出通信技术的迅猛发展使得海量文本信息的共享成为可能,作为信息的传统媒介,对文本进行分类可以提高信息的查询和管理效率,因此文本的自动分类成为现今的研究热点。本文针对中文文本逐渐增多,处理中文文本需求不断增长的现状,设计实现了一个基于支持向量机的中文文本制动分类系统。本文系统采用模块化思想设计,便于修改和扩展。针对中文分词困难的问题,利用最新的中文分词技术提高分词的准确率,采用向量空间模型对文本进行数学表示,基于支持向量机的原理训练分类器对待分类文本进行分类。采用标准的中文语料库对文本系统的分类性能进行测试评估,实验结果表明,文本系统分类准确率较高,具有一定的实用性。(本文来源于《吉林大学》期刊2012-10-01)

薛亮[7](2012)在《基于SVM的中文文本分类系统的设计与实现》一文中研究指出互联网上的信息爆炸式的增长,其中海量的信息以文本形式存在,另外在企业、科研单位、高校等机构组织中都积累了大量的文本文档,为了管理和利用这些文本信息,文本处理技术应运而生,其中的文本分类能将文本所属的类别提取出来,为后续的文本处理打下基础,所以研究文本分类有十分重要的意义。本文基于支持向量机设计并实现了中文文本分类系统,系统划分为:训练、分类和结果展示叁个部分。训练部分使用训练文档进行分类器的构建,分类部分使用分类器对测试文档进行分类处理,结果展示部分对分类结果进行评估和展示。系统包含的模块如下:①文本预处理模块,包含中文分词和停用词处理,本文采用中科院ICTCLAS分词工具实现。②特征选择模块,实现了信息增益、互信息、期望交叉熵、χ~2统计量和文本证据权重五种特征选择方法。③重计算模块,实现了TF*IDF和TF*IDF*IG两种权重计算方法。④文本表示模块,采用向量空间模型对文本进行表示。⑤分类器构建模块,实现了线性、多项式、径向基和两层感知器核函数并基于“一对多”思想进行分类器的训练。⑥分类处理模块,使用训练好的分类器依次对文本进行分类处理。⑦结果展示模块,按照类别分组显示分类结果,并采用查全率、查准率和F1值评估各个类别的分类性能。本文基于Sogou语料进行实验,对不同的概率估算方式、特征选择方式、特征选择方法、权重计算方法、核函数种类的分类性能进行对比和分析。(本文来源于《重庆大学》期刊2012-04-01)

庄新妍[8](2012)在《中文文本分类系统构架设计》一文中研究指出本文主要是分析了中文文本分类所要用到的算法和技术,给出了一个可行的中文文本分类系统的基本构架。(本文来源于《信息与电脑(理论版)》期刊2012年01期)

闫超[9](2010)在《基于SVM的中文文本自动分类系统的研究与实现》一文中研究指出近些年来,随着Internet的迅速发展,出现了大量的自然语言文本,如何在这些信息中提取对我们有用的信息已经成为当前研究的一个热点问题,同时这也是文本自动分类的主要任务之一。几何级数增长的电子文本、海量信息在日常生活中的传播,都迫切的需要我们对这些文本进行自动分类。使用文本自动分类系统可以帮助人们自动检索文本,以及判断文本的类别。分类问题是实际应用中普遍存在的问题,随着信息技术的快速发展,对其在理论研究和实际应用中提出了新的难题和挑战。建立在统计学习理论基础上的支持向量机是一种新型的机器学习方法,它根据有限的样本信息在模型的复杂度和期望风险之间寻求最佳方案,从而获得比较好的泛化性能。与传统的学习方法相比,SVM具有对维数不太敏感、收敛到全局最优点、泛化能力强等的优点,比较好的解决了传统算法中经常出现的维数灾难、局部极值、过学习等的棘手问题,逐渐成为近几年机器学习领域中一个非常活跃的研究热点。本文首先介绍了文本自动分类技术在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括中文文本分类的过程、中文分词方法、特征提取、特征项权重的计算方法以及几种比较常用的分类算法,分别进行了研究和探索;再次对SVM理论进行了概括性的介绍,包括统计学习理论、SVM的最优分类面、各种情况下的分类情况、SVM的核函数以及分类步骤等;接下来是构建一种SVM分类器,介绍了中文文本自动分类系统的总体框架,系统流程和各个功能模块;最后对分类系统中基于不同算法的分类器分别进行实验比较,着重对SVM算法中基于不同的核函数在不同的特征提取函数下的实验效果做了对比。(本文来源于《太原理工大学》期刊2010-06-01)

陈思[10](2010)在《中文文本投诉信息自动分类系统研究》一文中研究指出现今Internet已然成为人们获取信息的主要来源,它的快速发展使得信息资源迅速膨胀,文本自动分类作为有效地组织和管理这些信息的关键技术之一有着广泛的应用前景。本文结合东北师范大学理想信息技术研究院“长春市市长公开电话智能综合服务网络”的项目,其中关于如何对市民发出的投诉信息有效分类的问题进行研究。该项目中原始的分类系统是基于统计方法建立的,在实际应用中虽然取得了一定效果,但分类准确率不理想的缺点日益凸显。为了提高分类准确率,本文在原系统的基础上寻求有效的改进方法。研究工作主要包括:首先,面向投诉领域构建了基于关键词组的分类体系库,并且对分类体系库的基本单元即关键词组的形式化描述、存储形式进行深入研究。其次,建立了模糊词典,目的是对分词词典进行同义词的扩展以此提高分词准确率。最后,对比研究了文本自动分类系统常用的分词算法和分类算法。在现有的研究成果基础上进行了最大匹配分词算法的改进,以及改进的KNN分类算法在关键词组概念下的应用。结合以上主要研究内容,设计并实现了一个基于投诉信息的中文文本自动分类系统,分析了系统运行的各个关键步骤,通过设置实验测试了系统的分类性能。结果表明,改进后的分类系统可以有效地提高分类准确率,召回率也有一定程度的提高,说明这些改进是有效并且切实可行的。(本文来源于《东北师范大学》期刊2010-05-01)

中文文本分类系统论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对中文文本分类准确率低,分类算法低效不稳定问题,提出基于自适应提升朴素贝叶斯算法.该算法采用Naive Bayes和AdaBoost,并且通过优化组合结构,融合两种算法的优点.首先,使用SMEL序列组合成词算法对中文语料进行分词,提取文本特征词汇.然后,使用增强的贝叶斯分类器,通过较小的样本训练,提取出文本特征,生成训练分类矩阵.结合自适应提升算法对简单分类器进行加权,保证分类有平稳准确的效果.通过实验证明,该算法与其他算法相比,错误率更低,可以使分类准确率达到98%以上,而且F1值也优于其他分类算法.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文文本分类系统论文参考文献

[1].张昭楠.基于SVM的中文文本分类系统的设计与实现[J].电子设计工程.2016

[2].徐凯,陈平华,刘双印.基于AdaBoost-Bayes算法的中文文本分类系统[J].微电子学与计算机.2016

[3].崔伟.一种基于朴素贝叶斯算法的中文文本分类系统[J].信息技术与信息化.2015

[4].吴佳琳.结合IFC标准的建设领域中文文本分类系统研究[D].大连理工大学.2014

[5].刘佳.基于SVM的WEB中文文本分类系统研究与实现[D].西安电子科技大学.2014

[6].苏红刚.基于SVM的中文文本分类系统实现[D].吉林大学.2012

[7].薛亮.基于SVM的中文文本分类系统的设计与实现[D].重庆大学.2012

[8].庄新妍.中文文本分类系统构架设计[J].信息与电脑(理论版).2012

[9].闫超.基于SVM的中文文本自动分类系统的研究与实现[D].太原理工大学.2010

[10].陈思.中文文本投诉信息自动分类系统研究[D].东北师范大学.2010

标签:;  ;  ;  ;  

中文文本分类系统论文-张昭楠
下载Doc文档

猜你喜欢