导读:本文包含了类核心词论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,特征降维,信息增益,相对文档频
类核心词论文文献综述
张国萍[1](2008)在《基于类核心词的文本分类技术研究》一文中研究指出随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究,介绍了文本分类的总体结构和各个组成部分,重点研究了特征降维方法和文本分类算法。本文主要做了以下两方面的工作:⑴由于文本集中都存在着样本不均衡问题,使得某些大类中含有的文本数多,而有些小类中含有的文本数少,这样在特征选择时就容易选取大类中的特征。为了消除不同类别之间语料规模对文本分类的影响,针对信息增益中特征出现与否对信息熵的不平衡问题给予了改进,本文提出了一种基于相对文档频的平衡信息增益(Relative Document Frequency Balance Information Gain :RDFBIG)降维方法。实验结果表明,RDFBIG在某些分类界限不太明确的类以及文档规模较大的类中取得了较好的分类效果,并使整体的分类性能有所提高。⑵现在一般用向量空间模型来表示文本,但向量空间模型的高维特征空间、稀疏文档向量以及高度的冗余性,使得基于向量空间模型分类算法的效率不太理想。本文提出了一种基于类核心词的文本分类算法(the Text Categorization Algorithm based on Class Kernel Word:CKW),它不用向量空间模型表示文本,只计算各个类别的类核心词以及它们在类中的权重。先用RDFBIG方法计算特征的分类信息量,再通过计算各个特征在类中相对文档频,利用两者来计算特征在类别中的权重。对于待分类的文本,计算文本中含有的类中核心词的比重,把文本归类到比重最高的类中。实验结果表明,此分类算法具有较好的分类效果,较高的分类效率。(本文来源于《江西理工大学》期刊2008-03-30)
龙丹[2](2005)在《汉语“颜色类”核心词研究》一文中研究指出本课题利用语义场理论和历史比较语言学的理论,对斯瓦德什《百词表》中跟“颜色”有关的5个核心词(“黑Black 91位”、“白White 90位”、“红Red 87位”、“黄Yellow 89位”、“绿Green 88位”)进行了系统的研究。全课题分为七章。第一章绪论,介绍了汉语核心词研究的意义、核心词及汉语颜色词研究的概况、本课题的研究方法及材料和本课题的创新点等。第二章至第六章,通过利用汉藏历史比较语言学的理论,对“黑、白、红、黄、绿”五个核心词的早期语音面貌和语源进行了探讨。第七章为结束语,对本课题进行总结。本课题运用文字、音韵等知识,对汉语这五个核心词的早期形式进行构拟,并系联各个词族; 同时,尝试综合运用汉藏比较语言学、历史语言学、语义学等理论,辅以人类学、考古学的知识,把问题放置于更广阔的语言背景中予以考察。具体来说,就是先建立语义场,再系联词族,然后再和民族语言进行对比,最后做出小结。本课题的研究为汉藏比较语言学提供了不少很有价值的语料,同时,对汉语词汇史、汉藏比较语言学的研究方法,也作了一定的探索。(本文来源于《华中科技大学》期刊2005-05-01)
类核心词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本课题利用语义场理论和历史比较语言学的理论,对斯瓦德什《百词表》中跟“颜色”有关的5个核心词(“黑Black 91位”、“白White 90位”、“红Red 87位”、“黄Yellow 89位”、“绿Green 88位”)进行了系统的研究。全课题分为七章。第一章绪论,介绍了汉语核心词研究的意义、核心词及汉语颜色词研究的概况、本课题的研究方法及材料和本课题的创新点等。第二章至第六章,通过利用汉藏历史比较语言学的理论,对“黑、白、红、黄、绿”五个核心词的早期语音面貌和语源进行了探讨。第七章为结束语,对本课题进行总结。本课题运用文字、音韵等知识,对汉语这五个核心词的早期形式进行构拟,并系联各个词族; 同时,尝试综合运用汉藏比较语言学、历史语言学、语义学等理论,辅以人类学、考古学的知识,把问题放置于更广阔的语言背景中予以考察。具体来说,就是先建立语义场,再系联词族,然后再和民族语言进行对比,最后做出小结。本课题的研究为汉藏比较语言学提供了不少很有价值的语料,同时,对汉语词汇史、汉藏比较语言学的研究方法,也作了一定的探索。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
类核心词论文参考文献
[1].张国萍.基于类核心词的文本分类技术研究[D].江西理工大学.2008
[2].龙丹.汉语“颜色类”核心词研究[D].华中科技大学.2005