文本挖掘预处理论文-吴磊,李舒

文本挖掘预处理论文-吴磊,李舒

导读:本文包含了文本挖掘预处理论文开题报告文献综述及选题提纲参考文献,主要关键词:中医方剂,方剂数据库,文本挖掘,数据预处理

文本挖掘预处理论文文献综述

吴磊,李舒[1](2015)在《中医方剂数据库文本挖掘数据预处理的尝试》一文中研究指出目的针对中医方剂数据挖掘需要提出一套以数据清洗为主的数据预处理方法,使数据规范、准确和有序,利于后续处理。方法通过检索技术,在方剂数据库中获取文本数据源,将非规范化的数据通过辅助词群行处理、正则表达式替换、异名处理等步骤进行清洗,改进数据质量。结果在中国方剂数据库共检索到1758条记录,在方剂现代应用数据库共检索到91条记录。源文本数据经预处理后共得到有效记录6913味药,可成功导入相关信息挖掘系统进行方剂名称和中药名词的信息抽取。结论本方法适用于基于中医方剂数据库的文本挖掘和知识发现,可成功对源文本数据实施清洗,得到标准统一、无噪声的数据,实现所需方药信息的有效抽取,可为中医方剂文本型数据信息分析与挖掘研究提供有益的借鉴。(本文来源于《中国中医药图书情报杂志》期刊2015年03期)

胡静,蒋外文,朱华[2](2009)在《Web文本挖掘中数据预处理技术研究》一文中研究指出数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。(本文来源于《现代计算机(专业版)》期刊2009年03期)

武洪萍[3](2007)在《文本挖掘在Web日志数据预处理中的应用研究》一文中研究指出随着Internet的迅速发展和普及,网络已成为人们进行信息交流和信息处理的有效平台。人们对网络服务的期望值在不断提高,希望得到更全面、更丰富、更适合自己的Web服务。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确、快捷地从WWW上获取有用信息。因此,如何快速准确地获取所需信息、如何获得信息之间潜在的知识以及如何提供个性化服务,己经成为急需解决的问题,也是Web挖掘领域的研究热点。Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web使用挖掘是目前最广泛的研究领域。而在Web使用挖掘过程中,数据预处理起着关键的作用。本文着重研究Web使用挖掘中的数据预处理技术,对数据预处理过程中涉及到的关键问题和技术进行详细的分析和研究。本论文主要做了以下几方面的工作:1.综述了Web使用挖掘的基本框架、流程及挖掘技术,对Web日志预处理的过程、关键技术和方法进行了深入的研究;2.系统讨论了Web文本挖掘的相关理论及文本挖掘分析技术,给出了Web文本挖掘的处理流程;3.在分析传统事务识别方法不足的基础上,结合网页内容对事务识别方法进行适当的改进,将文本聚类算法引入到事务识别的过程中。根据改进后事务识别方法的需要,对文本聚类算法作相应的修改;4.提出了一个Web日志数据预处理模型,并通过实验验证了改进算发法的合理性。(本文来源于《合肥工业大学》期刊2007-05-01)

孙道军[4](2007)在《文本挖掘预处理相关基础技术分析与应用研究》一文中研究指出本论文将在对比分析并发现现有文本挖掘技术存在不足的基础上,提出改进文本预处理精度的算法。文中涉及的主要技术包括文本收集、文本预处理、处理后的文本的中文分词、预抽取训练样本及使用KNN方法进行文本训练和文本分类等。通过对系统功能的分析,本研究把系统分成了文本预处理、中文分词、文本特征向量的提取、文本特征向量的训练和分类等四部分。在文本特征向量的提取、文本特征向量的训练和分类部分中,作者研究了一种基于词的文档频率(DF)和信息增益相融合的的方法,这种方法不仅相对简单,有层次感,而且在保证分类器性能的基础上,可以允许我们适当地选择训练样本,减少支持向量,从而提高KNN的训练和分类速度。接着介绍了KNN的基本理论以及目前KNN方法在文本分类中的应用情况,以及如何使用KNN,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。本课题实现了文本收集、文本预处理和中文分词等文本挖掘的关键技术,并在研究的基础上提出了一套特征抽取及文本挖掘的方案,为后续的研究奠定了基础。(本文来源于《北京邮电大学》期刊2007-04-10)

文本挖掘预处理论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本挖掘预处理论文参考文献

[1].吴磊,李舒.中医方剂数据库文本挖掘数据预处理的尝试[J].中国中医药图书情报杂志.2015

[2].胡静,蒋外文,朱华.Web文本挖掘中数据预处理技术研究[J].现代计算机(专业版).2009

[3].武洪萍.文本挖掘在Web日志数据预处理中的应用研究[D].合肥工业大学.2007

[4].孙道军.文本挖掘预处理相关基础技术分析与应用研究[D].北京邮电大学.2007

标签:;  ;  ;  ;  

文本挖掘预处理论文-吴磊,李舒
下载Doc文档

猜你喜欢