海量文本数据论文-马超

海量文本数据论文-马超

导读:本文包含了海量文本数据论文开题报告文献综述及选题提纲参考文献,主要关键词:组件,工作流,海量数据处理工具,文本挖掘

海量文本数据论文文献综述

马超[1](2018)在《基于可重用组件的海量文本数据处理工具的设计与实现》一文中研究指出随着互联网技术的迅猛发展,大量的文本数据被产生出来,这些文本数据中蕴含着巨大的价值,如何从海量的文本数据中获取有用的信息便尤为关键。要实现对海量文本数据的信息挖掘,首先要解决的是对海量文本数据的有效存储与高效处理,Hadoop分布式平台以及Spark计算框架很好地解决了这两个问题。其次,对于文本数据价值的挖掘,可以通过文本挖掘算法来完成。然而,无论是Hadoop、Spark还是文本挖掘算法都涉及到大量的技术细节,充分掌握这些技术以完成海量文本数据的处理、分析任务是有一定难度的。本论文为了解决这个问题,设计并实现基于可重用组件的海量文本数据处理工具。通过该工具,用户可以对工具已经实现的海量文本数据处理组件进行使用,在工具的前端交互页面对这些组件进行组件的选择、组件参数的设置、基于组件编辑工作流并提交运行工作流以完成海量文本数据处理任务。该工具极大地降低了海量文本数据处理的技术门槛,做到无需编程便可以完成复杂的海量文本数据分析任务,使用户对海量文本的处理分析变得简单、便捷。本论文实现的工具主要功能如下:1.海量文本数据的支持:工具通过大数据技术实现了对海量文本数据的支持,包括海量文本数据的存储与处理。2.海量文本数据处理组件:组件将各种海量文本数据处理操作的封装并组件化,使其对用户可重用。工具对可重用组件的结构、运行进行了设计与实现,并在此之上实现了常用的海量文本数据处理组件,包括数据获取组件、文本表示组件、文本分类组件、文本聚类组件,以满足用户基本的海量文本数据处理需求。3.工作流:工作流基于组件将数据处理流程进行表达。工具在组件的基础上对工作流的结构、运行进行了设计与实现,使用户可以通过组件与工作流定义其海量文本数据处理任务的具体流程,完成海量文本数据的处理分析任务。4.工具前端交互页面:通过工具的前端交互页面,可以浏览工具已实现的海量文本数据处理组件的信息、设置组件的参数。同时,还可以通过组件编辑工作流并提交运行。(本文来源于《北京邮电大学》期刊2018-03-15)

宗峰[2](2017)在《基于MapReduce技术的海量文本数据统计方法研究》一文中研究指出为了实现海量文本数据的有效发掘和统计,从文本分类与大数据并行处理两个方面着手,研究在海量文本数据挖掘的相关理论知识和MapReduce编程模型的相关技术支撑下的海量文本数据挖掘统计方法。在并行运算模型的开源实现Hadoop平台上,提出了一种简单、有效的文本分类方法——基于MapReduce的平均朴素贝叶斯文本分类算法。(本文来源于《山东英才学院学报》期刊2017年04期)

潘大胜[3](2017)在《不确定噪声下海量文本数据的模糊挖掘算法研究》一文中研究指出针对传统的数据挖掘方法一直存在挖掘精度低、运行时间长的问题,提出基于小波变换与关联规则的不确定噪声下海量文本数据的模糊数据挖掘算法,首先利用小波变换对不确定噪声下海量文本数据的模糊数据进行预处理,将模糊海量文本数据时间序列转换至频谱空间中,获得频谱空间内距离最小、类间聚类最大的变换基系数,并将其作为海量文本模糊数据特征系数,利用数据特征系数计算出其从属于各类别的隶属度,确定模糊文本数据集的关联规则,依据多维海量数据集之间的相关程度进行区间划分,由此实现对不确定噪声下海量文本数据的有效挖掘.实验结果证明,所提算法能有效提高海量文本数据挖掘精度,且挖掘效率较高.(本文来源于《微电子学与计算机》期刊2017年09期)

陈炎龙,段红玉[4](2016)在《基于改进Hadoop云平台的海量文本数据挖掘》一文中研究指出针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性.(本文来源于《湖南师范大学自然科学学报》期刊2016年03期)

王莉军[5](2016)在《海量数据下的文本信息检索算法仿真分析》一文中研究指出在海量数据下对文本信息进行准确检索,能够帮助人们获取新知识,提高工作效率。传统的检索方法不能对海量数据下文本信息特征的变化造成的影响做出反应,从而降低了文本信息检索的准确性。提出一种基于特征聚类的文本信息检索方法。对文本信息进行降维处理,保留主要的文本信息特征,消除冗余数据带来的影响;在文本信息检索的过程中,按照特征相似度对文本信息的特征进行聚类,确定文本信息检索的目标函数,并利用约束条件进行约束,在检索的过程中自适应调整文本信息特征的聚类中心和特征的权值,最终实现了文本信息的准确检索。仿真结果表明,改进算法能够提高海量数据下文本信息检索的准确率和效率。(本文来源于《计算机仿真》期刊2016年04期)

韩财兴[6](2014)在《海量数据的KNN文本分类算法的MapReduce实现研究》一文中研究指出随着信息技术的发展,互联网数据呈现指数级增长,为了有效的组织和管理这些海量数据,基于内容的数据挖掘技术备受关注。作为一个理论完善、简单实用的分类算法,K近邻法常被用于文本的分类。但是,在处理海量数据时,极高的计算时间复杂度限制了KNN算法在海量数据分析任务中的应用。近年来,随着Hadoop技术的成熟,为解决KNN算法在文本分类时的不足提供了技术支持。本论文首先介绍了文本分类技术中数据预处理、特征提取、文件向量表示、分类算法,以及Hadoop分布式文件系统(HDFS)和MapReduce的相关内容;然后详细的阐述了KNN算法的模型和特征,并提出了一个运用MapReduce编程模型和KNN算法来实现海量文本数据的分类方案;最后,采用Newsgroup-18828数据集,在Hadoop集群上实现了KNN算法的文本分类。本文的贡献在于深入研究了文本分类的关键技术和KNN算法的特征,实现了基于MapReduce编程模型的KNN算法的文本分类,通过在单机和Hadoop集群上执行KNN算法的文本分类程序,证实了在Hadoop集群上实现的KNN算法能够处理海量文本数据,同时对影响作业性能的Map Task内存缓冲区大小和单节点Task Tracker故障进行了分析和总结。本论文在5个节点上搭建Hadoop集群,设计和实施了4个实验方案,分析实验结果表明:1)当作业的有效计算时间占总的运行时间比例较小时,小规模集群的优势显示不出来;2)在Hadoop集群上实现的KNN文本分类算法具有较好的加速比;3)当Map任务产生的中间数据较少时,通过增大Map Task内存缓冲区来优化作业的方法不可取;4)当集群规模较小时频繁的发生节点故障会极大影响作业的执行效率。(本文来源于《哈尔滨工程大学》期刊2014-12-01)

冯加军[7](2014)在《基于P2P的海量文本数据管理系统研究》一文中研究指出随着IT技术的发展,人们需要处理和存储的数据呈现爆炸式增长。据调查显示,2006年至2011年之间,全球范围内的数字数据量已经从200EB增长到近2ZB,增长了近10倍,而预计到2015年,可用数字数据将逾8ZB,到2020年则高达40ZB[1]。在海量的数据中,文本数据占了不小的比例,特别是随着web2.0技术的广泛应用和社交网络的流行,文本数据量更是飞速增长。面对海量的文本数据,如何快捷、有效的存储和检索这些非结构化数据已成为计算机领域的一个重要课题。采用P2P技术实现海量数据存储和共享一直是业界研究的热点,被认为是P2P技术最有前途的应用之一。由于采用对等互连的技术,P2P存储系统相比传统的存储系统有如下优点:不依赖某一独立节点,系统自身具有较好的扩展性,且不存在单点性能瓶颈问题;各个节点功能对等,使得整个系统在缺失任意节点后仍能正常工作,也即具有高容错性;高扩展性和高容错性进而使得利用廉价机器搭建大规模高性能存储服务成为可能;由于不存在中央控制,P2P存储系统能够极大减小存储系统总开销,每个节点将可以利用网络的边界带宽,极大的提高传输速度。在基于P2P数据管理系统中,如何以较小的代价存储数据,并快速定位数据是需要解决的首要问题。基于以上研究背景,本文主要研究了P2P环境下文本数据的存储和查询定位问题。本文首先概要介绍和分析了现有的几种P2P存储模式的实现方法,并全面介绍了P2P网络、全文索引、布隆过滤器等相关的背景知识,然后提出了基于结构化P2P的文本数据存储模型DCTSM (Double-Chord Text Storage Model)以及在此存储模型基础上的基于计数型布隆过滤器的数据检索模型CBFTRM (Text Retrieval Model based on Counting Bloom Filter)。详细阐述了两种模型的数学描述、组成结构以及基于两种模型的相关算法,最后对CBFTRM的数据检索算法进行了理论分析并进行了模拟仿真。相关仿真结果表明本文设计的P2P网络环境下的文本数据管理模型具有良好的扩展性和容错能力,且相对于其他同类的数据管理模型具有较小的索引维护开销、较高的数据检索效率。最后,本文设计了基于DCTSM和CBFTRM的P2P海量文本数据管理系统,对系统的软件架构和处理流程进行了说明。未来的主要工作将是对P2P文本数据管理系统中的检索结果如何按照语义进行排序以及数据访问控制等方面进行深入研究。(本文来源于《山东大学》期刊2014-06-30)

邢阳阳[8](2014)在《基于海量数据的文本分类算法的MapReduce实现研究》一文中研究指出2008年以来,云计算在IT业被广泛关注。云计算被看作是分布式处理、并行处理以及网格计算发展的产物,其中云计算的关键是并发、分布,核心是海量数据处理。但是云计算只是一种方法模型,要想真正实现它的价值,除了硬件以外,还要有软件平台及能够在此平台上高效运行的分布式程序。海量数据处理的问题在数据挖掘领域经常遇见,许多传统挖掘算法存在如下瓶颈:只适合于小规模的数据量,如果当数据量增大时,它们将不再适用,效率方面将会受到很大影响。然而,云计算的出现恰好解决了这样的问题,它的优势就在于处理大规模数据,如果我们在云计算平台上能够实现相应的传统数据挖掘算法,那么上述的传统数据挖掘算法的瓶颈问题将会得到有效解决。而能否借助云计算平台切实解决传统数据挖掘算法的上述瓶颈,关键的问题还在于能否将相应的数据挖掘算法进行并行化实现。本文的贡献在于详细介绍了传统朴素贝叶斯算法的执行流程,指出了其存在的瓶颈问题,并提出了并行化的解决方案。然后详细介绍了 Hadoop平台上传统贝叶斯算法MapReduce化的实现方法,最后通过传统贝叶斯算法与MapReduce化贝叶斯算法处理数据实验的对比,证明了云计算平台上数据挖掘算法的并行化大大降低了大规模数据的处理时间,并且通过实验,分析了 MapReduce化贝叶斯程序的几个主要性能参数对作业运行时间的影响。本文在九个节点上搭建Hadoop集群,通过六种不同的实验方案执行传统贝叶斯程序和MapReduce化贝叶斯程序,然后分析作业运行结果。结果表明:1)MapReduce化贝叶斯算法与传统算法相比,具有处理大规模数据的能力;2)MapReduce化的贝叶斯算法具有较好的加速比;3)延迟时间、备份个数和内存缓冲区大小影响着MapReduce化贝叶斯程序的性能;4)单点故障对作业的运行时间产生较大影响。实验结果验证了本论文提出的MapReduce化的贝叶斯方案的可执行性和高效性。本论文的研究为贝叶斯分类算法的并行化提供了可行的MapReduce化方案。(本文来源于《哈尔滨工程大学》期刊2014-01-07)

蒋巍[9](2013)在《基于位置敏感哈希的海量文本数据查询算法研究》一文中研究指出提出了一种基于位置敏感哈希算法的海量文本数据查询算法,通过位置敏感哈希算法将文本数据的特征向量映射到哈希桶中,从而有效地降低了计算复杂度并提高了数据检索的效率。首先,利用TF-IDF特征表示文本的特征向量,并根据给定的哈希函数集把文本的特征向量映射至哈希桶;接下来,利用哈希表为给定的文本计算出与之对应的直方图,通过直方图距离计算文本的相似度;最后,通过计算目标文本集中的文本与待查询文本的相似度进行文本排序,排序分值高的文本作为相关文本返回给用户。实验结果表明,对比已有方法文本提出的算法在MAP以及查全率-查准率曲线两个测度上都获得了较好的性能。(本文来源于《科技通报》期刊2013年10期)

刘国栋[10](2013)在《基于海量煤炭采集文本数据的可扩展SVM算法的研究与应用》一文中研究指出文本分类是指在给定的分类系统下,根据文本的内容或属性,将大量文本归到一个或多个类别的过程。随着煤炭产业的高速发展,煤炭数据库中保存了大量煤炭采集文本数据,针对如此大规模的文本信息,传统的SVM算法不能很好地对大规模海量煤炭文本数据进行有效的处理。文中基于现有流行的Hadoop分布式计算平台,提出了分布式SVM文本分类算法。通过实验表明,文中提出的算法能够明显减小文本分类时间,并且具有很好的可扩展性。(本文来源于《煤炭技术》期刊2013年05期)

海量文本数据论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了实现海量文本数据的有效发掘和统计,从文本分类与大数据并行处理两个方面着手,研究在海量文本数据挖掘的相关理论知识和MapReduce编程模型的相关技术支撑下的海量文本数据挖掘统计方法。在并行运算模型的开源实现Hadoop平台上,提出了一种简单、有效的文本分类方法——基于MapReduce的平均朴素贝叶斯文本分类算法。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

海量文本数据论文参考文献

[1].马超.基于可重用组件的海量文本数据处理工具的设计与实现[D].北京邮电大学.2018

[2].宗峰.基于MapReduce技术的海量文本数据统计方法研究[J].山东英才学院学报.2017

[3].潘大胜.不确定噪声下海量文本数据的模糊挖掘算法研究[J].微电子学与计算机.2017

[4].陈炎龙,段红玉.基于改进Hadoop云平台的海量文本数据挖掘[J].湖南师范大学自然科学学报.2016

[5].王莉军.海量数据下的文本信息检索算法仿真分析[J].计算机仿真.2016

[6].韩财兴.海量数据的KNN文本分类算法的MapReduce实现研究[D].哈尔滨工程大学.2014

[7].冯加军.基于P2P的海量文本数据管理系统研究[D].山东大学.2014

[8].邢阳阳.基于海量数据的文本分类算法的MapReduce实现研究[D].哈尔滨工程大学.2014

[9].蒋巍.基于位置敏感哈希的海量文本数据查询算法研究[J].科技通报.2013

[10].刘国栋.基于海量煤炭采集文本数据的可扩展SVM算法的研究与应用[J].煤炭技术.2013

标签:;  ;  ;  ;  

海量文本数据论文-马超
下载Doc文档

猜你喜欢