导读:本文包含了中文词聚类论文开题报告文献综述及选题提纲参考文献,主要关键词:数据挖掘,聚类,分词,词向量
中文词聚类论文文献综述
郑文超,徐鹏[1](2013)在《利用word2vec对中文词进行聚类的研究》一文中研究指出文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。(本文来源于《软件》期刊2013年12期)
史金成,程转流[2](2010)在《基于混合聚类的中文词聚类》一文中研究指出文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。(本文来源于《微计算机信息》期刊2010年15期)
胡和平,曾庆锐,路松峰[3](2006)在《中文词聚类研究》一文中研究指出词聚类是语言自动处理中一个重要的基础环节。针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仅依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化。实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好。(本文来源于《计算机工程与科学》期刊2006年01期)
蒋宏飞,曹海龙,杨沐昀[4](2004)在《基于大规模语料的中文词聚类研究与实现》一文中研究指出词聚类算法对自然语言处理具有重要意义。Brown 1990年提出了一个经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语科进行处理(Brown文中提到词数超过5000便是不可行的)。本研究中我们尝试着对上万词数的中文词语料进行了实现。并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想。在近似的情况下,它可以降低原算法一阶复杂度。本实验所用的语料来自人民日报1998年1月份的部分内容。(本文来源于《第二届全国学生计算语言学研讨会论文集》期刊2004-08-01)
孙静,朱杰,徐向华[5](2003)在《一种新的中文词自动聚类算法》一文中研究指出基于分类的统计语言模型是解决N-gram语言模型中数据稀疏问题的有效方法之一,词的自动聚类算法一直是一个难点.如何设计一种计算速度快、收敛性好的算法是关键.提出一种根据词的上下文环境,综合考虑语言模型的困惑度和词的相似度的自动聚类算法.把词的自动聚类和提高基于分类的语言模型的性能联合起来考虑.实验结果表明,该算法执行效率高、聚类效果好.(本文来源于《上海交通大学学报》期刊2003年S2期)
中文词聚类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
中文词聚类论文参考文献
[1].郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件.2013
[2].史金成,程转流.基于混合聚类的中文词聚类[J].微计算机信息.2010
[3].胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学.2006
[4].蒋宏飞,曹海龙,杨沐昀.基于大规模语料的中文词聚类研究与实现[C].第二届全国学生计算语言学研讨会论文集.2004
[5].孙静,朱杰,徐向华.一种新的中文词自动聚类算法[J].上海交通大学学报.2003