导读:本文包含了领域词论文开题报告文献综述及选题提纲参考文献,主要关键词:词库标识树,正确性检测,特征向量空间矩阵,相关性系数
领域词论文文献综述
张志强,王伟钧,杨晋浩,周晓清,郑加林[1](2018)在《一种行业领域词库标识树的正确性检测算法研究》一文中研究指出在知识挖掘应用中,行业领域数据识别是知识挖掘的重要过程。对大量的行业领域数据进行数据识别需要借助领域词库标识树来完成,而影响数据识别准确率的重要因素是领域词库标识树构建的正确性。领域词库数据量一般很大,以其构建的领域词库标识树结构复杂,在复杂结构的标识树中通过已有的检测方法判断其正确性往往很困难。为了解决这个问题,提出一种词库标识树的正确性检测算法。该算法通过构建词库特征向量空间矩阵,计算树节点的相关性系数来自动检测树节点构建的正确性,同时可以根据判定阈值来确定正确性判定范围。实验结果表明,无论树结构如何复杂,该算法都能高效准确地实现标识树的正确性检测和发现错误。(本文来源于《现代电子技术》期刊2018年18期)
杨晶[2](2018)在《基于领域词库的新闻提取技术的研究及应用》一文中研究指出随着互联网的普及,网络新闻成为人们获取实时动态、时政新闻的主要途径。为了能从众多的新闻网站中获取用户感兴趣的新闻栏目,就需对新闻进行聚焦。通过对新闻特征的选择和分类,达到用户精确查找新闻的目的,方便用户浏览。本文中新闻的提取主要分为词库构建和短文本相似度计算两个阶段。词库构建阶段主要利用基于Thulac的分词模型对爬取内容进行分词和词性标注,并使用卷积神经网络模型进行词相似度计算;短文本相似度计算阶段主要使用改进的TF-IDF算法,提取与搜索语句相似度最高的领域新闻。与传统TF-IDF算法相比,改进后的算法的特征分布值达到了 9,IDF值有所提高。本文的主要工作如下:(1)词库构建阶段主要利用基于Thulac的分词模型对爬取内容进行分词和词性标注,并使用基于卷积神经网络的skip-gram模型计算词的向量值与相似度,来达到词的分类,分类后的词放入词库作为领域词库。(2)短文本相似度计算阶段主要使用改进的TF-IDF算法对用户输入的短文本进行相似度计算,提取与语句相似度最高的领域新闻。(3)在前面工作的基础上,实验利用python语言对网络爬虫新闻进行分词和相似度计算。实验结果表明本文提出的卷积神经网络与改进后的TF-IDF算法相结合的方法提升了文本分类的速度和精度。(本文来源于《湖北大学》期刊2018-04-05)
蔡荣彦[3](2013)在《面向未登录领域词切分的中文分词技术研究》一文中研究指出本文通过研究现有中文分词技术的理论和工具,提出一种面向未登录领域词识别的中文自动分词算法。首先,利用已有的中文自然语言处理技术对中文文本进行自动分词,并用一种改良的串频统计方法自动识别出语料中的未登录领域词汇,从而有效提高了中文分词的准确性。(本文来源于《信息系统工程》期刊2013年11期)
王成,吕学强,王弘蔚,王涛[4](2011)在《基于信息熵与词语活跃度的领域词抽取》一文中研究指出提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2011年05期)
宋涛,李素建[5](2010)在《基于流形排序的领域词抽取方法》一文中研究指出领域词通常是由一个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。在此假设下,本文利用领域词的内在联系,引入基于流形的半指导排序方法,标记少量领域词,通过短语网将领域性分数进行传播,从而计算出所有短语的领域性分数,选取高分的短语作为领域词。我们在4个领域上进行了实验,结果表明该方法的有效性。(本文来源于《第五届全国青年计算语言学研讨会论文集》期刊2010-10-11)
领域词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着互联网的普及,网络新闻成为人们获取实时动态、时政新闻的主要途径。为了能从众多的新闻网站中获取用户感兴趣的新闻栏目,就需对新闻进行聚焦。通过对新闻特征的选择和分类,达到用户精确查找新闻的目的,方便用户浏览。本文中新闻的提取主要分为词库构建和短文本相似度计算两个阶段。词库构建阶段主要利用基于Thulac的分词模型对爬取内容进行分词和词性标注,并使用卷积神经网络模型进行词相似度计算;短文本相似度计算阶段主要使用改进的TF-IDF算法,提取与搜索语句相似度最高的领域新闻。与传统TF-IDF算法相比,改进后的算法的特征分布值达到了 9,IDF值有所提高。本文的主要工作如下:(1)词库构建阶段主要利用基于Thulac的分词模型对爬取内容进行分词和词性标注,并使用基于卷积神经网络的skip-gram模型计算词的向量值与相似度,来达到词的分类,分类后的词放入词库作为领域词库。(2)短文本相似度计算阶段主要使用改进的TF-IDF算法对用户输入的短文本进行相似度计算,提取与语句相似度最高的领域新闻。(3)在前面工作的基础上,实验利用python语言对网络爬虫新闻进行分词和相似度计算。实验结果表明本文提出的卷积神经网络与改进后的TF-IDF算法相结合的方法提升了文本分类的速度和精度。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
领域词论文参考文献
[1].张志强,王伟钧,杨晋浩,周晓清,郑加林.一种行业领域词库标识树的正确性检测算法研究[J].现代电子技术.2018
[2].杨晶.基于领域词库的新闻提取技术的研究及应用[D].湖北大学.2018
[3].蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程.2013
[4].王成,吕学强,王弘蔚,王涛.基于信息熵与词语活跃度的领域词抽取[J].北京信息科技大学学报(自然科学版).2011
[5].宋涛,李素建.基于流形排序的领域词抽取方法[C].第五届全国青年计算语言学研讨会论文集.2010