导读:本文包含了部件直方图论文开题报告文献综述及选题提纲参考文献,主要关键词:中文文本,相似度,复制检测,部件直方图
部件直方图论文文献综述
姜丽清[1](2015)在《基于汉字部件直方图的文本复制检测技术研究》一文中研究指出文本复制检测技术是文本相似度计算的一项基础应用,在网页去重、知识产权保护、搜索引擎、数字图书馆等方面发挥着重要作用。但是针对中文文本的复制检测技术起步较晚,且由于中文文本的精深复杂,中文文本复制检测技术更难于实现。因此,该领域值得我们进一步开展研究和探讨。本文首先对该领域内基于字符匹配和基于词频统计的两类复制检测算法做了较为详细的论述,归纳和总结了现有算法各自的特点和不足。针对其文本特征表示向量高维且稀疏、相似度计算复杂、资源利用率低等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测模型。论文的主要工作如下:1)提出了以汉字部件直方图作为文本指纹特征的提取方法。首先根据汉字的结构特征和汉字的数学表达式理论将整个文本中出现的所有汉字进行部件拆分,接着分别对每种汉字部件进行计数统计,通过概率计算公式得到每种汉字部件在该文本中出现的概率,然后以汉字的部件编号为横坐标,以部件概率为纵坐标,做出统计图,称为文本汉字部件直方图,最终以此汉字部件直方图作为该文本的指纹特征标识。2)提出了通过计算部件直方图间的距离匹配值作为待检测文本之间复制检测结果的判断标准。本文分别设计了4种距离对比标准进行文本部件直方图间的距离匹配值运算,并通过实验分析最终选取了最合适的巴氏距离作为衡量直方图相似度距离的计算公式。3)采集了一定规模的数据源进行算法的模拟和实现。本文通过搜集400个词条文档作为数据源开展实验,实验结果表明基于汉字部件直方图的文本复制检测算法具有较好的查准率、召回率和F1值,同时在与基于余弦定理和基于Jaccard系数的复制检测方法对比实验中也进一步验证,新的复制检测方法不仅在时间复杂度和空间复杂度方面具有优势,在综合评价指标F1值上也具有可取性。(本文来源于《中南林业科技大学》期刊2015-03-20)
姜丽清,黄华军,谢黎黎[2](2015)在《基于汉字部件直方图的文本复制检测算法》一文中研究指出现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。(本文来源于《网络安全技术与应用》期刊2015年03期)
部件直方图论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
部件直方图论文参考文献
[1].姜丽清.基于汉字部件直方图的文本复制检测技术研究[D].中南林业科技大学.2015
[2].姜丽清,黄华军,谢黎黎.基于汉字部件直方图的文本复制检测算法[J].网络安全技术与应用.2015