语义指纹论文-崔彤彤

语义指纹论文-崔彤彤

导读:本文包含了语义指纹论文开题报告文献综述及选题提纲参考文献,主要关键词:文本表示,语义指纹,文本聚类,潜在狄利克雷分配模型(LDA)

语义指纹论文文献综述

崔彤彤[1](2018)在《基于主题和语义指纹融合的学术论文粗分类方法研究》一文中研究指出互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而,大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长,其规模巨大且形式多样,不仅给网络空间数据的存储带来了压力,同时降低了数据价值的利用密度,呈现出“数据丰富而知识缺乏”的窘态。如何对数据压缩存储,如何从庞大的网络空间中寻取到满意的信息成为目前迫切需要解决的问题。本文选取学术论文作为数据对象,提出了一种文本指纹提取方法和文本粗分类算法,进而达到数据的压缩表示和有效组织管理的目的。首先,本文提出了基于潜在语义分析的文本指纹提取方法。该方法是针对目前指纹提取方法语义缺失问题的一种改进。该方法主要用于学术论文正文部分的语义指纹提取,通过奇异值分解对原始文档进行潜在语义分析,挖掘原始文档的潜在语义特征,然后根据随机超平面原理将保留的语义特征转换成二进制数字指纹,得到高维原始文档的低维语义指纹表示。其次,设计了一种基于融合表示的文本粗分类算法。该算法主要是基于学术论文梗概(题目、摘要、关键字)和正文两大部分融合表示的聚类,是K-means算法的一种改进。该算法下每篇文档都被主题向量和语义指纹所表示,聚类过程中每次迭代的簇中心均采用数据集中的真实文档,并作为原文档集的一个原型。此外,算法采用余弦距离与汉明距离融合的计算方法计算文档与各类中心的模糊隶属程度,并将文档归到具有最大隶属度的类别,完成数据集的粗分类。最后,为了给后续搜索访问等操作提供有利信息,本文设计了基于原型的文档分类算法。该算法根据集外文档与各原型间的相似度来判断是否对其进行归类以及归到哪一类等处理。实验结果表明,本文提出的基于潜在语义分析的文本指纹提取方法与常用的向量空间模型表示方法及Simhash方法相比,所提取的指纹精度更高,更能体现文本的语义信息。另外,本文基于融合表示的文档粗分类方法解决了原始K-means聚类算法的大类问题,对数据集中各领域文档的F值均达到80%以上,能够得到较好的类结构。基于原型的集外文档分类方法,在与原型同领域文档间具有较高的正确率,对其它领域文档具有较高的拒识率,可以对集外文档进行正确辨识,达到粗分类目的,有利于文档集的组织和管理。(本文来源于《延边大学》期刊2018-05-19)

崔彤彤,崔荣一[2](2018)在《基于潜在语义分析的文本指纹提取方法》一文中研究指出网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。(本文来源于《中文信息学报》期刊2018年05期)

潘霄航[3](2016)在《基于语义指纹和云模型的动态词义变化程度研究》一文中研究指出词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环境下,许多汉语词语的语义发生了显着的变化。如何深入了解网络词义的构成要素,准确全面提炼网络词义的静态特征和动态特征,进而给出集合静态要素和动态要素于一体的网络词义的形式化表示方式,是一项有重大意义且有挑战性的研究工作。在传统的语言学中,词义的演变是一个重要的课题,取得了很多显着的成就。但在语言学上对词义的发展演变只能进行定性的分析,需要精确的进行数据收集,耗费大量的人工。而在定量的研究上,往往使用一些简单的统计量,例如词频,上下文相关度等作为词义变化的度量,结果很难具有说服性。因此本文提出具有统计学意义上的研究方法,对词义变化现象进行深入的发掘,给语言学家及自然语言处理等领域的学者提供参考。本文基于词义的表示方法,改进深度学习中词向量训练模型,得到词的向量化表示。在此基础上,通过词之间的语义关联,实现了基于词向量的语义指纹获取方法。我们以历时的语料库作为训练语料,获取不同时间段词义的语义指纹,通过云模型,获取其数字特征。通过对相似云的相似度计算,我们可以得到词义的变化程度,从而发现词语的语义变化程度。第叁章提出一种基于词向量的语义指纹获取方法,该方法使用大规模语料库进行模型训练,可以获取更多的语义关联信息。首先,本文在基于word2vec的基础上,通过在训练过程中加入词性标注信息,给出Pos-CBOW模型,能得到效果更好的词向量。通过词向量之间的相似度计算,获取词义之间的语义关联。将和中心词的相似度大于一定阈值的词作为中心词的语义指纹。提出基于词向量的语义指纹获取方法,能更好的形式化表达词义。第四章在第叁章的基础上,通过云模型的定性定量转换理论,获取词义的数字特征。针对历时的语料库训练出来的词义,我们利用相似云的相似度计算公式来计算词义的动态变化程度。本文第叁章用2015年新浪新闻,共1G的文本作为训练语料。将wordSimilarity-353和words-240作为测试集。从实验结果可以看出,文中提出的基于词向量的语义指纹方法在斯皮尔曼相关系数和皮尔逊相关系数上有良好的表现。这也间接表明本文方法的可行性。在第四章中,以历时的语料库作为训练语料,通过计算不同时段词义的概念云的相似度,来发现词义是否发生改变。实验结果表明,我们的方法可以有效的计算词义的改变程度。(本文来源于《华中师范大学》期刊2016-05-01)

孟琼瑶[4](2016)在《基于语义指纹关联的网络事件热度分析方法研究》一文中研究指出随着互联网的快速发展,网络媒体应运而生,传统媒体公司也随之建立了新闻发布网站。网络传播的快捷性、互动性、开放性等特点使得民众可以快速关注网络上的热点事件,发表看法、参与讨论。随着民众的关注,负面热点事件的事件破坏力可能会对社会的和谐造成不好的影响,因此,在热点事件的萌芽阶段及时发现热点事件并采取适当的措施进行处理,是热点事件下一步的研究方向。目前的热点事件发现方法主要是通过文本处理的方法对网络上的信息进行归类,然后对每一类事件进行热度分析。这类方法属于事后分析,如果能在事件的萌芽阶段发现并及时处理该事件就能有效降低影响。因此,本文研究的目标是在事件的萌芽阶段分析事件的热度,判断其是否会成为热点事件。新的事件刚产生时,事件的报道数量、评论数、点击率等都很少,通过热度计算公式不能判断其是否会成为热点事件。分析热点事件的特点,发现有很多与热点事件相关的事件在过去发生过。这说明热点事件之间相互关联,因此可通过已经发生的热点事件分析当前事件的热度。本文首先提出事件语义指纹的概念描述事件,事件的语义指纹分为主体、主题、时间、地点四部分,从这四部分描述一个事件。事件的主体、时间、地点等属于命名实体,可通过命名实体识别技术得到,根据每部分的特点,分别计算它们的贡献度;事件的主题主要描述事件的内容,通过柯式复杂性理论和共词矩阵得到最能代表事件的相关特征词作为事件的主题。事件的语义指纹根据事件每个方面的特点来描述一个事件,比传统的文本向量表示事件的方法更加完善。然后基于事件的语义指纹计算两个事件的相关度,建立关联事件图,分析图中每个事件的热度,依据PageRank算法的思想得到每个事件的重要性,计算事件的热度向量与事件的重要性向量的乘积,得到当前事件的热度。分别计算事件的语义指纹的四个方面的关联度来得到事件之间的关联度,以事件关联度为边的权重,建立权重矩阵,迭代计算事件关联图中事件的重要性,当收敛时得到关联图中每个事件的重要性。最后将事件的语义指纹与TF-IDF、BM25等方法在检索模型里作对比,发现事件的语义指纹能更好的表示一个事件,将事件关联图模型计算得到的事件的热度与实际热度进行比较,热度预测效果很好,说明了基于事件关联方法的有效性。(本文来源于《华中师范大学》期刊2016-05-01)

陈露,吴国仕,李晶[5](2014)在《基于语义指纹和LCS的文本去重方法》一文中研究指出为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。(本文来源于《软件》期刊2014年11期)

李纲,毛进,陈璟浩[6](2013)在《基于语义指纹的中文文本快速去重》一文中研究指出针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。(本文来源于《现代图书情报技术》期刊2013年09期)

李旭[7](2010)在《基于指纹和语义知识表示的中文文档复制检测方法》一文中研究指出自然语言文档复制检测技术是信息处理领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文以前人所研究的文档复制检测理论为基础,研究中文文档复制检测方法,利用指纹和语义知识表示相结合的方法自动发现文档间的重迭信息。首先,分析现有文档复制检测原型系统的功能和优缺点。在此基础上,提出一种基于指纹的中文文档复制检测方法。根据文档复制检测的特点,设定检测粒度参数和噪声粒度参数,采用Hash函数把已经消解噪声的两种检测粒度文本块映射成相应的数值,设计基于窗口的算法从数值序列中提取指纹,并利用定义的公式度量查询文档与数据库中多篇文档之间的重迭度,进而判断查询文档是否为复制文档。其次,提出一种汉语全文无指导词义标注方法。根据知网词典定义和词语词性对应关系对单义词和类别歧义词直接标注正确的词义。对于非类别歧义词和混合歧义词,以真实的应用情况出发,提出一种改进的汉语无指导词义消歧方法。针对现存EM(Expectation Maximization)迭代算法计算量大、收敛缓慢的问题,利用互信息和Z-测试结合的算法选取特征,并通过一种统计学习方法估算初始参数值。再次,提出一种基于概率上下文无关文法的无指导句法分析方法。针对概率上下文无关文法独立性假设这一局限性引入上下文信息,给出新的结合词类和句法范畴共现信息的句法结构树概率评价函数,描述句法分析算法,并利用Inside-Outside算法从未经过标注的语料库中自动获取语法规则概率和结构共现概率,避免了有指导训练方法需要构建大规模标注树库的问题。最后,为了根据句法结构和句子中每个实词的词义推导出能够反映句子意义的形式表示,提出一种基于框架的语义知识表示方法,能够描述词、短语和句子的语义,并且清楚地表示出语义单位之间的层次性和生成性。介绍利用语义知识表示发现同义词替换、语态变化、词性变化和断句等复杂文本复制方式的检测过程,并给出面向语义知识表示的文档重迭性度量方法。实验确定设定参数的最佳取值,并验证本文方法的正确性和有效性。本文提出的基于指纹的中文文档复制检测方法从字符串匹配角度发现文档间的重迭信息,基于语义知识表示的中文文档复制检测方法从语义角度进行研究,通过对汉语句子进行语义分析和语义匹配,真正实现了从自然语言处理的语义层面来解决自然语言文档复制检测的问题。(本文来源于《燕山大学》期刊2010-06-30)

李旭,赵亚伟,刘国华[8](2008)在《基于指纹和语义特征的文档复制检测方法》一文中研究指出文档复制检测是保护知识产权、提高信息检索效率的有效手段。提出一种基于指纹和语义特征的文档复制检测方法。介绍了指纹提取算法以及相关的重迭度度量,并且以知网的概念描述为基础对文本进行语义分析,利用词类信息和语义规则进行歧义消解,并采用基于框架的层级表示方法描述句子的语义特征。在3种测试集上把该方法与现存的方法在检测准确率上进行比较,实验结果表明该方法能够有效地检测出各种方式的复制文本。(本文来源于《燕山大学学报》期刊2008年04期)

钟坚成,杨家红[9](2007)在《XML语义在烟用香精香料质量指纹控制系统中的应用》一文中研究指出本文描述了利用 XML 语义技术对指纹图谱、模型信息进行结构化描述,使数据属性具有更好的扩展性和可验证性,使系统能通过统一的调用接口实现入库、检索、模型导出、预测过程模型的载入等操作,且同时能在网络和非网络环境中使用,具有很高的灵活性。为进一步实现数据挖掘(DM)和数据库知识发现(KDD)奠定基础.(本文来源于《第九届全国计算(机)化学学术会议论文摘要集》期刊2007-08-01)

语义指纹论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

语义指纹论文参考文献

[1].崔彤彤.基于主题和语义指纹融合的学术论文粗分类方法研究[D].延边大学.2018

[2].崔彤彤,崔荣一.基于潜在语义分析的文本指纹提取方法[J].中文信息学报.2018

[3].潘霄航.基于语义指纹和云模型的动态词义变化程度研究[D].华中师范大学.2016

[4].孟琼瑶.基于语义指纹关联的网络事件热度分析方法研究[D].华中师范大学.2016

[5].陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件.2014

[6].李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术.2013

[7].李旭.基于指纹和语义知识表示的中文文档复制检测方法[D].燕山大学.2010

[8].李旭,赵亚伟,刘国华.基于指纹和语义特征的文档复制检测方法[J].燕山大学学报.2008

[9].钟坚成,杨家红.XML语义在烟用香精香料质量指纹控制系统中的应用[C].第九届全国计算(机)化学学术会议论文摘要集.2007

标签:;  ;  ;  ;  

语义指纹论文-崔彤彤
下载Doc文档

猜你喜欢