词汇相似度论文-孙洪迪

词汇相似度论文-孙洪迪

导读:本文包含了词汇相似度论文开题报告文献综述及选题提纲参考文献,主要关键词:Word2Vec,词向量,词汇语义相似度,多线程

词汇相似度论文文献综述

孙洪迪[1](2019)在《基于Word2Vec的高效词汇语义相似度计算系统的设计实现》一文中研究指出随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方案,提高了词汇语义相似度计算效率及准确率,并给出了优化后的实际测试结果。(本文来源于《北京工业职业技术学院学报》期刊2019年04期)

吴华,罗顺,孙伟晋[2](2019)在《一种基于语料的词汇语义相似度认知算法》一文中研究指出词汇的语义相似度计算是信息检索、自然语言处理、推荐系统等技术的基础。事实上,词汇可能因其语境或语料的不同,语义的相似度千差万别。论文通过提取词汇的上下文语境特征,构建了一种基于特定语料的词汇的语义相似度计算模型。实验结果表明,该算法有较好的准确率和较强的领域敏感性,取得了令人满意的结果。(本文来源于《计算机与数字工程》期刊2019年02期)

吴克介,王家伟[3](2018)在《基于知网与搜索引擎的词汇语义相似度计算》一文中研究指出提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。(本文来源于《计算机与现代化》期刊2018年04期)

郑伟娜[4](2017)在《四邑方言词汇相似度比较分析》一文中研究指出本文从分析现有的方言词汇相似度计算方法入手,指出王沈计量法和加权平均法均存在不足之处。在此基础上,提出一种新的算法——语素加权法。语素加权法将每个词目权重设定为1,并根据词中语素的重要程度为每个语素加权;在语素加权的基础上,将构词法纳入考虑,计算其相似度。运用语素加权法,统计了普通话、广州话及七个四邑方言点的词汇相似度,并在此基础上为四邑方言做了聚类分析。(本文来源于《中国语文》期刊2017年06期)

曹慧萍[5](2017)在《湖南宜章一六话与周边方言词汇相似度的计量分析》一文中研究指出宜章县位于湖南南部,是一个典型的双方言区。宜章土话目前系属不明,大致分为叁片,最为复杂的是一六片。本文对一六话和周边方言代表点(长沙话、双峰话、南昌话、萍乡话、梅县话、于都话、广州话、皈塘话)1138个常用词的相似度进行计量分析,选取语素、构词等相关变量,利用王-沈计量公式,以此来看一六话和周边方言的亲疏程度,最后从语言和社会角度来探讨词汇接触演变问题。(本文来源于《励耘语言学刊》期刊2017年01期)

裴家欢[6](2017)在《中文词汇语义相似度计算研究》一文中研究指出词汇语义相似度是对两个词语对象所蕴含意义的相近程度的度量。词汇语义相似度计算是一项基础而核心的工作,可以将“词汇相似”这个抽象关系通过特定的计算方法映射成计算机可以处理的数值,从而将自然语言处理问题转化为机器学习问题,其性能的好坏将直接影响到自然语言处理与信息检索的各项任务。近年来,基于词向量的词汇语义相似度计算方法及其改进方法已成为该领域内的前沿、热点研究课题。本文研究中文词汇语义相似度计算,重点研究如何改进基于词向量的方法,并根据是否融入语义约束分为两部分研究:(1)无语义约束的词向量模型本文分别使用机器翻译和LSTMs网络改进标准Skip-gram模型:首先,分别利用标准Skip-gram模型根据不同的训练语料得到标准词向量,通过实验分析了语料规模和语料质量对词向量模型的影响。其次,尝试用机器翻译构建中、英文词向量的关系,并用公开大规模英文词向量选择性地替换中文向量,改进原有中文词向量计算性能。最后,将词汇相似度计算问题转化为词汇关系预测问题,并通过LSTMs网络学习词对共现的句子序列,从而建模词汇关系。(2)融入语义约束的词向量模型本文提出了一种改进Counter-fitting模型将语义约束融入已有词向量模型:首先,利用网络爬虫技术扩展词汇上下文。分别抓取词汇出现以及词对共现的句群作为词对“上下文”,并抓取同义词对、反义词对扩充现有人工语义词典。其次,计算词汇语义相似度。分别利用语义词典、检索结果、预训练好的词向量计算语义相似度。最后,利用改进Counter-fitting方法优化预训练好的词向量,具体的做法是,通过语义约束、向量空间存留构造多项式目标函数,然后用梯度下降算法对目标函数求解,其中,语义约束不仅包括同义约束、反义约束,还包含了相似约束。实验结果表明,基于语义词典的方法在登录词覆盖率较高的情况下,有着先天优势,而当出现大量未登录词时,基于词向量方法和基于Web检索的方法更具有实用性,此外,融入语义约束的词向量模型的实验结果达到目前PKU-500数据集上的最佳水平,斯皮尔曼相关系数为0.552,其性能明显好于语义词典模型、Web检索模型和基本词向量模型。(本文来源于《大连理工大学》期刊2017-05-09)

谷重阳,徐浩煜,周晗,张俊杰[7](2018)在《基于词汇语义信息的文本相似度计算》一文中研究指出传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。(本文来源于《计算机应用研究》期刊2018年02期)

蔡圆媛[8](2016)在《基于知识整合的词汇语义相似度计算方法研究》一文中研究指出随着大数据时代的到来,海量的文本数据在提供高价值信息的同时,也给文本语义理解带来了严峻的挑战。单词是文本的最小组成单元,其语义相似度是挖掘词汇关联的重要依据,有助于计算机准确理解语句和文档的内容。根据词汇语义资源,典型的语义相似度计算方法包含两类:基于知识库(Knowledge Base)和基于语料库(Corpus)。知识库能够提供词汇的语义描述和结构化信息,但是严重依赖于领域专家的构建和维护,词汇覆盖率较低,缺乏可扩展性。而语料库虽然包含丰富的词汇,但是其非结构性导致难以从中提取词汇的有效语义特征。为了克服单类语义资源的不足,本文基于WordNet的图结构和词汇的低维向量表示,分别从概念信息含量的量化模型、语义增强的词向量、度量方法的优化组合叁方面,研究了知识库和语料库中语义知识的整合。本文的主要研究成果如下:(1)提出了一种基于IC加权最短路径的概念语义相似度计算方法CSSM-ICSP(Concept Semantic Similarity Measurement Based on IC-weighted Short-est Path)。该方法利用WordNet中概念的边长、深度、密度等结构属性以及信息含量(Information Content, ⅠC),计算概念之间的路径距离并非线性地转化为概念语义相似度。首先,用概念深度的相关函数对概念密度进行平滑,构造基于WordNet的固有IC混合(Intrinsic ⅠC Hybrid, ⅡH)计算模型,该模型改进了传统IC计算模型未考虑概念深度的不足;其次,将概念的IC差值作为边长的权重,衡量处于不同深度的概念语义关系的强度差异。利用IC加权的路径距离、深度差异率和归一化路径距离,建立概念距离计算模型。此外,为了实现WordNet与语料的语义知识整合,该方法将基于语料的统计IC模型引入固有IC模型。实验结果表明,在词对相似度公共测试集M&C、R&G、WS-353和WS-sim上,相比基于WordNet的其它方法,本文提出的方法具有较高的皮尔森线性相关系数。(2)提出了一种基于多语义融合的单词语义相似度计算方法WSSM-MSF (Word Semantic Similarity Measurement Based on Multiple Semantic Fusion)。该方法旨在构建有效的词汇语义表征,改善基于向量空间的语义相似性度量。由于文档所表达的语义内容可以表示为句子、短语或单词的向量组合,该方法基于向量的代数运算,利用WordNet中概念的多个语义属性,包括同义词(Synset)、注释(Gloss)、上位词(Hypernym)和下位词(Hyponym),构造多语义融合(Multiple Semantic Fusion, MSF)模型,以此生成概念向量和语义增强词向量,实现基于语义特征的异构知识整合。为了避免传统词袋模型带来的数据稀疏、特征高维等问题,该方法采用连续词袋模型CBOW (Continuous Bag-of-Words),从大规模文本语料中学习出低维、稠密的实数词向量。实验结果表明,本文提出的语义增强的词向量相对于原始词向量具有更好的表示语义特征的能力,能够提高词对相似度评测的计算准确度,以及语义Web服务匹配的查准率和召回率。(3)提出了一种基于差分进化(Differential Evolutionary, DE)算法的单词语义相似度计算方法WSSM-DE (Word Semantic Similarity Measurement Based on Differential Evolutionary)。该方法将多种度量方法的优化组合问题演化为解空间中的随机寻优过程,将基于WordNet或基于低维向量的计算语义相似度作为DE算法中种群个体的多维分量,通过基于个体差异的启发式全局搜索,获得分量上的权值和最优解,以此实现WordNet与语料的语义知识整合。基于最优个体的每一维分量值的变化,分析了在语义计算任务中词向量可能隶属的空间。在词对相似度评测任务上的实验结果表明,本文提出的方法不仅优于基于单一语义源的相似度计算方法,而且优于基于有监督优化组合的计算方法,包括基于排序学习的计算方法和基于回归的计算方法。尤其是将语义增强的词向量应用于该方法中,语义相似度计算的准确度具有明显的提升。综上所述,与已有的基于单类资源的相似度计算方法相比,本文提出的叁种方法均侧重于整合异构资源的语义信息,提升词汇语义相似度计算的性能。其适用性取决于可用语义资源的种类、规模和评测任务。(本文来源于《北京交通大学》期刊2016-10-11)

韩普,王东波,王子敏[9](2016)在《词汇相似度计算和相似词挖掘研究进展》一文中研究指出作为语言的叁大构成要素之一,词汇在人类的思维活动和思想交流中发挥着无可替代的作用。相似词是自然语言中一个普遍存在的现象,相似度计算是其它多个研究的中间步骤。本文阐述了相似度的概念以及相似词挖掘的相关理论基础;基于所使用的资源,将词汇相似度研究划分为基于语义词典、基于语料库和基于百科文档链接的方法,并分别进行了述评;介绍了词汇相似度的评价方法以及词汇相似研究的未来趋势。(本文来源于《情报科学》期刊2016年09期)

陈鹏,赵翠莲[10](2016)在《中国英语学习者词汇联想反应模式相似度研究》一文中研究指出本研究依照Fitzpatrick(2007)的反应词分类标准,通过词汇联想任务对比研究中国英语学习者和Fitzpatrick(2007)汇报的本族语者的反应模式,重点考察了学习者总体和个体反应模式的相似度。结果显示:1)学习者与本族语者的反应模式相比有系统差别,表现为学习者倾向于产出形式关联反应,而本族语者更多产出意义关联反应;2)学习者个体内部的反应相似度显着高于个体之间,说明学习者已形成个性化、差异化的个体反应模式;3)"中间联想"可能的成因有语义、语音、词形、受试误解等因素,隐性表现为一语中介、音形近似词联想等形式。(本文来源于《外语教学与研究》期刊2016年04期)

词汇相似度论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

词汇的语义相似度计算是信息检索、自然语言处理、推荐系统等技术的基础。事实上,词汇可能因其语境或语料的不同,语义的相似度千差万别。论文通过提取词汇的上下文语境特征,构建了一种基于特定语料的词汇的语义相似度计算模型。实验结果表明,该算法有较好的准确率和较强的领域敏感性,取得了令人满意的结果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

词汇相似度论文参考文献

[1].孙洪迪.基于Word2Vec的高效词汇语义相似度计算系统的设计实现[J].北京工业职业技术学院学报.2019

[2].吴华,罗顺,孙伟晋.一种基于语料的词汇语义相似度认知算法[J].计算机与数字工程.2019

[3].吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化.2018

[4].郑伟娜.四邑方言词汇相似度比较分析[J].中国语文.2017

[5].曹慧萍.湖南宜章一六话与周边方言词汇相似度的计量分析[J].励耘语言学刊.2017

[6].裴家欢.中文词汇语义相似度计算研究[D].大连理工大学.2017

[7].谷重阳,徐浩煜,周晗,张俊杰.基于词汇语义信息的文本相似度计算[J].计算机应用研究.2018

[8].蔡圆媛.基于知识整合的词汇语义相似度计算方法研究[D].北京交通大学.2016

[9].韩普,王东波,王子敏.词汇相似度计算和相似词挖掘研究进展[J].情报科学.2016

[10].陈鹏,赵翠莲.中国英语学习者词汇联想反应模式相似度研究[J].外语教学与研究.2016

标签:;  ;  ;  ;  

词汇相似度论文-孙洪迪
下载Doc文档

猜你喜欢