词语共现信息论文-马慧芳,邢玉莹,王双,张旭鹏

词语共现信息论文-马慧芳,邢玉莹,王双,张旭鹏

导读:本文包含了词语共现信息论文开题报告文献综述及选题提纲参考文献,主要关键词:短文本,共现距离,期望交叉熵,特征提取

词语共现信息论文文献综述

马慧芳,邢玉莹,王双,张旭鹏[1](2018)在《融合词语共现距离和类别信息的短文本特征提取方法》一文中研究指出针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。(本文来源于《计算机工程与科学》期刊2018年09期)

吴海燕[2](2013)在《基于互信息与词语共现的领域术语自动抽取方法研究》一文中研究指出领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2013年05期)

陈超[3](2009)在《基于词语共现的BBS垃圾信息过滤模型》一文中研究指出随着Internet技术的快速发展,各种网络应用服务越来越多,BBS系统(Bulletin Board Systems)为广大网络用户开辟了自由发表言论的空间,含有大量信息资源。开发出有效的BBS搜索引擎,有助于人们获得更多的知识和信息。在海量BBS信息中,存在大量人为加入的“垃圾信息”,比如大多数用户不关心的广告帖,虽然可以通过制定规则加以过滤或者人工加以排除,但是垃圾信息的人为性和随意性以及人工操作的开销过大,BBS系统难以保证所有信息都是规范的、有意义的。在通用搜索引擎中收录的BBS信息中,BBS中的垃圾信息对搜索结果产生了干扰。为解决上述问题,本文提出了一种基于词语共现向量空间的信息过滤模型,通过计算文本中题目与正文特征项之间的相关度进行文本过滤。课题的研究工作主要包括:(1)分析和总结了BBS信息的特点,在国内外信息过滤相关技术研究的基础上,在BBS搜索引擎框架中引入信息过滤技术。(2)提出了基于词语共现向量空间模型计算文本中标题与正文特征向量之间相关度的方法。(3)通过实验,对基于词语共现向量空间模型与基于知网的语义相似度模型进行了比较。在相同的训练集和测试集上,本文采用的模型对文本相关度的计算结果优于未进行语义分析的、基于知网的语义相似度计算的结果,而在进行语义分析的情况下,基于知网的语义相似度计算结果稍优于本文的模型。本文采用的模型具有系统开销小并具有自学习性能的优点,该模型可用于信息检索、信息过滤、自然语言处理等研究工作,具有广阔的应用前景。(本文来源于《哈尔滨工业大学》期刊2009-12-01)

词语共现信息论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

领域术语自动抽取是本体建设中最基础最重要的工作。领域术语的自动抽取,通常采用基于规则或者基于统计的方法,这些方法是从术语的完备性,或者是检验术语的领域性进行检验。在前人的基础上提出了一种方法,该方法不仅测试领域术语的完备性,同时测试了其领域性,以期获得更好的结果。实验结果表明,该方法获得的术语准确率得到了一定的改进,准确率和召回率分别达到了81.7%和70%。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

词语共现信息论文参考文献

[1].马慧芳,邢玉莹,王双,张旭鹏.融合词语共现距离和类别信息的短文本特征提取方法[J].计算机工程与科学.2018

[2].吴海燕.基于互信息与词语共现的领域术语自动抽取方法研究[J].重庆邮电大学学报(自然科学版).2013

[3].陈超.基于词语共现的BBS垃圾信息过滤模型[D].哈尔滨工业大学.2009

标签:;  ;  ;  ;  

词语共现信息论文-马慧芳,邢玉莹,王双,张旭鹏
下载Doc文档

猜你喜欢