导读:本文包含了多文档关键词提取论文开题报告文献综述及选题提纲参考文献,主要关键词:提取,结构熵权法
多文档关键词提取论文文献综述
王燊,施运梅[1](2018)在《基于用户行为的文档关键词提取方法》一文中研究指出对文档提取关键词时忽略在文档中出现频率不高但对文章具有关键意义的词语的问题,提出一种基于用户行为的文档关键词提取方法。利用结构熵权法为用户对文档的用户行为建模,在提取关键词时,考虑用户行为的影响和文档关键词的位置,并通过实验验证了提出的方法所提取出的关键词具有更高的准确性。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2018年05期)
王永志,金梁,朱月琴,白明,包晓栋[2](2018)在《基于大数据技术的地学文档关键词提取算法研发》一文中研究指出地学文档中蕴含了丰富的信息与专家知识,缺少关键词支持的地学文档给分类管理、信息检索与共享带来不便.为了发挥大数据技术处理非结构化地学数据优势,本文基于Hadoop平台设计并开发了一款地学文档关键词自动提取算法软件,将各类Word、PDF格式地学文档资料分布式存储在HDFS和HBase中,可对非结构化数据进行自动地读取、解析、处理、计算等.研发了大数据环境下的基于加权、词频的关键词提取算法,以及融合加权与词频两套方法的组合关键词提取算法.使用100余篇期刊论文对算法进行测试并与作者关键词对比,结果表明组合算法提取的复合关键词具有较高的地学类关键词命中率,有的甚至可达100%,其计算效率大大优于单机运行,可为地学文档在线查阅与检索等提供有效的辅助支持.(本文来源于《地球物理学进展》期刊2018年03期)
马运运,孙志一,刘海波,彭勇[3](2015)在《中文专利文档关键词自动提取方法研究进展》一文中研究指出专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。(本文来源于《世界科学技术-中医药现代化》期刊2015年01期)
姜芳,李国和,岳翔[4](2015)在《基于语义的文档关键词提取方法》一文中研究指出以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类,并从主题相关类中选取中心词作为关键词。通过统计实验和打分实验,证明基于语义的文档关键词提取方法具有较高的准确率、召回率,并且提取的关键词具有较高的主题相关度。(本文来源于《计算机应用研究》期刊2015年01期)
陈睿,唐雁[5](2013)在《基于广义Hough变换的手写汉字文档关键词提取》一文中研究指出提出了一种基于广义Hough变换的手写汉字文档关键词提取技术。对于待提取的手写文档图像,采用字符像素逐点匹配和投票的方式进行广义Hough变换,在参数空间中定位出手写关键词图像的位置。本技术对传统的广义Hough变换进行了修改,突破了形状匹配需要完整轮廓信息的局限,简化了局部特征的计算,对手写汉字文档图像中具有局部形变、部分旋转和缩放的手写关键词能够有效提取。对于提取的相同关键词建立训练集,用签名识别的方法对书写者建模,能够达到书写者身份鉴别的目的。(本文来源于《微型机与应用》期刊2013年06期)
杨春明,韩永国[6](2011)在《快速的领域文档关键词自动提取算法》一文中研究指出针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。(本文来源于《计算机工程与设计》期刊2011年06期)
马亮,何婷婷,陈劲光,李芳,邵伟[7](2008)在《一种利用关键词提取的面向查询多文档文摘技术》一文中研究指出针对面向查询的多文档自动文摘,本文提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分.最后生成文摘。本文将特征融合引入到词语层面,在DUC2005的语料中测试效果很好。(本文来源于《第四届全国学生计算语言学研讨会会议论文集》期刊2008-07-01)
张旭成,宋传宝[8](2007)在《基于文本类别信息熵的中文文档关键词提取》一文中研究指出批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特别是在互联网上的功能,本文还尝试地给出了一种新的关键词分类:内容关键词、导出词(TAG 关键词)和锚点关键词。通过将关键词的功能进行分化后,一套多样的,能满足不同需求的关键词排序算法被系统的提了出来。测评结果显示该关键词系统有较好的准确性、稳定性和高效性。(本文来源于《中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集》期刊2007-10-01)
多文档关键词提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
地学文档中蕴含了丰富的信息与专家知识,缺少关键词支持的地学文档给分类管理、信息检索与共享带来不便.为了发挥大数据技术处理非结构化地学数据优势,本文基于Hadoop平台设计并开发了一款地学文档关键词自动提取算法软件,将各类Word、PDF格式地学文档资料分布式存储在HDFS和HBase中,可对非结构化数据进行自动地读取、解析、处理、计算等.研发了大数据环境下的基于加权、词频的关键词提取算法,以及融合加权与词频两套方法的组合关键词提取算法.使用100余篇期刊论文对算法进行测试并与作者关键词对比,结果表明组合算法提取的复合关键词具有较高的地学类关键词命中率,有的甚至可达100%,其计算效率大大优于单机运行,可为地学文档在线查阅与检索等提供有效的辅助支持.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多文档关键词提取论文参考文献
[1].王燊,施运梅.基于用户行为的文档关键词提取方法[J].北京信息科技大学学报(自然科学版).2018
[2].王永志,金梁,朱月琴,白明,包晓栋.基于大数据技术的地学文档关键词提取算法研发[J].地球物理学进展.2018
[3].马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化.2015
[4].姜芳,李国和,岳翔.基于语义的文档关键词提取方法[J].计算机应用研究.2015
[5].陈睿,唐雁.基于广义Hough变换的手写汉字文档关键词提取[J].微型机与应用.2013
[6].杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计.2011
[7].马亮,何婷婷,陈劲光,李芳,邵伟.一种利用关键词提取的面向查询多文档文摘技术[C].第四届全国学生计算语言学研讨会会议论文集.2008
[8].张旭成,宋传宝.基于文本类别信息熵的中文文档关键词提取[C].中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集.2007