导读:本文包含了关键短语抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:关键短语自动抽取,整数线性规划,语义过度生成,多样性
关键短语抽取论文文献综述
李珊珊,陈黎,唐裕婷,王艺霖,于中华[1](2019)在《利用整数线性规划自动抽取多样性关键短语》一文中研究指出关键短语是文本信息的精简概括,能够代表文本的主题和核心观点。而关键短语的自动抽取更是自然语言处理和信息检索的重要任务之一。针对目前无监督方法自动抽取关键短语存在过度生成候选短语语义的问题,提出了一种将整数线性规划和短语语义相似度相结合的自动抽取算法。通过惩罚语义相似度高的候选短语实现目标函数的最大化,以此形成多样性的关键短语。实验利用TextRank和TFIDF算法在两种不同的语料集中分别产生候选短语,并利用提出的优化算法对候选短语的权值得分进行优化。最后将所提算法产生的优化结果与现有多个算法的结果进行了比较。实验结果表明,通过加入相似性度量的惩罚能够有效解决语义过度问题,并获取更多样的关键短语,其优化结果的P,R和F值均高于其他算法。(本文来源于《计算机科学》期刊2019年S1期)
郎冬冬,刘晨晨,冯旭鹏,刘利军,黄青松[2](2018)在《一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现》一文中研究指出为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。(本文来源于《计算机应用与软件》期刊2018年03期)
姚尧[3](2015)在《自动关键短语抽取综述》一文中研究指出自动关键短语抽取是知识抽取和信息检索等信息技术的关键步骤,当前已经被广泛研究多年,但是和许多自然语言处理任务的性能相比,现有抽取算法的性能依然很低下。对自动关键短语抽取方法进行综述,并对其未来研究发展进行展望,为进一步自动抽取高质量的关键短语提供良好借鉴。(本文来源于《现代计算机(专业版)》期刊2015年04期)
徐晓明[4](2011)在《专利文本聚类及关键短语抽取的研究》一文中研究指出近年来,专利信息资源呈几何爆炸式的增长,如何充分地利用它们,使专利信息在科研和专利业务等方面发挥作用,成为文本处理领域的热门课题之一。专利信息资源中存在着大量的专业文字信息,如何提供一种有效的机制来组织利用文本、帮助用户获得他们想要的信息变得愈加重要。文本聚类是组织利用文本信息资源的较好的解决方案之一。它的任务是根据文本数据的特征,将其划分为不同的文本簇。专利文本聚类,即针对专利文本进行聚类,可以将专利文本集合划分成系统化的有意义的文本簇,缩小文本集合的数据规模,进而提高用户的查询使用效率。在对专利文本聚类结果的描述上,关键短语抽取方法表现出较好的效果。关键短语比关键词带有更丰富的信息量,可以高度概括文本簇的主题,帮助用户快速了解文本簇的主要内容,加快专利处理的效率。同时,由于关键短语十分精练,还可以利用关键短语以很小的计算代价对专利进行文本表示,辅助进行信息检索、文本聚类和分类等专利处理。针对专利文本的特点,我们提出了改进的专利文本聚类方法和具体实现步骤。其中包括文本预处理、文本表示、基于Trie树的文本表示优化、特征权重计算、特征降维等预处理步骤以及基于辅助字段的文本相似度计算、改进的文本聚类算法、最优类别个数选取等聚类步骤。此外,我们还提出了针对专利文本的多方法整合的关键短语抽取方法和具体实现步骤。其中包括基于词性模板的关键短语候选抽取、基于词典的短语识别、基于上下文信息的短语识别、基于TF-ICF-CDF的关键短语评分等步骤。综上,我们提出了改进的专利文本聚类方法和针对专利文本的多方法整合的关键短语抽取方法。与传统方法相比,我们取得了更好的性能。(本文来源于《东北大学》期刊2011-06-01)
刘铭,王晓龙,刘远超[5](2010)在《基于词汇链的关键短语抽取方法的研究》一文中研究指出文中提出一种基于词汇链的关键短语抽取算法,算法首先通过构造多条词汇链来表达文章的多条叙事线索,并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息,然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文章的关键短语.实验表明该算法抽取的关键短语能够更全面地覆盖文章的主题信息.算法消除了多个关键短语表达同一主题信息的冗余性,同时可以根据文章主题的分布动态确定输出的关键短语的数量,其效果明显优于采用统计信息进行关键词抽取的方法.(本文来源于《计算机学报》期刊2010年07期)
姜舟[6](2010)在《关键短语抽取及相关技术研究》一文中研究指出关键短语抽取是文本信息处理的重要技术。随着网络时代的到来,在线文档呈现出几何级数的增长,“信息爆炸”成为这个时代的主要特征。检索和利用网络信息变得越来越困难,关键词作为对文章内容的简要概括,可以辅助人们快速了解文章内容,节省浏览时间。同时关键词在自动文摘、信息检索、文本分类、文本聚类等方面也具有十分重要的作用。在实际生活当中,只有很少的一部分文档拥有作者标注的关键词,并且由人手工进行关键词的标注是一项非常费时费力的工作且主观性较强。因此非常需要有一种方法,能够自动的进行关键词的抽取。关键词既要反映文本的主题内容,又要具有专指性。由于作者给定的关键词大多是由两个或者两个以上的词组成,因此本文也称为关键短语。关键短语的抽取已经成为信息检索领域中非常重要的研究课题。本文主要研究了以下几个问题:1.研究了与关键短语相关的资源建设问题,我们对格式化数据处理的方式进行了分类,并通过对互联网数据进行格式化处理来使人们了解如何进行资源建设。2.本文利用文档结构,分析和研究了关键短语抽取问题。本文采用分类的设计思想实现关键短语的抽取,并且分别采用支持向量机模型(SVM)来建立分类模型以及采用条件随机场模型(CRF)进行关键短语抽取。实验结果表明,本文提出的抽取算法在查准率和查全率上都比已有的算法有显着的提高。3.研究了软件测试问题,针对关键短语抽取完成了有关实验测试,我们对软件测试的方法进行了归纳、分类。通过使用Junit软件进行软件测试实验,我们分为五个部分对实验进行测试并总结出各个部分应注意和考虑的因素。(本文来源于《哈尔滨工业大学》期刊2010-06-01)
张永刚[7](2010)在《基于统计的多文档关键短语和文摘抽取研究》一文中研究指出关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的叁个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。(本文来源于《苏州大学》期刊2010-04-01)
张永刚,梁颖红,颜振祥,姚建民[8](2010)在《基于统计的中文关键短语自动抽取》一文中研究指出用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。(本文来源于《江南大学学报(自然科学版)》期刊2010年01期)
刘玲玲,梁颖红,张永刚,韩艳,姚建民[9](2010)在《基于决策树的关键短语抽取》一文中研究指出针对关键短语抽取工作可以转化为某种分类问题,利用决策树构造分类器解决关键短语的抽取。统计分析表明,将文档中词的词频因子、首位置和词性作为决策树分类特征,并考虑词在文档中出现的位置信息,对词的特征值进行一定的调整,采用Bagging重采样技术进一步提高了决策树的抽取性能,使其完全匹配和部分匹配的F_检测率分别达到21.50%和54.49%。(本文来源于《江南大学学报(自然科学版)》期刊2010年01期)
林煜熙,梁颖红,韩艳,张永刚,姚建民[10](2009)在《基于加权复杂网络的中文文档关键短语抽取》一文中研究指出提出了基于加权复杂网络的中文文档关键短语抽取方法.在识别完整短语后,将单个文档构建成一个语义复杂网络,同时加以共现信息对网络予以权重.之后进行网络分离,计算主体网络节点的加权点度中心度,同时提出基于边界节点的介数,解决了介数计算量大的问题.最后结合加权点度中心度和基于边界节点的介数抽取出关键短语,表现出良好的抽取效果,对利用复杂网络抽取关键短语有很好的指导作用.(本文来源于《微电子学与计算机》期刊2009年10期)
关键短语抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
关键短语抽取论文参考文献
[1].李珊珊,陈黎,唐裕婷,王艺霖,于中华.利用整数线性规划自动抽取多样性关键短语[J].计算机科学.2019
[2].郎冬冬,刘晨晨,冯旭鹏,刘利军,黄青松.一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现[J].计算机应用与软件.2018
[3].姚尧.自动关键短语抽取综述[J].现代计算机(专业版).2015
[4].徐晓明.专利文本聚类及关键短语抽取的研究[D].东北大学.2011
[5].刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报.2010
[6].姜舟.关键短语抽取及相关技术研究[D].哈尔滨工业大学.2010
[7].张永刚.基于统计的多文档关键短语和文摘抽取研究[D].苏州大学.2010
[8].张永刚,梁颖红,颜振祥,姚建民.基于统计的中文关键短语自动抽取[J].江南大学学报(自然科学版).2010
[9].刘玲玲,梁颖红,张永刚,韩艳,姚建民.基于决策树的关键短语抽取[J].江南大学学报(自然科学版).2010
[10].林煜熙,梁颖红,韩艳,张永刚,姚建民.基于加权复杂网络的中文文档关键短语抽取[J].微电子学与计算机.2009