特征词抽取论文-袁华,徐华林,钱宇,罗谦

特征词抽取论文-袁华,徐华林,钱宇,罗谦

导读:本文包含了特征词抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:在线信息检索,频繁模式挖掘,最大置信度,信息域

特征词抽取论文文献综述

袁华,徐华林,钱宇,罗谦[1](2018)在《域内海量数据中热点话题及其特征词抽取方法》一文中研究指出在特定信息域内的网络文档中,主题及其特征词的抽取工作是近年人工语言处理研究的重点,其研究结果具有显着的管理决策意义。本研究提出一种新的数据挖掘方法用于从海量UGC中分析出其"热点话题词"和"局部特征词"之间的关联关系。首先,利用网页抓取工具从网上获得某个域相关的文档,并对文档内容实施分词操作。然后,基于分词结果,抽取网页文档中存在的域内信息词并组成新的数据集。最后,我们提出一种基于热点话题词和语义分隔符号的数据集切分方法来获得每个热点话题词相关的本地特征词数据集。并且在该数据集上,可以分析出特征词对于热点话题词的依赖关系,从而找到每个话题词最恰当的特征词集合。该方法算法简单,尤为重要的是它能很好屏蔽那些不相关的高频共现词对特征抽取的影响,可广泛应用于文本相关的在线信息检索任务,为管理决策和电子商务活动服务。(本文来源于《管理工程学报》期刊2018年04期)

张志伟[2](2013)在《可视化网页信息抽取与文本特征词提取技术研究》一文中研究指出互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息情报分析及决策系统研究的关键问题之一。从互联网上抓取到的网页文本信息质量的好坏,将直接影响到后期信息处理与决策制定的准确性。因此,若能够高效准确地对从互联网上抓取到的网页进行信息抽取、质量评估以及根据相应的特征对抽取出来的网页文本进行分门别类,不仅能提高信息处理人员的工作效率,而且更能够提高特定情报分析系统以及决策系统的实用价值。本文依托云南省科技厅科技基础条件平台建设项目“云南省竞争情报公共服务平台及服务体系建设”以及科技部科技型中小企业技术创新基金项目“商业智能竞争情报管理系统”为支撑,从项目实际应用需求出发,同时进行理论创新。对竞争情报系统、网页信息抽取以及文本特征词提取的国内外研究现状及存在的问题进行简要分析,并分别介绍了本文所研究的“可视化网页信息抽取系统”以及“文本特征词提取”。本文设计并实现了“可视化网页信息抽取系统”,同时引入词性对TF*IDF进行改进,对文本特征词提取进行了研究,并对其中算法的可行性以及准确性进行评估与验证。本文从项目实际应用需求以及友好的用户操作的角度出发,设计并实现了“可视化网页信息抽取”系统。对传统的基于模板的网页信息抽取方式进行改进,设计了一种网页信息抽取规则与模板相结合的网页信息抽取方案,并在可视化环境中实现网页信息各抽取目标项抽取规则及模板的生成,依据站点模块的不同对生成的抽取模板进行分类。解析站点中某个模块下的网页时,根据网页分类规则获取抽取该模块网页信息的抽取模板,然后根据该抽取模板的各个目标项的抽取规则,解析出网页中各个目标项的文本,并封装成标准的结构化文档。实验表明,该方案不仅能友好便捷地生成各站点及站点模块的网页信息抽取规则、模板,而且获得了良好的网页信息抽取准确率及召回率。本文研究了文本特征词提取技术。利用IKAnalyzer进行分词时,引入词性标注过程,结合Sogou词库[31]以及结构与Sogou词库相同的备选词库,对分词获得的每个词条标注词性,同时对传统的TF及IDF进行统计。对每个词性的权重度量值进行调整,利用W=TF*IDF*ATTR词条权重计算公式对各个词条进行权重计算并非递减排序,选取若干个权重最大的词条作为相应站点或行业的特征词集。利用KNN分类算法根据系统提取的特征词进行实际文本分类验证,获得良好的分类效果,并利用向量空间模型进行验证,获得了较高的平均F1值。(本文来源于《昆明理工大学》期刊2013-03-01)

黄名选[3](2011)在《特征词抽取与查询扩展融合的信息检索系统模型》一文中研究指出将特征词抽取和查询扩展技术应用于信息检索,提出一种特征词抽取与查询扩展技术融合的信息检索系统模型及其算法。在详细论述模型的设计思想、各模块的功能基础上,重点阐述模型实现的关键技术及其检索算法。实验结果表明,该模型有效,能提高信息检索性能,具有较高的理论价值和广阔的应用前景。(本文来源于《情报杂志》期刊2011年11期)

黄名选[4](2011)在《负关联规则挖掘与特征词抽取融合的局部反馈查询扩展》一文中研究指出针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。(本文来源于《计算机工程与科学》期刊2011年11期)

陈志雄,朱向庆[5](2011)在《基于特征词统计的网页结构化信息抽取》一文中研究指出作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.(本文来源于《嘉应学院学报》期刊2011年02期)

冯平,黄名选[6](2011)在《特征词抽取和相关性融合的伪相关反馈查询扩展》一文中研究指出针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。(本文来源于《现代图书情报技术》期刊2011年01期)

李晓红[7](2009)在《中文文本分类中的特征词抽取方法》一文中研究指出针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法。这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性。(本文来源于《计算机工程与设计》期刊2009年17期)

宣照国,党延忠[8](2007)在《无词典中文特征词自动抽取的桥接模式滤除算法》一文中研究指出提出一种不依赖于词典的抽取文本特征词的桥接模式滤除算法(BPFA)。该算法统计文本中的汉字结合模式及其出现频率,通过消除桥接频率得到模式的支持频率,并依此来判断和提取正确词语。实验结果显示,BPFA能够有效提高分词结果的查准率和查全率。该算法适用于对词语频率敏感的中文信息处理应用,如文本分类、文本自动摘要等。(本文来源于《计算机应用研究》期刊2007年07期)

苏志响,邵志清[9](2006)在《基于上下文统计反馈的中文特征词抽取方法》一文中研究指出在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下,该方法能够快速、准确地对大规模中文文本进行特征词抽取。(本文来源于《情报探索》期刊2006年12期)

付德宇,代成琴[10](2006)在《一个面向文本分类的中文特征词自动抽取方法》一文中研究指出文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。(本文来源于《计算机工程与应用》期刊2006年15期)

特征词抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

互联网以其丰富的海量资源且规模日益增长的、开放的特性,成为各个行业以及各种信息系统重要的信息来源。如何从这个巨大的信息资源库中准确地获取有价值的信息,成为各种信息情报分析及决策系统研究的关键问题之一。从互联网上抓取到的网页文本信息质量的好坏,将直接影响到后期信息处理与决策制定的准确性。因此,若能够高效准确地对从互联网上抓取到的网页进行信息抽取、质量评估以及根据相应的特征对抽取出来的网页文本进行分门别类,不仅能提高信息处理人员的工作效率,而且更能够提高特定情报分析系统以及决策系统的实用价值。本文依托云南省科技厅科技基础条件平台建设项目“云南省竞争情报公共服务平台及服务体系建设”以及科技部科技型中小企业技术创新基金项目“商业智能竞争情报管理系统”为支撑,从项目实际应用需求出发,同时进行理论创新。对竞争情报系统、网页信息抽取以及文本特征词提取的国内外研究现状及存在的问题进行简要分析,并分别介绍了本文所研究的“可视化网页信息抽取系统”以及“文本特征词提取”。本文设计并实现了“可视化网页信息抽取系统”,同时引入词性对TF*IDF进行改进,对文本特征词提取进行了研究,并对其中算法的可行性以及准确性进行评估与验证。本文从项目实际应用需求以及友好的用户操作的角度出发,设计并实现了“可视化网页信息抽取”系统。对传统的基于模板的网页信息抽取方式进行改进,设计了一种网页信息抽取规则与模板相结合的网页信息抽取方案,并在可视化环境中实现网页信息各抽取目标项抽取规则及模板的生成,依据站点模块的不同对生成的抽取模板进行分类。解析站点中某个模块下的网页时,根据网页分类规则获取抽取该模块网页信息的抽取模板,然后根据该抽取模板的各个目标项的抽取规则,解析出网页中各个目标项的文本,并封装成标准的结构化文档。实验表明,该方案不仅能友好便捷地生成各站点及站点模块的网页信息抽取规则、模板,而且获得了良好的网页信息抽取准确率及召回率。本文研究了文本特征词提取技术。利用IKAnalyzer进行分词时,引入词性标注过程,结合Sogou词库[31]以及结构与Sogou词库相同的备选词库,对分词获得的每个词条标注词性,同时对传统的TF及IDF进行统计。对每个词性的权重度量值进行调整,利用W=TF*IDF*ATTR词条权重计算公式对各个词条进行权重计算并非递减排序,选取若干个权重最大的词条作为相应站点或行业的特征词集。利用KNN分类算法根据系统提取的特征词进行实际文本分类验证,获得良好的分类效果,并利用向量空间模型进行验证,获得了较高的平均F1值。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

特征词抽取论文参考文献

[1].袁华,徐华林,钱宇,罗谦.域内海量数据中热点话题及其特征词抽取方法[J].管理工程学报.2018

[2].张志伟.可视化网页信息抽取与文本特征词提取技术研究[D].昆明理工大学.2013

[3].黄名选.特征词抽取与查询扩展融合的信息检索系统模型[J].情报杂志.2011

[4].黄名选.负关联规则挖掘与特征词抽取融合的局部反馈查询扩展[J].计算机工程与科学.2011

[5].陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报.2011

[6].冯平,黄名选.特征词抽取和相关性融合的伪相关反馈查询扩展[J].现代图书情报技术.2011

[7].李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计.2009

[8].宣照国,党延忠.无词典中文特征词自动抽取的桥接模式滤除算法[J].计算机应用研究.2007

[9].苏志响,邵志清.基于上下文统计反馈的中文特征词抽取方法[J].情报探索.2006

[10].付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法[J].计算机工程与应用.2006

标签:;  ;  ;  ;  

特征词抽取论文-袁华,徐华林,钱宇,罗谦
下载Doc文档

猜你喜欢