特征选择和抽取论文-吴优华

特征选择和抽取论文-吴优华

导读:本文包含了特征选择和抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:编程行为,数据挖掘,特征抽取,特征选择

特征选择和抽取论文文献综述

吴优华[1](2019)在《一种面向编程教育的编程过程特征抽取与特征选择的研究》一文中研究指出基于编程过程数据预测课程成绩是编程教育领域的编程过程研究的两个主要研究方向之一,研究的目的在于协助教育者在课程早期确定存在挂科风险的学生,教育者可以为这些学生提供额外的教学帮助,从而降低课程挂科率并提升编程教学水平,编程过程特征抽取和特征选择是该研究的核心工作,研究者选择的编程过程特征的质量决定了课程成绩预测准确率的上限,在目前的研究中,研究者构建与课程成绩相关的编程过程特征时没有全面考虑编程过程信息,针对该问题,本文展开了如下工作:(1)归纳总结现有编程过程研究中使用到的编程过程数据,由此定义了 15种具有分析价值的编程过程数据,设计并实现了一个编程过程数据收集系统。(2)采用多种观察视角,基于启发式想法从编程过程数据中抽取28个与课程成绩可能存在关联的特征,基于数据观察和统计分析方法剔除其中3个与课程成绩无关的特征,基于25个与课程成绩有关的编程过程特征构建预测模型,与NPSM方法进行实验对比,实验结果表明基于这25个编程过程特征的课程成绩预测模型拥有更好的预测效果。(3)采用4种特征选择方法从(2)中获得的25个编程过程特征中剔除掉与课程成绩相关性低的特征,针对于SFFS特征选择方法存在只能对于单一训练数据集进行特征选择和需要提前确立目标特征数两个问题,设计改进方案,提出了基于多训练数据集的动态SFFS特征选择方法,基于多训练数据集的动态SFFS特征选择方法得到的12个编程过程特征在预测课程成绩问题上拥有最好的效果,并且基于这12个特征的预测模型相比于基于全部的25个特征的预测模型的预测准确率有显着提升。因此,本研究提出了 12个与课程成绩存在显着关联的编程过程特征。(本文来源于《南京大学》期刊2019-05-01)

黄卫春,范少帅,熊李艳,钟茂生[2](2015)在《基于特征选择的人物关系抽取方法》一文中研究指出在人物关系抽取中,其特征空间维度往往非常高,会造成向量稀疏问题,从而影响关系抽取的效率。针对这一现象,首先将人物关系分为6类;然后引入了文档频率、信息增益、互信息和χ2统计这四种文本文类的特征选择算法,对特征空间进行降维。最后运用SVM分类器抽取人物的实体关系。实验结果表明这四种特征选择算法不仅能够保证抽取性能,还能有效的降低向量空间维数,极大提高关系抽取效率。其中,χ2统计算法效果最佳,信息增益次之。(本文来源于《科学技术与工程》期刊2015年03期)

潘湑,顾宏斌,赵芷晴[3](2012)在《术语定义抽取的特征选择框架》一文中研究指出为了进一步提升航空领域术语定义抽取的精度和效率,提出了一种不依赖已有特征选择方法的特征选择框架。该框架结合了分类特征的类间分布差异和类内分布差异,更好地表达了术语定义内部各子概念间特征分布的差异对划分类别的贡献。在分析该框架和传统过滤器特征选择方法对特征分布的影响的基础上,在航空领域术语定义语料库中对实验结果进行了对比。结果表明,本文提出的方法在使用平衡随机森林方法时,取得的最好成绩为F1-measure=0.652,F2-measure=0.761,所需特征比例从30%~40%降低到20%~30%;在使用直接分类方法时,F1-measure成绩提高了2.57倍,F2-measure成绩提高了3.11倍,均优于过滤器方法和Fisher Score方法。(本文来源于《南京航空航天大学学报》期刊2012年03期)

毛小丽,何中市,邢欣来,刘莉[4](2012)在《基于特征选择的实体关系抽取》一文中研究指出提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。(本文来源于《计算机应用研究》期刊2012年02期)

颉嘉[5](2011)在《文档内容抽取与特征选择技术的研究与实现》一文中研究指出随着越来越多的信息以电子文档的形态存在,文本处理相关软件也日益增多。在文本处理领域,传统单一格式文档处理系统在扩展性和通用性方面已经不能满足需求。对于文本特征的选择,现有技术主要是从词的频率和词的语义信息两个方面进行处理,忽略了词在源文档中的重要程度。本文针对以上问题,以军事领域文档处理为背景,为多格式文档定义了一种统一的半结构化文本模型,有效地保留了词在源文档中的语义结构信息。在此基础上研究了HTML、XML、PDF和WORD文档的内容抽取和特征选择技术。在HTML正文抽取中,改进了基于DOM树的网页正文抽取算法。此外,针对现有文本特征选择算法存在的问题,提出了一种基于信息增益和内容属性的特征选择算法,有效地降低了特征维度,使得所选出的特征集合具有更强的区别度。在对内容抽取和特征选择技术研究的基础上,设计并实现了多格式文档抽取系统。最后,通过实验验证了改进后的HTML正文抽取算法以及基于信息增益和内容属性的特征选择算法的高效性,同时对多格式文档抽取系统进行了功能测试,实验证明系统达到了设计要求。(本文来源于《西安电子科技大学》期刊2011-01-01)

刘培磊,李满生,王挺[6](2009)在《蛋白质相互作用有向关系抽取的特征选择》一文中研究指出蛋白质相互作用关系抽取是蛋白质知识网络构建的必要前提,对生物医学领域的研究具有十分重要的意义。本文使用了基于SVM的方法,从生物医学文献中抽取蛋白质相互作用的有向关系。首先针对蛋白质关系的特点,抽取了几组合理有效的特征集合,并根据句法分析的结果设计了依存句法特征集合,有效地改善了蛋白质关系抽取的效果。在此基础上,围绕蛋白质相互作用的关联词抽取特征,判断了蛋白质相互作用的方向,为蛋白质知识网和生物实体关系网的构建提供了更为充分的信息。本文在LLL05语料上进行了实验,取得了较好的效果。实验结果表明,依存句法特征集合对关系抽取具有重要影响;围绕关联词抽取的特征集合对关系判断是十分有效的。最后,本文分析了不同特征对实验结果的影响,明确了下一步的研究方向。(本文来源于《第五届全国信息检索学术会议论文集》期刊2009-11-14)

董静,孙乐,冯元勇,黄瑞红[7](2007)在《中文实体关系抽取中的特征选择研究》一文中研究指出命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF模型框架下,以ACE2007的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。(本文来源于《中文信息学报》期刊2007年04期)

特征选择和抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在人物关系抽取中,其特征空间维度往往非常高,会造成向量稀疏问题,从而影响关系抽取的效率。针对这一现象,首先将人物关系分为6类;然后引入了文档频率、信息增益、互信息和χ2统计这四种文本文类的特征选择算法,对特征空间进行降维。最后运用SVM分类器抽取人物的实体关系。实验结果表明这四种特征选择算法不仅能够保证抽取性能,还能有效的降低向量空间维数,极大提高关系抽取效率。其中,χ2统计算法效果最佳,信息增益次之。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

特征选择和抽取论文参考文献

[1].吴优华.一种面向编程教育的编程过程特征抽取与特征选择的研究[D].南京大学.2019

[2].黄卫春,范少帅,熊李艳,钟茂生.基于特征选择的人物关系抽取方法[J].科学技术与工程.2015

[3].潘湑,顾宏斌,赵芷晴.术语定义抽取的特征选择框架[J].南京航空航天大学学报.2012

[4].毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究.2012

[5].颉嘉.文档内容抽取与特征选择技术的研究与实现[D].西安电子科技大学.2011

[6].刘培磊,李满生,王挺.蛋白质相互作用有向关系抽取的特征选择[C].第五届全国信息检索学术会议论文集.2009

[7].董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报.2007

标签:;  ;  ;  ;  

特征选择和抽取论文-吴优华
下载Doc文档

猜你喜欢