抽取工具论文-孙宇贺,武燕如,陈韬

抽取工具论文-孙宇贺,武燕如,陈韬

导读:本文包含了抽取工具论文开题报告文献综述及选题提纲参考文献,主要关键词:图模一体化,台账,SVG,POI,SAX

抽取工具论文文献综述

孙宇贺,武燕如,陈韬[1](2019)在《配网台账抽取工具的设计与实现》一文中研究指出设计了一款配电台账抽取工具,该软件负责将大量图模一体化SVG文件上传到服务器,并依次处理,生成配网模型内存库;支持按设备类型分别导出设备台账Excel文件,为其他信息化系统提供台账数据更新文件;支持图模SVG文件在线浏览,以便于台账数据的可视化查阅;采用POI/SAX事件驱动模式,用于大容量配网模型的Excel导出。(本文来源于《机电信息》期刊2019年24期)

张亮[2](2019)在《基于Excel的随机信息抽取工具》一文中研究指出在日常工作中,我们需要抽取一些随机的信息,比如选择招投标代理机构、内部专家、供应商等。通过在Excel中建立这些信息库,利用VBA和单元格输入抽取的参数即可实现信息的快速随机抽取。(本文来源于《电脑知识与技术》期刊2019年05期)

袁斯茹[3](2018)在《血中织网“打捞”DNA》一文中研究指出癌症一经发现,往往已是中晚期,错过了最佳治疗时机。早期筛查的一个判断依据,就是血液中肿瘤标志物的指标。一个在深创业的海归团队,针对血液中的游离DNA研发出两种工具,能将肿瘤标志物的抽提效率提高到了95%以上。这个团队落户深圳,和南方科技大学共同(本文来源于《深圳商报》期刊2018-09-16)

邓英才[4](2017)在《学术型论文文档元数据抽取工具的设计与实现》一文中研究指出随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据对象主要以电子文档的形式作为数据信息的主要承载介质,而其中存在很多以学术型论文格式存在的文档。随着这类文档数量的不断增加以及人们对文档检索,分类和统计的精确度要求越来越高,针对论文文档元数据的提取质量要求也越来越高。本文针对这类中文论文文档的相关文本内容元数据信息的提取,提出了一种基于BP神经网络和支持向量机(SVM)的混合模型进行提取,并对该模型的提取性能进行了测试验证。针对现有元数据提取方法准确率不高以及适应性不强的缺陷,提出了一种基于BP神经网络和支持向量机混合模型的提取方法。将论文文档元数据提取的问题转化为对文本块的分类问题,通过对常用的几种分类方法进行分析比较,得出了 BP神经网络和支持向量机方法的可行性。对于所要进行分类识别的文本块,根据文本所具有的特征规则进行预处理,通过规则匹配的方法对摘要元数据和关键词元数据进行提取。对预处理后的文本,为了提高模型抽取的精确度,结合文本具有的局部特征以及其上下文本块具有的特征建立特征向量;利用经过训练集样本数据训练后的BP神经网络模型对输入的文本块特征向量进行分类识别,得出相应的元数据标记值,从而得出文本所属元数据类型。针对作者与单位地址元数据信息混合的文本块,利用文本块所具有的分隔符进行预处理后,结合通过语料库获取的常用人名和地名统计信息,构建所得子文本对应的特征向量。利用支持向量机模型对文本特征向量进行分类识别,得出文本所属元数据类型。采用Java语言和libsvm库,对基于BP神经网络和支持向量机混合模型的元数据抽取工具进行了实现,通过测试验证,结合现有方法进行分析对比,该混合模型具有更好的提取效果。(本文来源于《东南大学》期刊2017-08-30)

王德胜,李弘,田佳烨[5](2015)在《数据抽取及交换工具的设计与实现》一文中研究指出本文研究了ETL相关技术,并针对出版行业的现状和应用需求,提出了面向出版行业的数据抽取及交换工具设计方案和实现方法,通过.NET开发工具和C#开发语言开发了一套可灵活定义的工具,在多家出版单位进行了应用,取得了良好的效果。(本文来源于《软件》期刊2015年08期)

赵巍伟[6](2011)在《RETAIL LINK数据抽取和处理工具的设计与实现》一文中研究指出沃尔玛是全球最大的连锁零售商,当前有很多供应商给沃尔玛提供商品,供应商亟需知道自己供应的商品在沃尔玛的每天、一周或几年间的销售信息。因此沃尔玛提供了Retail Link系统,供应商可以通过Retail Link系统下载自己商品在沃尔玛的各种信息(销售信息、库存信息、订单信息、促销信息等)。Retail Link系统是沃尔玛和供应商的交互平台,为供应商提供成熟的、多角度的商品分析方法和工具,使得沃尔玛的供应商们能够与公司的采购部门密切合作,根据需要管理各个分店中的销售预测、库存计划、生产和商品配送。目前Retail Link系统已经拥有超过100,000个注册用户,有超过40,000个公司正在使用这个系统,每周有超过350,000个数据查询。在中国,沃尔玛已有300多家战略合作型主要供应商,他们可以进入沃尔玛Retail Link系统,了解他们的商品在沃尔玛的销售情况。用户登入Retail Link网站后,首先需要等待配置的数据文件就绪后,手动下载数据文件,然后手动对下载的数据文件进行验证和加密,最后再把处理后的数据文件导入数据仓库用以产生各种功能的报表。如此多的手动操作,无疑使得供应商在获取信息时既浪费时间又效率低下,他们需要一个工具能够定时自动完成以上操作而无需实时监控和手动操作。本论文的主要工作就是利用沃尔玛Retail Link系统提供得数据抽取接口,设计和实现一个工具,它能够根据特定频率定时自动从Retail Link系统抽取数据进行验证和加密,把处理后的数据文件存放到指定目的地以供后继系统使用,并为用户提供整个处理过程中的概要信息。本论文完成的具体工作有:1)设计和实现一个数据抽取服务,通过数据抽取服务在Retail Link系统中抽取数据文件;2)利用开源框架Quartz,设计和实现一个作业调度服务,定时执行数据抽取操作;3)设计和实现一个数据处理服务,对抽取的数据文件进行验证和加密;4)使用Java AWT、Java Swing设计和实现一个界面让用户可以灵活配置数据文件信息、定时信息并实时显示后台处理的进度信息;5)通过Java RMI实现工具前台(Java Swing界面)和后台(定时抽取数据并进行验证和加密)之间的通讯。6)利用Log4j、JavaMail等第叁方工具,设计和实现一个信息服务,为用户提供实时的数据文件处理进度信息。论文的最终结果是一个可执行的安装文件,目前此工具已被宝洁、联合利华、惠普、Food Lion、Dean Food等公司使用,并且取得良好的效果。(本文来源于《上海交通大学》期刊2011-05-01)

梁宏伟[7](2011)在《网页信息抽取工具的研究》一文中研究指出随着科技的发展,计算机的普及率越来越高,上网浏览信息的人越来越多。如今,人们的生活、工作、学习和商务活动都会用到互联网,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频等。不同的人他所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣的信息的周围,分散了他们对自己感兴趣的信息的注意力,给他们阅读网页带来了不便。本文提出了一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保存人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的过滤掉不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHTML将待抽取的网页解析成一棵DOM树。然后设计了一种深度优先的搜索算法去递归地遍历生成的DOM树的每一结点,判断该节点是否包含我们感兴趣的信息。如果被遍历的节点包含我们感兴趣的信息就保存它,如果不包含我们感兴趣的信息就过滤掉它。本文使用java语言编程实现网页信息抽取算法,使用JSP和Servlet开发用户图形界面。本文采用抽取算法,过滤掉用户不感兴趣的网页信息,只保存用户感兴趣的网页信息。用户可以通过图形界面选择自己喜欢的信息,用户选择完他们喜欢的信息后,我们的抽取算法就会根据用户的选择,过滤掉用户不感兴趣的信息,返回给用户他们喜欢的信息。本文首先介绍了网页信息抽取工具研究的目的和意义,接着对11种已有的网页信息抽取技术的优缺点进行了分析,介绍了网页的种类和网页的组成,然后介绍了DOM树和本文所用到的开源的网页解析工具NekoHTML,最后设计网页信息抽取算法,完成网页信息抽取工具的实现。(本文来源于《长春工业大学》期刊2011-04-01)

许庆炜,郭坚[8](2010)在《HotDataSpider,一个生物医学文献热点数据自动化抽取工具》一文中研究指出学术期刊中的附加数据是进行数据分析和文本挖掘的重要依据,具有的分散性、多样性和时效性的特点,难以管理和维护,文章将这类数据称HotData。HotDataSpider以生物医学类文献为研究对象,对生物信息学领域15本国际权威期刊提供的附加数据进行分析,实现了自动抽取、转换,最终将整理好的数据集批量导入到上海生物信息技术研究中心提供的HotData主题数据库中。(本文来源于《计算机与数字工程》期刊2010年11期)

王鸿伟,吴扬扬[9](2010)在《C2C电子商务网站交易信息抽取工具的研究与实现》一文中研究指出研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率.(本文来源于《泉州师范学院学报》期刊2010年04期)

王岚,揭安全[10](2008)在《基于关键类型的对象抽取工具的设计与实现》一文中研究指出提出了一种新的基于子程序关键类型的对象抽取方法,使用该方法实现的对象抽取工具通过计算面向过程的C系统中各子程序参数的类型复杂度,找出每个子程序的关键类型,将子程序与关键类型打包,抽取出独立的对象。本文还提出了可以简化数据类型复杂度计算的类型系数概念,这些概念及方法对非面向对象系统的软件维护与代码重用技术的研究具有一定的参考价值。(本文来源于《计算机与现代化》期刊2008年07期)

抽取工具论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在日常工作中,我们需要抽取一些随机的信息,比如选择招投标代理机构、内部专家、供应商等。通过在Excel中建立这些信息库,利用VBA和单元格输入抽取的参数即可实现信息的快速随机抽取。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

抽取工具论文参考文献

[1].孙宇贺,武燕如,陈韬.配网台账抽取工具的设计与实现[J].机电信息.2019

[2].张亮.基于Excel的随机信息抽取工具[J].电脑知识与技术.2019

[3].袁斯茹.血中织网“打捞”DNA[N].深圳商报.2018

[4].邓英才.学术型论文文档元数据抽取工具的设计与实现[D].东南大学.2017

[5].王德胜,李弘,田佳烨.数据抽取及交换工具的设计与实现[J].软件.2015

[6].赵巍伟.RETAILLINK数据抽取和处理工具的设计与实现[D].上海交通大学.2011

[7].梁宏伟.网页信息抽取工具的研究[D].长春工业大学.2011

[8].许庆炜,郭坚.HotDataSpider,一个生物医学文献热点数据自动化抽取工具[J].计算机与数字工程.2010

[9].王鸿伟,吴扬扬.C2C电子商务网站交易信息抽取工具的研究与实现[J].泉州师范学院学报.2010

[10].王岚,揭安全.基于关键类型的对象抽取工具的设计与实现[J].计算机与现代化.2008

标签:;  ;  ;  ;  ;  

抽取工具论文-孙宇贺,武燕如,陈韬
下载Doc文档

猜你喜欢