元数据提取论文-张敏,桂志鹏,成晓强,曹军,吴华意

元数据提取论文-张敏,桂志鹏,成晓强,曹军,吴华意

导读:本文包含了元数据提取论文开题报告文献综述及选题提纲参考文献,主要关键词:网络地图服务,文本分类,元数据标准,资源发现

元数据提取论文文献综述

张敏,桂志鹏,成晓强,曹军,吴华意[1](2019)在《一种WMS领域主题文本提取及元数据扩展方法》一文中研究指出由于网络地图服务(Web map service,WMS)元数据缺乏显式的领域主题描述机制,用户很难准确、全面地发现目标领域的地图数据资源。提出了一种面向地理信息资源检索的WMS领域主题文本提取及元数据扩展方法。首先,设计了一种非监督文本分类算法,利用地球与环境术语集语义网(semantic Web of Earth and environmental terminology,SWEET)和大型英语词汇语义网WordNet,综合计算WMS元数据能力文档中地学术语、通识型词汇与领域主题的语义相关度,为WMS及其图层提取多标签主题。然后,基于ISO191152003地理信息元数据标准,为WMS元数据组织模型扩展领域主题。实验结果表明,所提出的WMS元数据主题分类算法取得了较高的查准率和查全率,且相较于朴素贝叶斯、线性支持向量机(support vector machine,SVM)和逻辑回归等方法,整体上有较大的优势。该方法有望应用于当前的地理信息门户和目录服务,辅助用户快速、准确地定位目标领域的地图服务资源。(本文来源于《武汉大学学报(信息科学版)》期刊2019年11期)

商杰,王晓明,盖磊,许朝阳,李健[2](2019)在《基于网页提取与分析的IRIS台站元数据自动同步技术》一文中研究指出基于网页提取与分析技术,开发IRIS台站元数据抓取程序,设计并建立禁核试核查北京国家数据中心(NDC)的IRIS台站元数据库,实现IRIS台站元数据从IRIS向NDC的定期自动同步。作为NDC运行的基础支撑数据库之一,该数据库为NDC开展辅助性地震监测数据的自动台站筛选和数据申请奠定了技术基础。(本文来源于《地震地磁观测与研究》期刊2019年02期)

倪亚晖[3](2019)在《浅析基于模式识别技术的标准文献元数据智能提取系统主要技术》一文中研究指出介绍了基于模式识别技术的标准文献元数据智能提取系统,分析了目前标准相关机构对标准文献加工效率质量亟需提高的需求,提出采用文字提取和模式识别技术采集、分析纸质标准元数据,进行信息化存储并形成相应标准模式的方法,可进一步优化标准文献加工效率和质量。(本文来源于《轻工标准与质量》期刊2019年02期)

刘永强,马昕红,樊坤[4](2018)在《利用VBA一键提取Word论文上网元数据》一文中研究指出为了减少期刊编辑部在每期论文网络出版时上传元数据的工作量,根据Word论文的标题、作者、单位、摘要、关键词、中图分类号、文献标识码、参考文献、备注等元数据的位置、样式、标注等信息确定提取规则,提出了一种基于VBA的上网元数据一键提取方法。采用该提取方法后,《热力发电》期刊每期提取元数据时间由4 h缩短至1 h,达到了预期效果。该方法对编辑同行具有一定的借鉴作用。(本文来源于《学报编辑论丛》期刊2018年00期)

潘新,滕飞[5](2018)在《网刊元数据自动提取和PDF文件自动分割实践——以“中西医结合护理”网站为例》一文中研究指出以《中西医结合护理》排版所用的方正书版文件为例,介绍用于圈定元数据字段的"准标签对"的选择技巧,以及fbd文件与html文件之间的字符兼容性和格式对等性的处理方法。以此为基础,可以方便地实现高质量网刊元数据的高效率自动提取,以及PDF文件的精准自动分割与转页合并。实践证明,对于特定期刊而言,上述工作是很容易自主完成的。(本文来源于《编辑学报》期刊2018年03期)

刘淑娟[6](2018)在《高校图书馆科技文献元数据提取技术的研究与实现》一文中研究指出设计一个跟踪科技文献网站的伺服程序,定期对网页数据进行提取,获取最新的科技文献信息,协助高校图书馆完成最前沿科技情报的信息采集工作。本文主要采用主题式网络爬虫技术对国内重要的科技期刊、科技论坛、博客等科技文献特征信息进行统一标准和增量式数据管理,建成元数据库本地存储模式。该系统具有编制简单、易扩展、运行速度快等特点,实现了图书馆科技文献元数据库的增量更新;丰富和完善了图书馆资源建设和知识发现体系;为高校图书馆收集最新的科技情报提供了快捷的途径;促进了以用户为中心的高校图书馆个性化服务体系的建设。(本文来源于《兰台世界》期刊2018年04期)

钱远鹏[7](2018)在《基于SWT元数据提取的研究与实现》一文中研究指出现今越来越多的PDF出现在网络上,并以每天数以万计的速度增长着。面对如此海量的PDF文档,如何获取其中的有用信息,并将其分门别类的保存下来,无论是对PDF的归档还是对科学研究都将会具有重要的意义。本课题的目的是设计并实现一种基于SWT的元数据提取工具,该工具可以用来对PDF中图书元数据进行自动提取并将数据进行持久化导出。该工具相比于手工提取元数据的方式,具有更高的准确性和高效性,可以极大程度的提高元数据提取的效率。本课题通过对AWT、SWING、SWT/JFace几种常用的Java GUI框架的对比与分析,从而选择目前最为优秀的SWT框架作为本课题进行元数据提取工具的桌面开发框架。在PDF文本的抽取方式上,通过对比PDFBox和iText两种常用的操作PDF的Java类库在PDF文本信息提取方面的优缺点,选择性能更加优秀的PDFBox作为PDF文本提取的技术选型。同时在提取过程中根据权重排序算法设计并实现拼音辅助提示来弥补自动提取的缺陷。为了保护软件的知识产权和购买者的合法权益,在工具中添加了基于RSA的登录授权验证机制。考虑到工具的维护与升级,使用了基于log4j的日志管理系统。同时为了抵抗断电、程序异常关闭等不确定性因素所带来的灾难性损失,本工具设计了自动保存的容灾机制。最后通过大量的测试和分析,得出本工具完全满足课题的要求,可以大大提高元数据提取的速度和准确率的结论。(本文来源于《北京邮电大学》期刊2018-03-14)

孙景春[8](2017)在《基于视觉块识别的网页元数据提取方法》一文中研究指出随着互联网知识数据的爆炸式增长以及内容呈现形式的多样化,特别是智能内容识别、提取和分析等数据处理方面的要求使得网页元数据采集和处理变得异常复杂。传统的信息采集服务需要人工分析页面的DOM树结构,并不能直接抽取到具有特定要求的网页元数据,无法满足人们对特定数据的需求。因此,如何自动识别并准确定位需要采集网页元数据的位置变得尤为重要。本文针对视频网页信息采集提出一种基于视觉块识别的网页元数据提取方法,以解决自动识别定位并提取网页元数据的问题。论文的主要工作如下:(1)对网页信息提取技术及视觉特征进行分析。通过研究基于DOM树、视觉特征、文本特征叁种网页信息提取技术,对比总结这叁种技术的优缺点,结合本课题需要提取的视频网页信息的特点以及网络爬虫技术,总结用户的视觉规律设计了一种基于视觉特征的网页元数据提取方法。(2)页而视觉块划分。由于当前主流的网页设计均采用DIV+CSS布局代替传统以<table>标签进行布局,造成VIPS算法对当前网页分块效果不理想。本课题基于视觉DOM树结构和DIV+CSS网页设计风格,通过定义视觉块提取规则和对不同DOM节点采用的规则组合,采用改进的VIPS算法将网页信息划分为多个具有明确语义的视觉块,并且对应页面上不同的视觉区域。(3)视觉块分类和基于路径表达式的网页元数据提取。基于支持向量机分类算法和SVM Light,本课题针对视频网页元数据的特征制定特定的特征值提取规则,将视觉块划分为有效视觉块(即网页元数据)和无效视觉块,实现数据的准确识别。最后利用路径表达式从有效视觉块中提取网页元数据。(4)系统实现以及实验验证。本文设计的原型系统分为叁个模块,系统框架首先基于视觉块的页面分块,然后进行视觉块分类,最后提取网页元数据,并存储到数据库。基于主流的视频门户网站,分别对视觉块划分、视觉块分类及网页元数据提取进行功能测试,通过所提取数据的提取准确率和提取完整率来检测本文提出的基于视觉块识别的网页元数据提取方法的性能。(本文来源于《东南大学》期刊2017-05-13)

崔玉洁,廖坤[9](2016)在《借助八爪鱼采集器实现过刊网刊元数据的自动提取》一文中研究指出现有的元数据提取方法提取规则烦琐、适应性差。针对这一问题,文章提出了借助八爪鱼采集器实现过刊网刊元数据提取的新方法。该方法以大型数据库的网页信息为对象,建立了提取元数据的流程图,通过该流程图设置相应的规则,并配置抓取数据模块,最后将该方法应用于网刊元数据的自动提取中。实际应用显示,该方法有效地提高了元数据的提取性能,并且具有较强的适应性。(本文来源于《编辑学报》期刊2016年05期)

冯民,毛善锋[10](2016)在《一种适合大批量期刊元数据自动化提取的程序设计》一文中研究指出【目的】提出利用Excel VBA在程序运行过程中确定定位标签继而采集元数据的方法,以期为大批量期刊自动化提取期刊元数据提供一种思路。【方法】从程序的整体架构分析入手,分析了程序各部分应实现的功能,并重点分析、介绍了如何由人工辅助,程序自动确定定位标签的方法,给出了部分程序语句。【结果】所采集的定位标签符合预期要求,元数据结果基本完整,且程序的使用较简单,对人员没有特殊要求。【结论】通过进一步完善定位标签的采集规则,程序能适应更多期刊元数据的提取,通用性更强。(本文来源于《中国科技期刊研究》期刊2016年10期)

元数据提取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

基于网页提取与分析技术,开发IRIS台站元数据抓取程序,设计并建立禁核试核查北京国家数据中心(NDC)的IRIS台站元数据库,实现IRIS台站元数据从IRIS向NDC的定期自动同步。作为NDC运行的基础支撑数据库之一,该数据库为NDC开展辅助性地震监测数据的自动台站筛选和数据申请奠定了技术基础。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

元数据提取论文参考文献

[1].张敏,桂志鹏,成晓强,曹军,吴华意.一种WMS领域主题文本提取及元数据扩展方法[J].武汉大学学报(信息科学版).2019

[2].商杰,王晓明,盖磊,许朝阳,李健.基于网页提取与分析的IRIS台站元数据自动同步技术[J].地震地磁观测与研究.2019

[3].倪亚晖.浅析基于模式识别技术的标准文献元数据智能提取系统主要技术[J].轻工标准与质量.2019

[4].刘永强,马昕红,樊坤.利用VBA一键提取Word论文上网元数据[J].学报编辑论丛.2018

[5].潘新,滕飞.网刊元数据自动提取和PDF文件自动分割实践——以“中西医结合护理”网站为例[J].编辑学报.2018

[6].刘淑娟.高校图书馆科技文献元数据提取技术的研究与实现[J].兰台世界.2018

[7].钱远鹏.基于SWT元数据提取的研究与实现[D].北京邮电大学.2018

[8].孙景春.基于视觉块识别的网页元数据提取方法[D].东南大学.2017

[9].崔玉洁,廖坤.借助八爪鱼采集器实现过刊网刊元数据的自动提取[J].编辑学报.2016

[10].冯民,毛善锋.一种适合大批量期刊元数据自动化提取的程序设计[J].中国科技期刊研究.2016

标签:;  ;  ;  ;  

元数据提取论文-张敏,桂志鹏,成晓强,曹军,吴华意
下载Doc文档

猜你喜欢