实体描述文档论文-陆娜,周鹏程,武川

实体描述文档论文-陆娜,周鹏程,武川

导读:本文包含了实体描述文档论文开题报告文献综述及选题提纲参考文献,主要关键词:新闻文档,实体重要性,实体排序

实体描述文档论文文献综述

陆娜,周鹏程,武川[1](2018)在《新闻文档实体重要性排序研究》一文中研究指出[目的 /意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法 /过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果 /结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法 NDCG值为95. 86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84. 46%,是该指标下的最好结果。(本文来源于《图书情报工作》期刊2018年11期)

王燕华[2](2018)在《基于前向分步算法的文档实体排序》一文中研究指出文档中的关键实体可以抽象概括文本所描述的事件(或话题)的主体,推动面向实体的检索和问答系统等方面的研究.然而,文档中的实体是无序的,对文本中的实体进行排序显得尤为重要.提取文本实体特征并借助维基百科和词汇分布表示引入外部特征,提出了一种基于前向分步算法(Forward Stagewise Algorithm,FSAM)的排序模型LA-FSAM(FSAM based on AUC Metric and Logistic Function).该模型利用曲线下面积(Area Under the Curve,AUC)准则构造损失函数,逻辑斯谛函数整合实体特征,最后使用随机梯度下降法求解模型参数.通过LA-FSAM与基线方法的实验对比证明了所提方法的有效性.(本文来源于《华东师范大学学报(自然科学版)》期刊2018年01期)

王燕华[3](2017)在《基于事件或话题下文档的实体重要性排序》一文中研究指出在互联网时代背景下,新型网络媒体的蓬勃发展使得人们可以方便有效的共享海量信息。目前,新型网络媒体积累了大量文本数据,这些数据中记录着社会发展过程中重要的舆情事件和热门讨论话题。通过监测网络舆情,政府、群众以及相关部门可以了解我国社会现状并及时发现社会存在的问题。同时,舆情监测还可以帮助相关政府部门科学管理并做出科学决策。因此,如何从海量网络文本数据中检测出事件或话题成为一个重要并有现实意义的研究课题。而对于事件或话题下的文本,重要实体可以抽象概括文本中所描述的主体。本文基于海量网络新闻数据,检测热门事件和热门话题并抽取文本关键实体概括事件主要元素。本文主要工作包括以下几个方面:·本文通过度量学习方法重新定义新闻文本相似度计算方式;针对海量、无序、冗余的网络新闻文本数据,提出基于主题的事件检测方法ToED。该方法应用主题模型学习文档主题分布,对于任意主题下的文档集合,提出基于密度的事件聚类方法ESACN来检测热门事件。·针对文档重要实体选择问题,本文提出了一种基于前向分步算法的重要实体排序模型LA-FSAM。该算法不仅考虑实体在文档中的重要特征,还通过维基百科和谷歌Word2Vec引入实体外部特征对实体进行排序。该模型运用改进的AUC准则构造损失函数,通过标注训练数据并利用随机梯度下降法学习模型参数。通过LA-FSAM与基线方法的实验对比证明了我们所提方法的有效性。·本文设计并实现了社会热点舆情分析展示系统(KSPOS),该系统提供了基于事件或话题的检索功能。为了向用户展示全面广泛的搜索结果,系统挑选重要实体并挖掘实体语义关系,构建舆情事件语义网络,同时,系统抽取文档集合关键词抽象概括事件或话题描述内容,生成事件时间线充分展示事件发展过程。(本文来源于《华东师范大学》期刊2017-05-01)

陈维政,严睿,闫宏飞,李晓明[4](2016)在《利用维基百科实体增强基于图的多文档摘要》一文中研究指出针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。(本文来源于《中文信息学报》期刊2016年02期)

刘木强,杨卫东[5](2015)在《基于实体的文本数据与XML文档的匹配技术研究》一文中研究指出目前飞机企业等单位的大量数据采用XML格式存储,且与其它业务文本数据之间缺乏联系.在异构数据集成领域,文本数据与XML文档的模式匹配还较少有人关注.提出文本数据与XML文档的匹配方法,该匹配方法采用两阶段的算法,首先使用基于条件随机场的实体抽取算法从文本文档中提取实体信息,然后通过基于实体的最近语义片段(ECSF)检索算法在XM L树中查询覆盖所有实体及实例的最近语义片段作为匹配对象.ECSF检索算法中基于实体的最近语义片段含义是XM L树上的覆盖所有实体及实例信息的最小子树,且实例所对应的实体必须是该实例的祖先节点.最后通过实验验证了本文提出方法的可行性和有效性,且具有较好的匹配效果,包括召回率和准确率.(本文来源于《小型微型计算机系统》期刊2015年11期)

李章涛[6](2015)在《实体文档电子信息化管理方案的应用论证》一文中研究指出本文提出实体文档电子信息化管理过程中的人机结合管理问题,研究实体文档进行信息化管理的系统方案论证,阐述在电子信息系统的选型中应该关注的技术要素和管理要素,并提出一种适合上述论证的经济、简易的实体文档电子信息化管理方案。(本文来源于《中国管理信息化》期刊2015年14期)

宋俊,韩啸宇,黄宇,黄廷磊,付琨[7](2015)在《一种面向实体的演化式多文档摘要生成方法》一文中研究指出本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个句子可能获得不同的评分。此外,本文在真实数据集上进行了大量的实验和分析,实验结果表明,该方法可以面向不同的实体生成关于事件发展的个性化摘要,同时与现有方法相比,该方法还得到了更好的通用摘要。(本文来源于《广西师范大学学报(自然科学版)》期刊2015年02期)

徐益辉[8](2015)在《基于命名实体识别的电子病历文档匿名化系统设计与实现》一文中研究指出随着信息技术在医院现代化建设中的不断推广和应用,电子病历系统对患者的整个医疗行为实现了智能化的管理和记录。近年来,电子病历系统数据量呈几何倍数急剧增长,已经成为医疗数据存载的最主要媒介。正因如此,在海量的电子病历医疗数据中挖掘出有价值的医疗知识已经成为人们研究的热点。但是医疗数据在挖掘以前必须先进行匿名化处理,即患者个人隐私信息保护处理,如何在尽可能保护患者隐私不被泄露的同时保持数据完整性成了一大难题,本论文从这一极具现实意义的医疗现状出发,设计开发了一套基于命名实体识别的电子病历文档匿名化系统。本论文系统的基本架构包括叁个部分:CA身份认证安全服务、受保护健康信息识别模块、医疗文档加密传输服务。CA身份认证能够有效保障网站安全,阻止不合法用户对网站的攻击与数据剽窃。在受保护健康信息的识别中,隐私信息识别的总体召回率与准确率都达到了90%以上,远远高于单人手工检查的平均检出率81%,与双人手工检查的平均检出率94%成绩接近。文档加密传输能够弥补FTP文件传输协议在数据明文传输上的安全缺陷,保障数据机密。本论文的电子病历文档匿名化系统在这叁大模块的协同工作下,最终达到了患者隐私保护的目的。(本文来源于《浙江大学》期刊2015-01-01)

王春平[9](2014)在《论实体识别算法在XML文档数据质量管理中的应用》一文中研究指出XML文档由于不同的数据源中的XML数据所采用的模式是不同的,所以在数据上查询很容易得到错误的结果,为此需要采取有效方法来提高XML文档数据质量的管理。本文通过研究实体识别技术在XML文档数据质量管理中的应用,总结出了几种相应的树匹配算法并指出了XML文档的完善方向。(本文来源于《电子技术与软件工程》期刊2014年24期)

赵震,张龙昌[10](2014)在《XML文档实体识别技术研究》一文中研究指出随着XML文档的广泛应用,使用实体识别技术对XML文档数据质量进行管理变得非常重要。XML中实体识别技术主要用于在XML文档中发现同一实体的不同描述,其在数据质量管理中可以用于错误检测、数据集成等。由于XML文档是半结构化的,XML文档上的实体识别与纯文本和关系数据上的实体识别有着很大不同。文中介绍了XML文档上实体识别的概念和应用,分别讨论了XML文档上几种实体识别技术的概念和原理,给出了相应的树匹配算法,最后得出结论并展望了未来的研究方向。(本文来源于《计算机技术与发展》期刊2014年10期)

实体描述文档论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文档中的关键实体可以抽象概括文本所描述的事件(或话题)的主体,推动面向实体的检索和问答系统等方面的研究.然而,文档中的实体是无序的,对文本中的实体进行排序显得尤为重要.提取文本实体特征并借助维基百科和词汇分布表示引入外部特征,提出了一种基于前向分步算法(Forward Stagewise Algorithm,FSAM)的排序模型LA-FSAM(FSAM based on AUC Metric and Logistic Function).该模型利用曲线下面积(Area Under the Curve,AUC)准则构造损失函数,逻辑斯谛函数整合实体特征,最后使用随机梯度下降法求解模型参数.通过LA-FSAM与基线方法的实验对比证明了所提方法的有效性.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

实体描述文档论文参考文献

[1].陆娜,周鹏程,武川.新闻文档实体重要性排序研究[J].图书情报工作.2018

[2].王燕华.基于前向分步算法的文档实体排序[J].华东师范大学学报(自然科学版).2018

[3].王燕华.基于事件或话题下文档的实体重要性排序[D].华东师范大学.2017

[4].陈维政,严睿,闫宏飞,李晓明.利用维基百科实体增强基于图的多文档摘要[J].中文信息学报.2016

[5].刘木强,杨卫东.基于实体的文本数据与XML文档的匹配技术研究[J].小型微型计算机系统.2015

[6].李章涛.实体文档电子信息化管理方案的应用论证[J].中国管理信息化.2015

[7].宋俊,韩啸宇,黄宇,黄廷磊,付琨.一种面向实体的演化式多文档摘要生成方法[J].广西师范大学学报(自然科学版).2015

[8].徐益辉.基于命名实体识别的电子病历文档匿名化系统设计与实现[D].浙江大学.2015

[9].王春平.论实体识别算法在XML文档数据质量管理中的应用[J].电子技术与软件工程.2014

[10].赵震,张龙昌.XML文档实体识别技术研究[J].计算机技术与发展.2014

标签:;  ;  ;  

实体描述文档论文-陆娜,周鹏程,武川
下载Doc文档

猜你喜欢