段落检索论文-张海炜

段落检索论文-张海炜

导读:本文包含了段落检索论文开题报告文献综述及选题提纲参考文献,主要关键词:语言模型,段落检索,启发式查询扩展方法,聚类平滑

段落检索论文文献综述

张海炜[1](2017)在《基于语言模型的段落检索系统》一文中研究指出语言模型是一种全新的信息检索框架,其基本思想是:为每篇文档估计一个语言模型,然后计算在该语言模型下“生成”查询的概率,并根据此概率对所有文档进行排序。语言模型为信息检索领域提供了一种全新的有别于其他经典检索模型的评价文档的思路和机制,从而提升了人们对全文本检索的认知。许多实验也证明了语言模型是一个拥有良好理论基础并且检索效果出众的信息检索框架。虽然语言模型在信息检索领域已取得了巨大的成就,但它仍然还有很大的提升空间。本文将通过以下几点来对语言模型进行扩展:首先,将经典语言模型——查询似然模型,和段落检索相结合,并在此基础上提出一种全新的检索模型,即PLM模型。该模型不仅继承了查询似然模型理论完备检索效果出众等优点,又通过利用段落检索将文档的段落特征引入到文档的匹配过程中去,进而优化了查询似然模型在处理长文档尤其是那些跨域多个主题的长文档的能力。其次,为PLM模型引入启发式查询扩展方法,从而降低其词表不匹配的风险,进而达到提升其检索性能尤其是提升其召回率的目的。其中,启发式查询扩展方法是本文提出的一种全新的基于伪相关反馈技术的查询扩展方法。它不仅克服了以往相关反馈需要通过与用户进行交互才能进行查询扩展的弊端,还改变了经典查询扩展方法以词频共现度来进行选词的惯例,而是采取了一种基于语言模型的启发式选词策略来进行扩展词的选取。通过本文后续的实验,也证明了启发式查询扩展方法要优于经典的查询扩展方法,并且相较于经典查询扩展方法,其最大提升PLM模型的MAP幅度为54.7%。最后,为PLM模型引入聚类平滑方法,减轻其因数据稀松而导致对文档和段落的语言模型估计不准确的风险,进而达到提升其检索性能的目的。其中,聚类平滑方法是一种基于Dirichlet平滑方法的全新平滑方法。它除了继承Dirichlet平滑方法平滑效果稳定的优点外,还通过优化Dirichlet平滑方法引入到平滑过程中的文档统计特性,和重新选取文档模型的备选模型等方式,来提升Dirichlet平滑方法的平滑效果。而本文后续的实验也证明了聚类平滑方法达到了预期的目标,其相较于Dirichlet平滑方法来说,最大提升PLM模型的MAP幅度为61.6%。(本文来源于《长安大学》期刊2017-04-20)

王睿,曾斌,陈抒[2](2015)在《电子文献段落检索算法性能评估研究》一文中研究指出文章利用目前已知的文件分段方式以及隐性语义检索技术,开发了一个文件分段检索系统,评估了文件结构分段、按文件人工语意分段以及取固定字数分段对段落检索结果的影响。通过对研究结果进行分析统计,得出了这3种分段方式的适用范围及优缺点。(本文来源于《河南图书馆学刊》期刊2015年04期)

林巍[3](2010)在《段落检索系统及其应用的研究》一文中研究指出近年来,互联网搜索引擎得到迅猛发展和广泛普及,但大粒度输入的搜索需求被各大搜索引擎所忽视;而且,尽管用户通过搜索引擎能够快速检索出大量文档,但返回的文档中往往只有少部分段落内容与用户需求直接相关。因此,研究一个既能满足大粒度输入的搜索需求,又能得到与输入段落密切相关的段落检索系统,对于解决目前搜索引擎存在的难以满足大粒度搜索和搜索精确度不足的问题很有帮助。而在目前段落检索领域的研究中,仅仅将段落检索作为自动问答系统的一个组成部分进行研究,并没有针对大粒度的输入搜索相关段落的需求开发出相应的开放的搜索引擎,为了解决这个问题,笔者开发出了海天园段落检索系统并且对其中的相关算法进行了研究。在实现段落检索的功能方面(大粒度的段落输入,搜索到相似段落),文中设计了如下方法:首先在索引阶段进行基于窗口的分段,然后将输入段落表示为有序关键词序列,用基于关键词交集的搜索方法得到相关段落,最后对得到的段落进行段落相似度计算和排序。其中在分段方面,使用了高效的基于窗口的不重迭分段算法,与先分段再搜索的段落检索策略,能够缩短搜索时间保证搜索的效率;对于输入段落,系统采用了有序关键词序列的表示方法和准确的关键词提取算法,该方法能够有效的将大粒度的输入准确的表示为可搜索的形式;得到相关段落后的排序,文中比较多种段落相似度计算方法后,采用了SiteQ算法(一种基于查询词密度的段落相似度计算算法)并对其进行了改进,能够在查询词间距离的层面更好的比较两个段落的相似程度。系统使用的数据是海天园金融爬虫每天实时爬取的各大金融网站的网页。为了验证段落检索系统的搜索效果,文中对于每一个过程分别用不同验证方法进行验证。首先关于提取关键词的算法,将系统提取的关键词与人工提取的进行比较,实验结果表明在字数100字以内提取10个关键词,至少抽取7个正确的关键词的准确率达到85%。对SiteQ算法的改进效果,文中使用MRR(平均排序倒数)进行评估:将改进后的SiteQ算法分别与MITRE(词重迭算法)算法和改进前的SiteQ算法进行实验比较,在输入段落100字范围内,改进后SiteQ算法的MRR值比MITRE至少大0.007,改进后SiteQ算法的MRR值比改进前至少大0.004,证明改进后SiteQ算法的排序效果优于改进前,并且优于MITRE算法。最后评测系统的性能,以从网页中摘抄段落,输入系统以搜索到源段落为目的,实验结果发现在输入段落字数达到60字以上时,平均召回率在93%以上,平均准确率在27%以上,能够满足大粒度输入段落,搜索出源段落的需求。同时,将段落检索应用到自动问答,运用了同义词扩展、问题类型识别,并针对数量类和是非类问题进行了答案抽取。本文的研究应用到了海天园段落检索系统和海天园自动问答系统。(本文来源于《哈尔滨工业大学》期刊2010-12-01)

黎新[4](2010)在《面向问答系统的段落检索技术研究》一文中研究指出互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的重要平台。一方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等工具,可以方便快捷地从互联网获取信息:另一方面,海量的信息也给用户准确识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和问答系统(Question Answering System)就是其中一个重要的研究课题,也是研究下一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自然语言提问而不是关键字的组合;另一方面系统给用户返回的是精确的答案而不是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档,以查找问题的答案。用这些技术去分析文档,系统会付出巨大的时间和空间开销。因此,需要减小处理对象的大小。基于上述原因,段落检索(Passage Retrieval)模块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一个关键性模块。论文的主要工作与创新如下:1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此,本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别出发,分析了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于段落检索公式的基本准则。2)提出一种基于Web的问答式段落检索方法,以适应问答系统的动态性和时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召回率较低。此外,基于词频和语言模型的检索算法,经常会返回一些不相关的段落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的关系,综合计算段落与给定问题的相关度。3)提出一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇相似度、主题相似度和结构相似度在评估问题和段落之间的语义相关性的有效性。首先设计一种基于Web的字词语义相似度的计算方法,并利用该方法对问句和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的结构:“Wh-”转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包含了相同的结构约束关系。在上述工作基础上,提出了这叁种相似度的有权线性组合的混合型段落检索模型。4)研究了基于段落-段落图模型的答案段落排序方法。该方法不仅考虑了答案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。该方法基于多种特征计算问题相似度,在问题空间获取最相似的问题,然后利用相似问题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据段落的内容特征计算段落-段落相似度,再建立图模型。基于候选段落的图模型结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习的方法训练最优的排序参数。(本文来源于《中国科学技术大学》期刊2010-05-01)

陈冉[5](2008)在《基于概念和段落检索的生物医学文献知识发现》一文中研究指出从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用叁种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的叁组经典实验:Alzheimer's disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。针对计算叁种方法的不同特点,采用融合公式对发现结果重计算和重打分,进一步提高发现结果的正确率。实验发现,TFIDF方法和z分值方法在实验中分别表现出较好的正确率和召回率,融合公式可以有效提高实验结果的正确率。发现结果中包含更多有倾向性的主题,符合知识发现的期望。段落检索是针对概念检索知识发现计算数据过于分散,影响最终的排序结果,导致正确率不高这一问题提出的改进方法。针对MEDLINE摘要全文,进一步提取在完整句子中共现的MeSH概念。为了对比实验结果,本组实验采用的计算方法、计算起始词和概念检索实验一致,并且评测了实验结果的正确率和召回率。实验发现,z分值方法计算得到的结果有很高的正确率,TFIDF方法计算得到的结果有很好的召回率。使用段落检索方法找到的MeSH概念集中性较强,发现结果的正确率高于概念检索方法的结果,但是集中性导致召回率降低,减弱了对于未来的预测趋势。本文实验采用开放式发现算法,验证了Swanson的发现结果:Alzheimer's disease(老年痴呆症)和indomethacin(消炎痛)、Migraine(偏头疼)和Magnesium(镁)、Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)的潜在关系,同时还发现了叁组起始词和其他的生物学潜在关系。分析发现这些潜在关系可以辅助医学专家揭示文献中的隐性关联,引导并实现知识发现的预期目标。(本文来源于《大连理工大学》期刊2008-11-01)

付鸿鹄,张晓林[6](2007)在《基于段落检索和段落内容分析的知识化检索系统设计》一文中研究指出设计了一个基于段落检索和段落内容关系分析的知识化检索系统,分析了系统数据流,介绍了系统功能框架,包括段落检索和段落内容关系分析等核心模块,重点解决了段落鉴别、段落关系分析方法等问题。(本文来源于《情报理论与实践》期刊2007年05期)

黄水清,黄文昕,金洁琴[7](2007)在《段落检索技术的综述》一文中研究指出介绍了国外对段落检索中段落切分方法、段落检索算法及段落检索方法3项关键技术的研究现状,以及目前的一些应用和未来的研究方向。(本文来源于《情报探索》期刊2007年03期)

付鸿鹄,张晓林[8](2007)在《段落检索及其相关算法研究》一文中研究指出总结段落检索及其涉及的段落划分和相关算法,讨论文本分割和段落抽取的差别,介绍并比较几种常用的段落划分方法以及几类段落检索算法,在此基础上对段落检索的研究方向进行展望。(本文来源于《现代图书情报技术》期刊2007年02期)

段落检索论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文章利用目前已知的文件分段方式以及隐性语义检索技术,开发了一个文件分段检索系统,评估了文件结构分段、按文件人工语意分段以及取固定字数分段对段落检索结果的影响。通过对研究结果进行分析统计,得出了这3种分段方式的适用范围及优缺点。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

段落检索论文参考文献

[1].张海炜.基于语言模型的段落检索系统[D].长安大学.2017

[2].王睿,曾斌,陈抒.电子文献段落检索算法性能评估研究[J].河南图书馆学刊.2015

[3].林巍.段落检索系统及其应用的研究[D].哈尔滨工业大学.2010

[4].黎新.面向问答系统的段落检索技术研究[D].中国科学技术大学.2010

[5].陈冉.基于概念和段落检索的生物医学文献知识发现[D].大连理工大学.2008

[6].付鸿鹄,张晓林.基于段落检索和段落内容分析的知识化检索系统设计[J].情报理论与实践.2007

[7].黄水清,黄文昕,金洁琴.段落检索技术的综述[J].情报探索.2007

[8].付鸿鹄,张晓林.段落检索及其相关算法研究[J].现代图书情报技术.2007

标签:;  ;  ;  ;  

段落检索论文-张海炜
下载Doc文档

猜你喜欢