导读:本文包含了汉语文献检索论文开题报告文献综述及选题提纲参考文献,主要关键词:重要句群,文摘,汉语文献检索,检索评价
汉语文献检索论文文献综述
徐彩琴[1](2008)在《基于重要句群与基于作者文摘的汉语文献检索比较研究》一文中研究指出本文对作者文摘和重要句群进行了内容相似度的比较和分析,同时,对基于作者文摘和基于重要句群的检索性能进行了对比研究。本文首先介绍了文摘的作用和基于文摘检索的优势,指出了自动文摘技术的可借鉴性,在此基础上分析了基于重要句群检索的必要性和可行性。文章详细描述了重要句群的生成原理和实现过程:首先下载了2064篇畜牧兽医学科的论文作为研究的测试集,并对其进行了一系列的文本预处理工作;然后以《农业词典》为基础表,结合汉语自适应分词系统识别出的未登录词创建了畜牧兽医专业词表;接着利用动态链接库CarmmLib.d11对测试文献进行分词,并计算语词权重和句子权重;最后将权重最高的若干句子作为重要句群生成并保存。在测评部分,本文引入了基于向量空间模型文本相似度的方法对重要句群和作者文摘进行相似性比较。采用余弦公式计算两者的相似值,以0.3、0.5和0.7为阈值,得出相应的测评数据,并分析了得到这种结果的原因。此外,本文对基于作者文摘和基于重要句群的检索性能进行了50个检索提问的测评。其中的用户提问来自南京农业大学图书馆参考咨询部的用户真实提问。检索过程采用布尔检索模型,对检索结果的评价选用了目前为止最主要也是最常用的检索性能评价指标查全率和查准率指标。文章使用了多种方式对评价指标进行比较分析,分别是概况表统计、R/P/F柱状图、R/P差额直方图。根据最终的比较结果,得出了以下结论:无论是查全率还是查准率,基于文摘检索和基于重要句群检索的性能差别不是很大,但是重要句群稍优于文摘,并且查全率的优于程度要大一些。本文的主要研究成果可以归纳为以下叁个方面:第一,在生成重要句群过程中,本文首次统计分析了畜牧兽医学科论文的结构特点,并发现了该学科论文重要段落的分配规律;第二,本文将信息检索和文本分类中的向量空间模型引入到对文摘和重要句群的比较中,并采用基于余弦相似度的方法比较重要句群和文摘的内容相似度;第叁,本文首次把重要句群作为且仅仅作为检索对象与文摘进行比较研究,并得出了基于重要句群的检索性能略高于文摘的结论。(本文来源于《南京农业大学》期刊2008-06-01)
程彬彬[2](2008)在《词性在汉语科技文献检索中的作用与影响》一文中研究指出词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文文献信息检索有一定影响,但影响不大。本研究主要针对词性用于汉语科技文献检索的作用和影响进行研究,试图用测评数据说明影响程度和作用大小。整个研究过程中,实现了畜牧兽医语料库和词表的建立工作。词性标注过程利用的是中国科学院计算技术研究所研制出的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS、南京农业大学研究生程冲设计的CARMM系统中的未登录词功能以及自建的畜牧兽医词表相结合的方式实现,词性标记集选用的是汉语文本词性标注标记集(北大版)。采用了两种提取检索词方式和多种检索模型,其中,两种提取检索词方式包括保留14维词性提取的检索词方式和人工辅助参与提取检索词方式;多种检索模型包括传统的布尔逻辑检索模型、“部分匹配的”布尔逻辑检索模型和向量空间模型。在向量空间模型中,根据阈值取值有其自身的不足的特点,本研究采用了两种阈值2%和5%的方式,得到了多种测评数据。根据测评数据,得出了带词性的检索和不带词性的检索的测评结果。测评结果采用四种方式测评,分别是概括表统计(包括每个检索提问式的R、P和Rav、Pav四个指标的测评结果表),R、P折线图,R、P差额直方图和R、P差值平均值表。最终根据测评结果,得出了在检全率方面,不带词性的检索效率要高于带词性的检索效率;在检准率方面,除了“部分匹配的”布尔逻辑检索结果显示的是不带词性的检索检准率要高之外,其他结果都表明带词性的检索要略胜一筹。总体来看,带词性的检索并没有体现多大的优越性。而且,从测评结果来看,在词性用于检索的同时选择的检索模型也是制约最终结果的一个因素。本研究总的来看主要创新可以归结为4个方面。第一,词性首次用于汉语文献检索。第二,对文献语词和提问检索词的词性进行了14维降维处理,提高了检索效率;第叁,设计了可用于词性检索的“部分匹配的布尔逻辑模型”;第四,用实验测评数据得出了词性检索对汉语文献检索的影响程度。(本文来源于《南京农业大学》期刊2008-06-01)
苏新宁[3](1993)在《汉语文献检索词自动标引研究》一文中研究指出作者遵循文献保障和用户保障标引原则,提出了一种新的文献自动标引算法——检索词后组标引法。采取手段为,先从机读文本中取出单汉字,并赋予记录号与位置信息,检索时进行逻辑与位置组配,检索结果作为标引内容。这种方法完全从作者用词与用户用词出发,保证了每个标引词必为有检索价值的词汇。本文采用检索后控词表的方法来进行同义词、相关词控制检索,以提高系统查全率、减轻用户构造检索策略的负担。(本文来源于《情报学报》期刊1993年02期)
张敦仲[4](1991)在《汉语元词句式组配法文献检索语言初探》一文中研究指出本文是关于“汉语元词句式组配法”的初步研究报告。文中简要阐述了这种主题法检索语言的设计思路、基本原理、词表构造、标识类型与标引方法、检索系统组织等基本问题。旨在对主题法检索语言的不断改造与优化做出实质性的推动。(本文来源于《图书馆理论与实践》期刊1991年03期)
汉语文献检索论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文文献信息检索有一定影响,但影响不大。本研究主要针对词性用于汉语科技文献检索的作用和影响进行研究,试图用测评数据说明影响程度和作用大小。整个研究过程中,实现了畜牧兽医语料库和词表的建立工作。词性标注过程利用的是中国科学院计算技术研究所研制出的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS、南京农业大学研究生程冲设计的CARMM系统中的未登录词功能以及自建的畜牧兽医词表相结合的方式实现,词性标记集选用的是汉语文本词性标注标记集(北大版)。采用了两种提取检索词方式和多种检索模型,其中,两种提取检索词方式包括保留14维词性提取的检索词方式和人工辅助参与提取检索词方式;多种检索模型包括传统的布尔逻辑检索模型、“部分匹配的”布尔逻辑检索模型和向量空间模型。在向量空间模型中,根据阈值取值有其自身的不足的特点,本研究采用了两种阈值2%和5%的方式,得到了多种测评数据。根据测评数据,得出了带词性的检索和不带词性的检索的测评结果。测评结果采用四种方式测评,分别是概括表统计(包括每个检索提问式的R、P和Rav、Pav四个指标的测评结果表),R、P折线图,R、P差额直方图和R、P差值平均值表。最终根据测评结果,得出了在检全率方面,不带词性的检索效率要高于带词性的检索效率;在检准率方面,除了“部分匹配的”布尔逻辑检索结果显示的是不带词性的检索检准率要高之外,其他结果都表明带词性的检索要略胜一筹。总体来看,带词性的检索并没有体现多大的优越性。而且,从测评结果来看,在词性用于检索的同时选择的检索模型也是制约最终结果的一个因素。本研究总的来看主要创新可以归结为4个方面。第一,词性首次用于汉语文献检索。第二,对文献语词和提问检索词的词性进行了14维降维处理,提高了检索效率;第叁,设计了可用于词性检索的“部分匹配的布尔逻辑模型”;第四,用实验测评数据得出了词性检索对汉语文献检索的影响程度。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
汉语文献检索论文参考文献
[1].徐彩琴.基于重要句群与基于作者文摘的汉语文献检索比较研究[D].南京农业大学.2008
[2].程彬彬.词性在汉语科技文献检索中的作用与影响[D].南京农业大学.2008
[3].苏新宁.汉语文献检索词自动标引研究[J].情报学报.1993
[4].张敦仲.汉语元词句式组配法文献检索语言初探[J].图书馆理论与实践.1991