分词标引论文-黄建年

分词标引论文-黄建年

导读:本文包含了分词标引论文开题报告文献综述及选题提纲参考文献,主要关键词:农业古籍,古籍整理,断句,标点

分词标引论文文献综述

黄建年[1](2009)在《农业古籍的计算机断句标点与分词标引研究》一文中研究指出中国文化典籍是中华民族在数千年历史发展过程中创造的重要文明成果,蕴含着中华民族特有的精神价值、思维方式和想象力、创造力,是中华文明绵延不绝的历史见证,也是人类文明的瑰宝。对古籍的整理、保护与开发是炎黄子孙应尽的义务和职责。中国的古籍整理,有着悠久的历史和传统。从孔子删定《六经》、刘向父子编撰《七略》,到清人编定《四库全书》、《古今图书集成》,大规模的古籍整理持续不断,影响深远。建国后古籍整理领域取得的巨大成就举世瞩目,目前仅整理出版的农业古籍就达140余种。尽管如此,农业古籍的整理与开发仍然不足,已经整理出版的农业古籍只占全部存世农业古籍的15%左右,大量的农业古籍亟待整理。中国古籍的断句标点最晚于东汉时期已经开始了,其后各代这一工作连绵不绝,只是盛衰易势,治乱更迭而已。明代《永乐大典》所收各书无一不加圈点,而综观清代《四库全书》却无一圈一点。虽同为官方编撰类书,然差距之大、观念之异令人惊奇。民国后新式标点兴起,古籍断句标点之风方始流行,新中国建立后政府更是极力推动,新式标点整理古籍因而数量渐增。1989年我国制订《信息处理现代汉语分词规范》,然以现代文本为处理对象,而应用于古籍整理领域的专用古籍文本的分词规范尚未引起注意。正是基于这一现状,本文以农业古籍为研究对象,研究了农业古籍的断句标点、分词以及索引编制的历史与现状,重点探讨了计算机技术在农业古籍断句标点、分词标引中的应用,构建了农业古籍断句标点、分词标引的原型系统。主要研究内容如下:1)借鉴文本模式匹配、句法分析等技术,研究并设计出农业古籍自动断句标点的算法,设计出农业古籍断句标点的原型系统。通过对约2,000万汉字古籍文本语料的统计与分析,总结出断句标点常用的11种方法。首先采用句法特征词、同义语标志词进行初步断句;进而利用反义复合词、引书标志、时序词、数量词、重迭字词、动名结构词及比较句法进一步对子句进行断句、标点;最后使用农业用语和禁用模式进一步提高断句、标点后农业古籍的可读性和准确性。根据这些断句标点方法与规则,采用自动构建与人工优化相结合的办法构建了断句标点模式库与断句标点禁用模式库2类断句标点知识库。两者共同保证了断句标点功能的正常开展,目前已经构建的标点模式库共有1,166条规则,断句标点禁用模式库共184条规则。依据这些断句标点规则,利用本系统对6种农业古籍的断句标点测试,取得了60.5%的断句正确率与40.5%的标点正确率。2)借助N元分词、词典分词等技术,设计出农业古籍自动分词专用算法,设计出农业古籍分词的原型系统。考虑到目前尚无现成的古籍分词词典可用,因此构建古籍分词词典势在必行。而构建一部全面而权威的古籍分词词典又非短时间所能够完成,因此采用基于词典分词与N元语法分词的综合分词方法成为目前古籍分词较理想的方法。有基于此,本实验构建了基本词典群与禁用词典群等两个分词词典群共10多个数据库,其中基本词典群包括人名、地名、书名、职官名、物产名等数据库,而禁用词典群则包括成语、年号、虚词、数量词、时序词等数据库。分词词典群目前共收录各类词汇20万条,基本上满足了古籍分词的需要。综合采用分词词典分词和N元语法分词2种方法进行古籍文本分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种《广东方志物产》为语料进行了古籍分词测试。从12种农业古籍中共识别出已有词1,164个,约占总词汇量的31%;未登录词2,530个,占总词汇的69%。从379种广东方志物产资料中共识别出已有词6,314个,占总词汇的8%;未登录词75,438个,则占总词汇的92%。其中出现10次以上的词汇为8,044个,占总词汇的10%。出现20次以上的词汇共3,760个,占总词汇的5%左右。通过对379种《广东方志物产》分词结果的分析,我们发现这样一个事实:当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23,000,000,这一结果说明齐夫第一定律在古籍文本中同样适用。利用计算机实现农业古籍文本的断句标点与分词标引,并开发出相应的原型系统,是国内农业史、情报学、中文信息处理技术等学科结合的一次全新尝试。正因为如此,本项研究仍然稍显稚嫩,尚有进一步深入的必要。(1)目前采用的断句标点模式库共有各种规则1,100余条,数量有限,而且各个规则之间仍然有待于进一步梳理与优化。再者,目前断句标点所用的方法为模式识别方法,主要基于语词的应用,而对于句法特征的采用仍然有限。这主要因为目前缺少农业古籍分析的熟语料库,特别是缺少农业古籍词汇属性库,使本实验难以进行有效的句法分析。随着农业古籍词汇属性库的构建,古籍句法规则的分析将会逐步深入。立足于农业古籍词汇属性库与古籍句法规则库的断句标点将会取得更佳的效果。(2)分词系统采用词典分词与N元语法结合的综合分词方法,通过词典识别出的词汇占总词汇的比例仍然不高,在农业古籍中占31%,这一结果很显然乃分词词典收录的词汇在各子学科中分布并不均匀所致。所以,优化分词词典将是下一步需要继续研究的问题之一。尽管本课题得到了国家社科基金与教育部人文社会科学基金的支持,但是,因为课题涉及的范围太过广泛,且因为时间因素很难作全面而深入的探讨,只能留待于将来作更进一步的探讨与研究。(本文来源于《南京农业大学》期刊2009-06-01)

苏武华[2](2004)在《汉语自动分词和自动标引方法研究》一文中研究指出中文自动标引一直是学界研究的热点。本文主要研究了两个方面 :自动分词方法和自动标引方法。通过全面的比较研究 ,本文认为自动分词方法可以分为五个类型 ,自动标引的方法分为七种。(本文来源于《农业图书情报学刊》期刊2004年07期)

陈榕[3](2003)在《自动分词、标引与智能检索在信访业务处理中的应用》一文中研究指出信访是党和政府的一项重要工作,本文结合信访业务提点,提出了运用自动分词、标引、智能检索等技术解决信访业务处理关键问题的方案。(本文来源于《福建电脑》期刊2003年10期)

王兰成,田梅,侯双[4](2002)在《PLS:一种基于信息自动标引的最小推进分词算法及其实现》一文中研究指出1.引言自动标引是文本信息预处理的基础和核心,摘要信息的自动标引仍是目前研究的热点。随着信息技术的发展,大规模的信息管理又赋予我们对计算机标引技术以新的认识和研究。(本文来源于《第十九届全国数据库学术会议论文集(技术报告篇)》期刊2002-08-26)

张亮[5](1999)在《公安文献处理中的分词和标引》一文中研究指出分词是汉语文献处理的第一步,处理公安文献可以尝试采用基于词表的最大匹配法进行分词,处理交集型歧义切分字段则有专门算法,可建立有关词表。在此基础上,可提出一套公安文献标引的方法。(本文来源于《江苏公安专科学校学报》期刊1999年06期)

林春实,方燕,全吉成[6](1997)在《汉语文献自动分词与标引技术发展浅析》一文中研究指出本文将汉语自动分词与标引技术的研究归结为机械分词、语义分词和基于神经网络的智能分词叁大系列,分析了阻碍汉语自动分词研究发展的问题,并确认了自动分词研究的发展方向。(本文来源于《情报学报》期刊1997年S1期)

湛述勇[7](1992)在《汉语文献自动分词与标引研究综述》一文中研究指出本文根据近年来国内发表的有关自动分词与标引的部分文章,对汉语文献自动分词方法和自动标引技术进行了分析和归纳,并提出了自动标引质量评价和标引模型评价指标的问题。(本文来源于《情报科学》期刊1992年05期)

龙泽云,邓钦和[8](1987)在《一种汉语自动分词标引方法──统计分析法》一文中研究指出引言 要建立一个有效方便的情报检索系统必须拥有一定数量的数据组成的数据库作后盾,而要实现按主题联机快速检索则必须将数据库中原文献所包含的情报内容转换成特定的简明标识,即对文献进行标引。近年来文献量飞速增长,人工标引因花费大、时间慢、不一致性、标引难度大等(本文来源于《现代图书情报技术》期刊1987年03期)

分词标引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

中文自动标引一直是学界研究的热点。本文主要研究了两个方面 :自动分词方法和自动标引方法。通过全面的比较研究 ,本文认为自动分词方法可以分为五个类型 ,自动标引的方法分为七种。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分词标引论文参考文献

[1].黄建年.农业古籍的计算机断句标点与分词标引研究[D].南京农业大学.2009

[2].苏武华.汉语自动分词和自动标引方法研究[J].农业图书情报学刊.2004

[3].陈榕.自动分词、标引与智能检索在信访业务处理中的应用[J].福建电脑.2003

[4].王兰成,田梅,侯双.PLS:一种基于信息自动标引的最小推进分词算法及其实现[C].第十九届全国数据库学术会议论文集(技术报告篇).2002

[5].张亮.公安文献处理中的分词和标引[J].江苏公安专科学校学报.1999

[6].林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报.1997

[7].湛述勇.汉语文献自动分词与标引研究综述[J].情报科学.1992

[8].龙泽云,邓钦和.一种汉语自动分词标引方法──统计分析法[J].现代图书情报技术.1987

标签:;  ;  ;  ;  

分词标引论文-黄建年
下载Doc文档

猜你喜欢