导读:本文包含了词组抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:哈萨克语,固定词组,排序集成,信息抽取
词组抽取论文文献综述
桑海岩[1](2013)在《哈萨克语固定词组自动抽取》一文中研究指出固定词组的结构很难用语法去描述,因为它的形成主要是在语言发展的过程中人们语言习惯等固定下来的信息。固定词组内部结构具有的不规则性特点给短语识别带来了很大的困难,造成了短语的结构歧义、多标记歧义等。本文基于统计方法在开放式语料上进行了固定词组抽取。根据可以利用的标记、特征等信息设计了一个对书名、缩略语进行抽取的算法,取得了很好的抽取结果。在无标记词组的抽取方面,本文将抽取看作是一个排序问题,使用了互信息、左边界熵、右边界熵叁种统计参数进行词组的抽取及排序,而后使用基于排序集成的方法对叁个排序序列进行集成。区别对待参数产生的排序序列,设计了一个带权重的基础集成方法。设计了一个适合大规模语料统计的一体抽取算法,按词组长分组统计、抽取,排除不同词组长度间各个参数比较的不公平性。依据频率和互信息结合的方法获取种子词组,使用种子对外进行扩展。将种子的判断标准与固定词组的判定标准分开,只要是结合紧密的词串都是种子,都有向外扩展的可能;而固定词组的判定则是确认候选词组是否结构完整。对多词互信息的计算进行了改进,解决了在运算过程中容易出现的数据溢出问题。并增加了向外扩展中扩展边界的互信息阈值限制,保证了每一个扩展进来的词都是结合紧密的词。提出了一个针对公共破碎子串的归并算法,完成对结构不完整词串的过滤,提高了准确率。(本文来源于《新疆大学》期刊2013-05-24)
钟敏娟,林亚平,陈治平[2](2004)在《基于分类和关键词组抽取的信息检索算法》一文中研究指出本文提出一种基于分类和关键词组抽取的信息检索算法。该算法利用文本分类和信息抽取技术辅助检索,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序。实验结果表明,所提算法与TFIDF算法、基于分类的交互式检索算法相比,具有更快的查询速度,更高的查准率和更小的排序误差率。(本文来源于《系统仿真学报》期刊2004年05期)
词组抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文提出一种基于分类和关键词组抽取的信息检索算法。该算法利用文本分类和信息抽取技术辅助检索,避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。针对传统的信息检索性能指标无法有效地衡量检索结果的排序状况,本文还引入了排序误差率概念用于评价检索结果的排序。实验结果表明,所提算法与TFIDF算法、基于分类的交互式检索算法相比,具有更快的查询速度,更高的查准率和更小的排序误差率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
词组抽取论文参考文献
[1].桑海岩.哈萨克语固定词组自动抽取[D].新疆大学.2013
[2].钟敏娟,林亚平,陈治平.基于分类和关键词组抽取的信息检索算法[J].系统仿真学报.2004