导读:本文包含了粒度短语论文开题报告文献综述及选题提纲参考文献,主要关键词:细粒度短语,分词融合,分层嵌套结构,双重错误校正系统
粒度短语论文文献综述
刘彤[1](2018)在《基于细粒度短语信息的汉语介词短语识别研究》一文中研究指出介词短语在汉语中使用的频率很高,其复杂多变的结构造成了识别的困难,而其识别准确率的高低也会影响到一系列句法分析任务的结果。在自然语言处理的研究中,提高介词短语的识别效果可以降低句法分析的复杂度,提高文本分类的分类效果,并且对机器翻译的性能也有很大的提升。本文对于介词短语的语法特点进行分析研究,结合近年来研究现状和难点,提出了一种基于细粒度短语的多模型融合介词短语识别方法,针对嵌套并列等结构复杂的介词短语进行了改进。不仅能够提高嵌套型复杂介词短语的识别精度,也从整体上对介词短语的识别效果进行提升。首先,利用细粒度短语识别模型识别出语料中的短语信息并进行融合,精简句子结构,降低介词短语内部复杂性;其次,用CRF模型识别具有嵌套结构的内层介词短语,即若嵌套存在则识别内层介词短语,否则直接识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内、外层介词短语识别后,都利用双重错误校正系统对识别的介词短语进行校正。细粒度短语融合的方法,能够在描述语句信息的同时简化结构,使介词短语跨度缩小。分层嵌套多模型识别方法,将同一层次的介词短语同时进行识别,并使用不同的模型识别不同层介词短语,更适合存在嵌套、并列的介词短语。双重错误校正系统利用了规则的方法,将统计与规则相结合,对实验效果进一步提升。在2000年《人民日报》新闻语料中进行五倍交叉实验,结果显示,本文方法识别的介词短语正确率、召回率、F值分别为94.33%,94.28%,94.30%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.31、1.33、1.32个百分点,有效提高了介词短语识别的性能。(本文来源于《大连理工大学》期刊2018-06-01)
林伟佳[2](2015)在《基于中文短语串的细粒度主题信息抽取及文本聚类算法》一文中研究指出在目前发达的移动通讯时代,移动端网民使用文本消息频繁进行信息交互。大量的短文本信息包含了人们针对各种时事话题的众多不同的观点和态度,如何合理在这些海量的语料信息中挖掘出关键且有用的文本信息同时过滤掉无效冗余的垃圾内容,是目前数据挖掘领域的一个热点研究问题。文本挖掘技术在针对社会现象的舆情分析方面和热点话题追踪等各种应用领域中起着不可忽视的作用。文本主题提取技术能够有效地精炼文本消息,针对性地反映出文本的主旨意思,减少人工检阅的工作量。而传统的中文文本由最基本的词语组成,但由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。而短语本身包含了较为丰富的细粒度语义信息,更加能表达出文本片段的主题性。本文旨在提取短语串来表达文本精炼后的主题语义信息,同时利用短语串特征进行文本聚类分析。本论文以文本短语为基础语义信息单位,针对中文短语进行研究。主要的工作内容集中如下:(1)提出了基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。其计算得到的主题短语结果能够精炼表达出文本片段的主旨。(2)利用短语特征实现文本聚类。由于专业知识领域的文本数据是针对某一类专业知识问题,其反映的主题短语特征相对集中。在获得主题短语的基础上采用词语串频信息的ROCK聚类方法进行文本聚类,其聚类的结果直观而有效地文本数据反映的主题信息。实验结果表明本文提出的短文本主题抽取方法以及聚类方法能够切实可行地处理并分析语料信息。(3)设计并实现了客户投诉服务的热点发现系统,将短语信息抽取以及文本聚类方法投入实践应用,取得良好的实用效果。最后,本文提出的挖掘细粒度的短语信息方法,对于其他的文本信息挖掘的工程实践有一定的参考价值与意义。(本文来源于《华南理工大学》期刊2015-05-08)
粒度短语论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在目前发达的移动通讯时代,移动端网民使用文本消息频繁进行信息交互。大量的短文本信息包含了人们针对各种时事话题的众多不同的观点和态度,如何合理在这些海量的语料信息中挖掘出关键且有用的文本信息同时过滤掉无效冗余的垃圾内容,是目前数据挖掘领域的一个热点研究问题。文本挖掘技术在针对社会现象的舆情分析方面和热点话题追踪等各种应用领域中起着不可忽视的作用。文本主题提取技术能够有效地精炼文本消息,针对性地反映出文本的主旨意思,减少人工检阅的工作量。而传统的中文文本由最基本的词语组成,但由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。而短语本身包含了较为丰富的细粒度语义信息,更加能表达出文本片段的主题性。本文旨在提取短语串来表达文本精炼后的主题语义信息,同时利用短语串特征进行文本聚类分析。本论文以文本短语为基础语义信息单位,针对中文短语进行研究。主要的工作内容集中如下:(1)提出了基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。其计算得到的主题短语结果能够精炼表达出文本片段的主旨。(2)利用短语特征实现文本聚类。由于专业知识领域的文本数据是针对某一类专业知识问题,其反映的主题短语特征相对集中。在获得主题短语的基础上采用词语串频信息的ROCK聚类方法进行文本聚类,其聚类的结果直观而有效地文本数据反映的主题信息。实验结果表明本文提出的短文本主题抽取方法以及聚类方法能够切实可行地处理并分析语料信息。(3)设计并实现了客户投诉服务的热点发现系统,将短语信息抽取以及文本聚类方法投入实践应用,取得良好的实用效果。最后,本文提出的挖掘细粒度的短语信息方法,对于其他的文本信息挖掘的工程实践有一定的参考价值与意义。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
粒度短语论文参考文献
[1].刘彤.基于细粒度短语信息的汉语介词短语识别研究[D].大连理工大学.2018
[2].林伟佳.基于中文短语串的细粒度主题信息抽取及文本聚类算法[D].华南理工大学.2015