导读:本文包含了词组识别论文开题报告文献综述及选题提纲参考文献,主要关键词:自然语言处理,短语识别,概率分析,规则约束
词组识别论文文献综述
刘彩[1](2017)在《基于概率分析与规则约束的词组识别研究》一文中研究指出当前,在大数据浪潮的背景下,各种各样的海量数据都或多或少地需要自然语言处理领域相关技术的支撑,从而借此发现数据背后的大量有价值的信息。也正因如此,自然语言处理技术的发展壮大是一种必然的大趋势所向。而词组(短语)识别研究属于自然语言处理技术中应用基础研究的一个重要子领域,属于浅层分析范畴。而浅层句法分析的这种“分而治之”的思路为完整句法分析的消歧提供了很大帮助,因此针对词组的提取研究是非常有价值和意义的。本文在现有的词组研究基础上,提出了一种新的短语识别模型,主要内容如下:(1)尝试面向一般自然语言词组,理论阐述如何用一套比较通用不繁杂的模型来达到短语识别的目的,即通过基于概率分析与规则约束相融合的方法,并提出结合度的概念进行描述说明。(2)在实验部分,以英语语种中的动词短语为例进行实践和说明,主要解决的问题是二元非嵌套动词短语和二元嵌套动词短语以及叁元动词短语这叁种情况下的识别抽取。具体的实现部分侧重通过语料库训练、结合度分析、相似度计算、数据平滑处理和规则约束以及模拟短语词典辅助等方法的融合,从而实现动词短语的识别抽取目的。系统实现所选用的编程语言为Java,测试平台通过Java Web的形式进行测试和分析。(3)综合实验结果,系统在基于概率分析和规则约束相融合的前提条件下,其最好的识别效果是准确率达到88%,召回率达到90%。这也说明了本文的短语识别框架是有效可行的。综上,论文的创新点主要有以下叁点:(1)通过概率分析和适当规则相结合的方式,提出结合度的概念,探索一般自然语言中的短语识别问题;(2)将词语相似度计算运用于数据稀疏问题;(3)系统可实现动态语料库的功能。(本文来源于《昆明理工大学》期刊2017-03-01)
罗影利[2](2014)在《基于嵌入式的关键词组识别系统的设计与实现》一文中研究指出随着科学技术的快速发展,基于嵌入式系统的关键词组识别技术备受人们的关注。该技术在智能家居、语音导航等领域具有广阔的应用发展前景。由于嵌入式系统的存储资源和运算处理能力有限,因此对关键词组识别技术就提出了更高的要求。本文针对如何在嵌入式系统有限的资源条件下提高关键词组识别系统的识别率做了深入的研究,主要做了以下几个方面的工作:(1)在噪声去除方面,首先介绍了一些常见去噪方法的优缺点,并通过实验比较了以上方法对信噪比的改善情况。然后针对嵌入式系统特定的环境,以运算量较小的谱减去噪为基础,对其增益函数进行改进。最后通过实验表明,改进的谱减去噪法可以明显改善信噪比,符合实际要求。(2)在端点检测方面,针对传统的双门限检测技术在低信噪比情况下检测效果不明显,采用短时能量过零率差分的方法进行端点检测。然后通过实验表明,改进后的端点检测技术提高了系统在低信噪比环境下的检测率和对环境噪声的自适应性。(3)在特征参数提取方面,研究了LPCC、MFCC及其一阶差分参数的特征。然后结合了LPCC与MFCC特征的优点,将特征参数进行组合,通过实验说明了线性梅尔倒谱(LPC_MFCC)差分特征参数能够提高系统的识别率。(4)在识别模型选择方面,首先通过实验比较了DTW模型和HMM模型对识别性能的影响,确定本文的识别模型为HMM模型。针对数据下溢的问题,对HMM模型中的算法进行了修正,通过实验说明了算法修正后系统识别率提高了。(5)在嵌入式关键词识别系统的实现方面,对系统进行了软件、硬件分工,在PC机上完成语音模板库的生成,在凌阳开发板上完成语音识别功能,通过实验说明了本系统的可行性和准确性。(本文来源于《南京理工大学》期刊2014-02-01)
刘岗[3](2011)在《无约束大词汇量联机手写词组识别新方法》一文中研究指出随着如iPhone、Android智能手机等个人手持设备的出现,作为人机交互的重要手段之一的手写输入的重要性越来越突显。与联机中文手写单字识别相比,联机中文手写词组识别为用户提供了一种更为自然和方便的输入方式。然而,在实际运用中,联机中文手写词组识别还存在着很多问题。为了解决这些问题,本文做了大量的研究工作,包括:我们完善了SCUT-COUCH数据库。首先,我们增加了Word44208和Word17366这两个联机中文手写词组数据集。其次,我们花了大量的时间和精力对SCUT-COUCH数据库中的所有11个子集全部进行了样本纠错,并额外建立了书写错误数据集,这在国内外还是第一次。另外,我们还对Word44208子集中所有的词组样本和所有的拼音样本都进行了手工切分标注。最后,我们对SCUT-COUCH数据库的总体性能做了完备且科学的评估。我们提出了一种中文手写词组合成算法,用以生成大规模的联机中文手写词组数据库。我们选择了四个真实手写词组样本的特征作为我们合成词组的依据,这四个特征是词组中单字的大小、相邻单字之间的间隔、词组的长宽比和倾斜度。紧接着,在合成词组基础上,本文提出了一种基于整词的无约束中文手写词组识别方法。然后,通过把中文单字和词组都看成是同一级别的整体单位,我们还提出了一种中文手写单字/词组的混合识别方法,并获得了92.99%的整体识别率。最后,本文也介绍了一种压缩算法,通过使用这种压缩算法,前面所提出的基于整词的无约束中文手写词组识别系统的存储量从568.25MB降到了76.31MB。并且,我们在5套类别数为44,208类的真实中文手写词组样本上做了测试,识别率为91.55%,只损失了0.41个百分点。本文所提出的中文手写词组合成算法和基于整词的无约束中文手写词组识别方法具有通用性,为联机中文手写词组识别的进一步研究提供了基本思路和研究方向。(本文来源于《华南理工大学》期刊2011-05-23)
李月芬[4](2009)在《识别形似词组》一文中研究指出在英语学习中,有些词组形式上很相近,但意思却相差甚远。若不仔细辨别,则会出现错误。现将一些易混词组进行归纳,希望能对同学们的学(本文来源于《语数外学习(高考英语)》期刊2009年03期)
龙腾[5](2008)在《旋转方向无关的无约束手写中文词组识别》一文中研究指出本文致力于研究旋转方向无关的无约束中文手写词组识别技术,这种技术能让用户在没有字符框约束的书写区域内自然、流畅地以任意角度书写汉字词组。然而,这项研究面临着多项技术难题,包括:书写词组的旋转方向矫正问题,词组字符间笔画的粘连与重迭所带来的切分问题,汉字结构复杂与书写风格多变的问题,以及汉字词组词汇量庞大等问题。本文围绕着这些难点对中文手写词组的识别技术展开了一系列研究,主要工作包括:1.针对手写词组的倾斜矫正,提出了一种基于重心平衡的中文手写词组方向检测方法。实验结果表明,该方法能较好地将用户以任意倾斜角度(0°~ 360°)书写的中文词组矫正到水平位置,从而使得本文提出的手写词组识别方法成为一种旋转方向无关的手写词组识别方法。2.用户在快速书写的过程中,字与字之间容易产生连笔的现象,而且用户如果书写的词组字间距很小,字与字之间也容易产生笔画粘连甚至部分笔画重迭等问题,针对这些问题,本文提出了一种基于笔段提取与启发式笔段拆分的过切分方法。实验结果表明,该方法能较好地将连笔、粘连笔画或部分重迭笔画切分开来,从而为后面的切分组合路径搜索打好了基础。3.对手写单字识别进行了深入研究,提出两种不同的识别方案,一种基于笔画矢量方向特征和动态时间规整(DTW)技术的联机汉字识别方法,另一种则基于两级LDA粗分类器和一级MQDF细分类器的多级脱机汉字识别方法,并将两种识别方案进行了集成。实验结果表明,联机与脱机识别技术有着较好的互补性,两者的集成大幅提高了手写汉字的识别效果。另外,针对汉字书写可能出现不同的书写风格,本文也对手写汉字的多模板建模进行了研究,为了提高多模板的代表性,提出一种基于简化引力模型的聚类方法,实验结果表明,该聚类方法能生成比传统K-Means聚类更优的多模板,即使通过最小分类错误率(MCE)训练方法对多模板进行训练调整,调整后的模板也要优于经过同样MCE训练调整后的K-Means聚类模板。4.针对手写词组的字符切分,提出一种基于识别的字符切分验证模型,并同时用到词典的信息对切分结果进行进一步确认,由于对切分出来的部分进行单字识别输出的是识别候选字序列,因此在切分路径的搜索过程中,只要每个切分部分的正确的结果位于该部分的识别候选字序列内,即使不是第一识别候选,也能在后续的基于词典信息的切分验证模型中将其找出组成正确的词组输出。另外,针对中文词组词汇量大的问题,本文采用了一种哈希词典技术,使词典搜索验证的时间复杂度为常数O(1)。实验结果表明,通过这种验证模型进行词组识别,由于利用了词组中单字间的上下文信息,识别率由单字识别的84.58%提高到91.67%,而错误率则由15.42%下降到5.23%,大幅下降了66.9%,从而显示出本文提出的中文手写词组识别方法的有效性,5.传统的高准确率MQDF分类器由于其参数存储量巨大,无法被应用于存储空间受限的手持设备如手机或掌上电脑上,为了使其能得到应用,让人们体验到这种技术带来的识别率的大幅提升,本文研究提出了一种基于子空间共享的矢量量化压缩技术,该技术能以牺牲较小的识别性能来换取大幅降低的识别引擎字典存储空间。本文将其应用在传统的LDA与MQDF分类器上,使得整体分类器字典的容量从76.4MB降到了2.06MB,大幅压缩了97.3%,而识别率则仅仅下降0.88%,仍然维持在97%以上的水平。通过这种技术,使得传统的高识别率MQDF分类器被移植到手机等手持设备上成为可能。总之,多字词的手写识别由于包含了上下文信息,只要切分问题能得以很好的解决,则对其的识别效果将优于单字的手写识别,而且多字词的连续输入相对于单个字符逐个逐框地输入更显得自然和人性化,这些特点都表明了多字词连续手写识别技术将是汉字手写识别技术未来的发展方向。(本文来源于《华南理工大学》期刊2008-04-01)
金连文[6](2007)在《联机手写汉字/词组识别的研究及其应用》一文中研究指出由于在移动数码设备(例如智能手机、掌上电脑、学习机等)以及平板电脑(Tablet PC)上的巨大应用价值,联机手写汉字识别技术在近20多年来一直是模式识别领域中的一个重要研究课题,经过多年的研究工作,目前国内外许多研究机构(例如汉王、清华大学、Micro(本文来源于《计算机教育》期刊2007年01期)
肖华云,常宝宝,俞士汶[7](2004)在《中文词、词组对应英文翻译的自动识别》一文中研究指出本文工作是在建设双语对齐语料库及其检索平台的背景下提出。本文基于汉英双语语料库,利用固定译词表,对中文译词做了x~2统计实验;通过对其结果的分析给出了汉英双语语料库检索平台内嵌的中文检索词对应译词的识别方法,在对35个词的测试中获得了97.1%的准确率。最后,本文对中文词组对应翻译作了探索,给出中文词组对应翻译识别算法,在小规模语料的测试中得到87.7%的准确率。(本文来源于《第二届全国学生计算语言学研讨会论文集》期刊2004-08-01)
王雪艳[8](2002)在《教会学生识别英语单词和词组根义的重要性》一文中研究指出本文主要论述英语单词和词组根义的存在 ,识别掌握其根义的重要性以及识别其根义的方法(本文来源于《锦州医学院学报》期刊2002年02期)
杨浩荣,孙甲松,王作英[9](1998)在《基于连续语音识别算法和词树约束的汉语词组语音识别》一文中研究指出具有确定词表的词组语音识别是语音识别研究的一个重要方面,应用相当广泛。本文在简单介绍词组语音识别之后给出了一个基于连续语音识别算法和词树约束的汉语词组语音识别方法。这种方法通过在束搜索连续语音识别算法中引入词树约束信息,发挥了连续语音识别算法的优点,并且充分利用了确定词表的约束信息,提高了计算和搜索的效率。然后介绍了约束词树和它的高效存储结构,这种结构提高了约束词树的存储效率和在识别搜索中的检索效率;最后给出实验的结果和讨论并进行简要的总结。(本文来源于《中文信息学报》期刊1998年04期)
江辉,王仁华[10](1997)在《基于词组输入方式的汉语大词汇语音识别系统的研究》一文中研究指出研究了汉语大词汇词组语音识别算法的实现问题,提出了适用于大词汇汉语语音识别的有效而可行的训练和识别策略,对其中一些关键问题做了比较性实验,得出了一些有益的结论.针对汉语语音学特点提出了一种新的识别基元依赖韵头的声韵母模型(FHIF),实验证明FHIF的确优于普通的声韵母模型(IF).随后介绍了一个特定人汉语大词汇词组语音的模拟识别系统,该系统原则上可以识别无限的汉语词组,通过对汉语中最常用的5000词的测试结果表明,该模拟系统首选词条在特定人下已达到了约87%的识别率(本文来源于《中国科学技术大学学报》期刊1997年01期)
词组识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着科学技术的快速发展,基于嵌入式系统的关键词组识别技术备受人们的关注。该技术在智能家居、语音导航等领域具有广阔的应用发展前景。由于嵌入式系统的存储资源和运算处理能力有限,因此对关键词组识别技术就提出了更高的要求。本文针对如何在嵌入式系统有限的资源条件下提高关键词组识别系统的识别率做了深入的研究,主要做了以下几个方面的工作:(1)在噪声去除方面,首先介绍了一些常见去噪方法的优缺点,并通过实验比较了以上方法对信噪比的改善情况。然后针对嵌入式系统特定的环境,以运算量较小的谱减去噪为基础,对其增益函数进行改进。最后通过实验表明,改进的谱减去噪法可以明显改善信噪比,符合实际要求。(2)在端点检测方面,针对传统的双门限检测技术在低信噪比情况下检测效果不明显,采用短时能量过零率差分的方法进行端点检测。然后通过实验表明,改进后的端点检测技术提高了系统在低信噪比环境下的检测率和对环境噪声的自适应性。(3)在特征参数提取方面,研究了LPCC、MFCC及其一阶差分参数的特征。然后结合了LPCC与MFCC特征的优点,将特征参数进行组合,通过实验说明了线性梅尔倒谱(LPC_MFCC)差分特征参数能够提高系统的识别率。(4)在识别模型选择方面,首先通过实验比较了DTW模型和HMM模型对识别性能的影响,确定本文的识别模型为HMM模型。针对数据下溢的问题,对HMM模型中的算法进行了修正,通过实验说明了算法修正后系统识别率提高了。(5)在嵌入式关键词识别系统的实现方面,对系统进行了软件、硬件分工,在PC机上完成语音模板库的生成,在凌阳开发板上完成语音识别功能,通过实验说明了本系统的可行性和准确性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
词组识别论文参考文献
[1].刘彩.基于概率分析与规则约束的词组识别研究[D].昆明理工大学.2017
[2].罗影利.基于嵌入式的关键词组识别系统的设计与实现[D].南京理工大学.2014
[3].刘岗.无约束大词汇量联机手写词组识别新方法[D].华南理工大学.2011
[4].李月芬.识别形似词组[J].语数外学习(高考英语).2009
[5].龙腾.旋转方向无关的无约束手写中文词组识别[D].华南理工大学.2008
[6].金连文.联机手写汉字/词组识别的研究及其应用[J].计算机教育.2007
[7].肖华云,常宝宝,俞士汶.中文词、词组对应英文翻译的自动识别[C].第二届全国学生计算语言学研讨会论文集.2004
[8].王雪艳.教会学生识别英语单词和词组根义的重要性[J].锦州医学院学报.2002
[9].杨浩荣,孙甲松,王作英.基于连续语音识别算法和词树约束的汉语词组语音识别[J].中文信息学报.1998
[10].江辉,王仁华.基于词组输入方式的汉语大词汇语音识别系统的研究[J].中国科学技术大学学报.1997