导读:本文包含了音素识别论文开题报告文献综述及选题提纲参考文献,主要关键词:语音识别,子空间高斯混合模型,声学特征,音素识别
音素识别论文文献综述
贾兵兵[1](2019)在《基于深度学习的音素特征识别研究》一文中研究指出语音作为日常交流的重要方式,在人类发展历程中占有无可替代的地位。21世纪后,神经网络的重新提出和互联网的快速发展将语音识别技术推进到一个新的阶段。由于模式识别的进步,语音识别作为人机交互的重要组成是当前研究的热点。在语音的特征提取、声学模型识别和解码叁个步骤中,特征提取作为语音识别的第一步尤其重要,随着深度学习在语音识别领域的成功应用,使用神经网络的深度结构可以实现对语音数据的复杂函数计算和高维学习,提取出比浅层结构分类效果更好的音素特征。近年来,大量的研究人员提出了多种利用神经网络的深层结构来提高语音特征识别率的方法,尽管在一定程度上取得了较好的效果,但是语音识别的研究技术仍存在进步的空间。本文为降低语音特征的识别错误率,首先,从语音信号中提取传统特征,然后对传统的特征进行音素提取;其次,建立新的串联系统模型,通过相关状态的共享结构来减少计算复杂度,同时充分利用深度学习框架中生成性网络的映射方式和学习能力,进行特征参数的提取;最后,经过声学模型的学习识别与解码后得到音素识别错误率,并以此为指标判断模型的效果。本文主要的研究内容如下:(1)子空间高斯混合模型在状态空间共享同一结构的情况下,可以通过改变全参数空间的均值与权重来减小计算规模,然后从向量空间到参数空间进行全局映射,通过两步E-M算法对维特比状态下的基线和数据作对齐训练,并且在相对独立的空间中适应每个语音状态,从而获得训练后的语音音素特征。利用在开源平台上的TIMIT语音库进行传统特征提取,考虑到提取过程中信号的鲁棒性,在输入模型前对传统特征先进行相关的降维处理。通过实验可以看出,子空间高斯混合模型对训练后的语音音素特征识别效果优于未经过训练的传统特征。(2)建立子空间高斯混合和深度神经网络的串联系统提取音素特征,将传统特征先进行降维分析后作为串联系统的输入量,输入到第一级的子空间高斯混合模型中;然后通过空间共享和减少待估计值的参数规模获得区分训练后的输出特征,并将这一输出特征作为第二个模型的输入特征,在深度神经网络中做非监督训练,通过反向传播算法对模型的参数修正后得到深度特征;最后对其进行声学模型识别及解码。在开源平台上的TIMIT语音库中进行上述实验,对比音素识别错误率,可以看出串联系统提取的特征效果明显好于传统特征。(本文来源于《陕西师范大学》期刊2019-05-01)
阴法明,赵焱,赵力[2](2019)在《连续音素的改进深信度网络的识别算法》一文中研究指出为提高连续语音识别中的音素识别率,提出一种基于改进并行回火训练的受限波尔兹曼机的音素识别算法。首先,利用经过等能量划分后的改进并行回火算法来训练受限玻尔兹曼机,接着将受限玻尔兹曼机堆迭组成一个深信度网络,从而作为深度神经网络预训练的基础模型,然后通过softmax层输出,得到用于音素状态后验概率检测的深度神经网络。接着,利用少量的标签数据,根据反向传播算法对网络权重进行微调。最后,将所得后验概率作为隐马尔科夫的发射概率,然后利用Viterbi解码器实现音素识别。在TIMIT语料库上的实验表明,识别率相比于传统的对比散度类算法提高了约4.5%,在不增加计算量的情况下比原始并行回火算法提高约1%。(本文来源于《应用声学》期刊2019年01期)
刘琳[3](2018)在《大学非英语专业音素教改与自动语音识别技术融合应用可行性》一文中研究指出文中以近些年自动语音识别技术在大学非英语专业音素教改中的融入为研究基础,通过分析目前大学非英语专业因素教改中存在的问题,探讨大学非英语专业因素教改中自动语音识别技术的应用优势并引入案例尝试分析如何提升自动语音识别技术在大学非英语专业音素教改中应用的有效性等。(本文来源于《课程教育研究》期刊2018年17期)
刘琳[4](2018)在《大学非英语专业音素教改与自动语音识别技术融合应用可行性》一文中研究指出文中以近些年自动语音识别技术在大学非英语专业音素教改中的融入为研究基础,通过分析目前大学非英语专业因素教改中存在的问题,探讨大学非英语专业因素教改中自动语音识别技术的应用优势并引入案例尝试分析如何提升自动语音识别技术在大学非英语专业音素教改中应用的有效性等。(本文来源于《课程教育研究》期刊2018年08期)
许斐[5](2018)在《音素识别机制的设计与实施》一文中研究指出音素识别技术一直是当今社会人工智能的一项研究热点。传统的音素识别机制采用HMM-GMM模型进行建模,本文的CMU-SPHINX系统便是基于HMM-GMM建模的音素识别机制。随着近年来技术的不断革新和进步,神经网络技术在人工智能领域取得了飞速的发展和应用。鉴于神经网络具有更强的特征表达能力,并在相关的领域取得了良好的效果,因此本文又引入了基于ANN-HMM的音素识别机制——LC-RC音素识别机制。最后本文在两个基准系统上进行了必要的优化,提高了系统识别的准确率。本文的主要工作如下:(1)依托开源软件,搭建了 CMU-SPHINX和LC-RC基准音素识别机制,并对两个基准系统进行了必要的测试与分析;(2)搭建了基于CMU-SPHINX系统的中英文语言模型训练及测评系统,利用HTK工具包得到了 Lattice格式的语言模型;(3)针对汉语语声的音素构成开展了研究工作,根据汉语语声的发音特点,较为合理地将汉语音素数目由125缩减至38,大大降低了模型复杂度,取得了一定的性能改进;(4)利用语音信号的基音特征对音素边界进行校准,为LC-RC系统的声学模型训练提供更准确的标注数据;(5)面向汉语和英语语声数据,追踪LC-RC系统神经网络训练过程中损失函数的变化,并依据其变化情况对基准系统的学习速率和迭代情况进行了必要优化,取得了一定效果;(6)在基准系统的基础上,融合语音的韵律特征,使两个基准系统的识别准确率均得到了一定提升。(本文来源于《北京邮电大学》期刊2018-01-25)
马啸空,郭武[6](2016)在《采用音素分类的因子分析说话人识别方法》一文中研究指出提出一种利用深度神经网络和语音学知识进行文本无关的说话人识别的方法.采用深度神经网络(Deep Neural Netw ork,DNN)来进行有监督的因子分析建模方法是目前与文本无关说话人识别的研究热点,在此基础上挖掘了不同的音素对识别性能的影响.首先根据语音学知识对DNN的输出节点进行分类,在说话人建模过程中,根据不同的类别来提取不同的后验因子(i-vectors),然后采用拼接的方式得到一个高维的i-vector用于话者识别.在NIST SRE 2012的核心测试任务上,相对于无监督的全空间变量因子分析与基于DNN的因子分析方法,提出的算法都有不同程度的性能提升.综合来看,超过了目前已知的最佳系统性能.(本文来源于《小型微型计算机系统》期刊2016年09期)
张健,徐杰,包秀国,周若华,颜永红[7](2015)在《应用于语种识别的加权音素对数似然比特征》一文中研究指出语种识别的关键问题之一是提取语音信号中的语种鉴别性信息。在最近的研究中,一个名为音素对数似然比(phone log-likelihood ratio,PLLR)的新特征引入了语种识别领域,表现出了非常优秀的性能。在本文中,我们利用F比方法分析了PLLR特征向量各维的语种鉴别性大小,提出了加权音素对数似然比(weighted PLLR,WPLLR)特征,赋予PLLR特征中含有较多语种鉴别性信息的分量较高的权重。在美国国家标准技术署2007年语种识别测试集上的实验显示,相比于原PLLR特征,本文所提WPLLR特征在平均检测代价和等错率两个指标上都取得了显着的降低。(本文来源于《第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集》期刊2015-10-25)
马源[8](2014)在《深度神经网络音素识别系统及其隐藏层研究》一文中研究指出经过近半个世纪的积累和酝酿,语音识别技术在最近几年达到了大规模商业应用水平。而最近五年来,深度神经网络(Deep Neural Network,DNN)的出现给语音识别带来了新的突破。尽管深度神经网络在语音领域取得了巨大的成功,但其内在的机制及原理目前仍不清楚。本研究通过初步探索深度神经网络的隐藏层的功能与作用来研究这一问题,探索深度神经网络隐藏层与语音生成感知机理(音素的发音位置)之间的关系。本工作首先分别构建了汉语、英语、日语叁种语言的深度神经网络音素识别系统,为了后续实验有可对比性,叁个网络的结构配置均相同,采用目前同用的7层,2048节点/层的结构。根据数据库的可靠程度,选取英语和日语的深度神经网络进行隐藏层研究。由于神经网络的某一隐藏层无法被单独研究,所以本研究采用去掉一层或替换一层的方法,通过识别结果的变化,来反推被去层或被换层的作用。我们分别对英语和日语进行了去层实验,并用日语网络隐藏层对应替换英语隐藏层进行了换层实验。从分析结果可以看出,神经网络的不同隐藏层主要负责的音素可以大致按照发音位置进行分类:较低层主要负责后元音,较高层主要负责前元音;神经网络的第二层对发音约束位置靠前的辅音更敏感,而其余的辅音更依赖中间层。换层实验说明上述结论在不同的语言间存在共通性。本工作作为对深度神经网络隐藏层的初步研究,只是作了简单的定性分析,在同类领域中,本研究提出一种新颖的方法来分析神经网络的隐藏层,第一次将研究重点放在深度神经网络的每一隐藏层上;第一次将人的发音机理加入深度神经网络,并通过实验方法探索两者间的关系。要想探究DNN表征机制,其内部隐藏层的功能,还需要未来的进一步研究。(本文来源于《天津大学》期刊2014-12-01)
王一,杨俊安,刘辉,柳林,卢高[9](2014)在《一种基于层次结构深度信念网络的音素识别方法》一文中研究指出针对现有音素识别系统识别准确率不高、建模方法表征能力不强且易陷入局部最优解等问题,提出了一种基于层次结构深度信念网络(deep belief network,DBN)的音素识别新方法.该方法由基于层次结构DBN的瓶颈特征以及基于DBN的音素分类器两部分组成:其中的瓶颈特征能够充分利用DBN能够处理长时段语音、监督性的提取方法等特性;而基于DBN的音素分类器则具有更强的建模和表征能力.因此,将两者结合在一起能够在提取低维、监督性特征的同时,利用DBN更加有效地对音素后验概率进行识别.在TIMIT数据库上进行的实验结果表明,所提出的音素识别方法在识别正确率上相对于以往音素识别系统有较大提高.(本文来源于《应用科学学报》期刊2014年05期)
吴蔚澜,张卫强,刘巍巍,田垚,陈振锋[10](2014)在《说话人识别中基于音素分类的数据选择方法》一文中研究指出在说话人识别中,有效语音数据的选择是一个重要的预处理环节.常用的数据选择方法根据能量信息的强弱对有效数据进行提取,但在实际情况中能量的高低与语音数据并无必然联系.本文在对传统方法进行分析比较的同时引入语言学知识,提出基于辅音信息的有效数据选择方法.该方法通过对活动语音检测结果中音素识别结果进行分析,保留所有元音,对辅音进行筛选,去除无益于说话人识别的干扰辅音音素,从而实现对有效语音数据的选取.实验表明,应用该方法得到的说话人识别结果,明显优于传统的基于能量的数据选择算法,如基于G.723.1标准的活动语音检测算法和近期提出的基于交叉熵顺序统计滤波的端点检测算法.(本文来源于《中国科学院大学学报》期刊2014年05期)
音素识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为提高连续语音识别中的音素识别率,提出一种基于改进并行回火训练的受限波尔兹曼机的音素识别算法。首先,利用经过等能量划分后的改进并行回火算法来训练受限玻尔兹曼机,接着将受限玻尔兹曼机堆迭组成一个深信度网络,从而作为深度神经网络预训练的基础模型,然后通过softmax层输出,得到用于音素状态后验概率检测的深度神经网络。接着,利用少量的标签数据,根据反向传播算法对网络权重进行微调。最后,将所得后验概率作为隐马尔科夫的发射概率,然后利用Viterbi解码器实现音素识别。在TIMIT语料库上的实验表明,识别率相比于传统的对比散度类算法提高了约4.5%,在不增加计算量的情况下比原始并行回火算法提高约1%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
音素识别论文参考文献
[1].贾兵兵.基于深度学习的音素特征识别研究[D].陕西师范大学.2019
[2].阴法明,赵焱,赵力.连续音素的改进深信度网络的识别算法[J].应用声学.2019
[3].刘琳.大学非英语专业音素教改与自动语音识别技术融合应用可行性[J].课程教育研究.2018
[4].刘琳.大学非英语专业音素教改与自动语音识别技术融合应用可行性[J].课程教育研究.2018
[5].许斐.音素识别机制的设计与实施[D].北京邮电大学.2018
[6].马啸空,郭武.采用音素分类的因子分析说话人识别方法[J].小型微型计算机系统.2016
[7].张健,徐杰,包秀国,周若华,颜永红.应用于语种识别的加权音素对数似然比特征[C].第十叁届全国人机语音通讯学术会议(NCMMSC2015)论文集.2015
[8].马源.深度神经网络音素识别系统及其隐藏层研究[D].天津大学.2014
[9].王一,杨俊安,刘辉,柳林,卢高.一种基于层次结构深度信念网络的音素识别方法[J].应用科学学报.2014
[10].吴蔚澜,张卫强,刘巍巍,田垚,陈振锋.说话人识别中基于音素分类的数据选择方法[J].中国科学院大学学报.2014