导读:本文包含了汉语语音识别论文开题报告文献综述及选题提纲参考文献,主要关键词:语音识别,字节对编码,CTC,Transformer
汉语语音识别论文文献综述
栾效阳[1](2019)在《基于BPE和Transformer的汉语语音识别技术研究》一文中研究指出语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的每一帧进行标注。BPE算法通过迭代地合并文本中出现最频繁的单元并将其添加到子词单元集合中,自动地学习和发现识别单元的最佳集合,也能自动地学习分解目标序列的最合适的方式。另外,本文利用Transformer网络实现了从声学模型输出的音节序列到文字的解码过程。相比n-gram模型,Transformer网络更容易捕获句子中长距离的相互依赖的特征,这样能充分利用语境信息,在音字转换中发挥更大优势。经过实验对比,改进的语言模型系统性能得到提升。而且相比循环神经网络(Recurrent Neural Network,RNN),Transformer对于增加计算的并行性也有直接作用,适合语言模型建模任务。基于BPE的声学建模和基于Transformer的语言模型建模技术结合起来,在汉语识别准确率上性能有了明显的提升。(本文来源于《哈尔滨工业大学》期刊2019-06-01)
龙天洋[2](2018)在《HHT时频分析方法在汉语语音整体识别中的应用研究》一文中研究指出以傅立叶变换理论为基础的常用时频分析方法继承了傅立叶分析方法在处理非平稳非线性信号时的不足,比如Radon变换、小波变换只适用于调频信号和自相似信号的处理;Wigner-Ville分布总是会受到交叉项的影响;STFT和Gabor变换适用于具有短时平稳特性的信号。此外,这些传统的时频分析方法自适应性较差,根据Heisenberg不确定原理,其时域分辨率和频域分辨率往往不能同时达到较高的程度。Huang等提出的HHT方法以其自适应性良好并且能够精确地描述出非平稳信号频率随时间的变化规律的优点,得到了广泛的关注和应用。HHT时频分析方法包括经验模态分解(EMD)和希尔伯特谱分析(HSA)两个步骤。其中,EMD过程首先自适应地把待处理信号分解为一系列有限个数的特征模态函数(IMF),这使得在接下来的HSA中用到的瞬时频率的概念具有实际物理意义;HSA把信号的能量表示在时频联合平面上,在每一个具体时刻和瞬时频率都有确定的信号函数幅值,精度比傅立叶语谱图更高。语音信号是典型的非平稳信号,结合HHT方法的优势特点,本文提出一种基于HHT方法的特征提取算法,用于汉语语音信号的特征提取和分类识别。首先,应用EMD算法对汉语语音信号进行处理;然后从全部IMF分量中选取前两个进行希尔伯特谱分析,得到汉语语音信号的Hilbert语谱图;我们把所得到的各个汉语语音信号的Hilbert语谱图作为其各自语音信号的可视化表达,从Hilbert语谱图的图像矩阵中提取特征向量;最后对所获取的特征向量的识别能力进行统计分析和方差检验,并应用C-SVC二分类支持向量机模型对汉语语音信号进行分类预测。实验结果表明本文所提出的方法是有效的并且在小词汇库内具有相当的稳定性:24个汉语拼音韵母的识别率可达90%以上;10个二字汉语词汇的识别率可达98%以上;40个二字汉语词汇的识别率可达94%以上。另外,实验显示在对语音信号迭加噪声的情况下,本文给出的方法仍能够保持较高的识别率,具备一定抗噪能力。(本文来源于《东北师范大学》期刊2018-05-01)
王扬[3](2017)在《汉语语音关键词识别算法的研究与实现》一文中研究指出移动互联的快速发展带来最大的好处是信息交流的便捷,而随着信息交流的便捷产生了信息沟通方式的改变,信息交流从最初的文字图形等逐渐向语音视频等多媒体的形式多元化发展,因此,语音视频等多媒体中的音频关键信息识别技术显得尤为重要。本文在对汉语语音关键词识别技术的发展现状、主要技术和所面临的关键问题研究的基础上,针对有监督和无监督的两种识别算法分别进行了实现和性能对比分析,并提出了一种改进算法,保证识别率不变的同时有效的提高了识别效率。本文研究依托于相关科技研究项目中的社交系统模块,重点在于对汉语语音关键词识别算法的研究与实现,以及算法各环节所涉及到技术的对比分析及应用,主要研究工作包括:(1)对基于补白模型的有监督关键词识别算法进行了研究与实现,采用了半监督的模型训练方法,充分利用了未经标注的原始语音提高声学模型性能,对比分析了补白模型数量对于算法性能的影响,并通过训练具有抗噪性能的声学模型和CMS相结合的方法有效的改善了算法的抗噪性能。(2)针对有监督的识别算法不能解决少资源语言识别问题的缺点,对基于SLN-DTW的无监督关键词识别算法进行了研究与实现,对比了基础模板数量对于算法识别性能的影响,改进了模板融合方法,相比于传统得分融合的方式,降低了识别过程的时间开销,并对比分析了有监督和无监督算法的基础数据依赖性。(3)针对有监督和无监督识别算法均存在时间复杂度随语音长度线性增长的缺点,在无监督识别算法的基础上,从效率提升的角度,提出了一种基于语段特征和Syllable based-DTW的快速关键词识别算法,由更低维度的短时谱特征均值化后表示每个音素段构成语段特征,结合改进的Syllable based-DTW匹配方法实现关键词候选区域的快速提取,对关键词候选区域根据匹配得分建立优先队列后实现关键词识别。并采用多进程并发结合共享内存的结构实现了关键词识别系统自动化处理。通过多组实验对比证明了本文提出的改进算法能够在保证关键词识别性能的同时有效的减少识别时间,提高识别效率。(本文来源于《武汉理工大学》期刊2017-04-01)
杨阳[4](2016)在《基于HMM和BP神经网络的汉语语音识别系统研究》一文中研究指出近年来,语音识别技术在渐渐改变人们的生活和工作方式,可以用来消除人类之间交流的障碍,也能够极大地提升人机交互的能力。日前,DTW、隐马尔可夫和神经网络等方法都可以用来实现非特定人的语音识别。本文对隐马尔科夫模型(HMM)和BP神经网络算法进行了深入地研究,结合隐马尔可夫模型较好的时序建模能力和BP神经网络技术强大的分类能力,提出了 HMM和BP神经网络混合模型的语音识别方法,使用MATLAB编程来实现算法。将混合模型与传统的隐马尔可夫和BP神经网络模型进行分析和对比,实验结果说明混合模型应用于非特定人汉语语音识别能够有效地提高语音识别率,并具有一定的抗噪性。本文围绕非特定人领域的汉语语音识别展开了研究,论文的主要研究内容包括:(1)研究并分析了语音识别的发展历史和国内外语音识别技术研究现状,深入学习语音识别的基本原理。(2)研究了语音信号预处理的全过程,包含对原始语音信号的采集、去噪处理、预加重、分帧加窗和端点检测,分析了语音信号不同的特征参数,选取美尔频率倒谱系数(MFCC)作为本文所用特征参数。(3)介绍了隐马尔科夫模型叁个基本问题及其求解算法,在语音识别中的应用,并分析了其所存在的问题和不足。(4)研究了 BP神经网络模型的原理和基本结构,以及其在语音识别中的应用,分析了算法在语音识别应用中的优缺点。(5)设计了隐马尔科夫模型和BP神经网络模型相结合的混合模型,有效地解决传统模型中BP神经网络收敛速度慢,HMM相似词容易混淆的缺陷,完成并实现非特定人汉语语音的识别。(本文来源于《东北大学》期刊2016-12-01)
银珠[5](2015)在《百度汉语语音识别获重大突破》一文中研究指出近日,中国人机语音交互领域最权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)在天津举办。会上,百度语音技术部负责人贾磊分享了百度近期在汉语语音识别方面获得的重大突破。该技术能够使机器的语音识别相对错误率降低15%以上,识别准确率接近97%。此项技术将在百度语音搜索产品上上线。百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传(本文来源于《计算机与网络》期刊2015年20期)
曹鹏霞[6](2015)在《基于HMM和人工神经网络混合模型的汉语语音情感识别》一文中研究指出随着人机交互技术的发展,语音的情感识别已经逐渐成为模式识别领域研究的热点之一。随着研究的不断深入,当单独使用HMM和人工神经网络来对语音情感状态进行分类识别时,效果并不是很理想。本文将HMM和人工神经网络两种算法进行融合,取长补短,形成新的混合模型,进而提高系统的识别率。该识别技术在服务机器人、语音自动应答系统等方面具有应用价值。本文对语音情感识别的发展现状进行了分析,对汉语语音情感识别的问题进行了深入的研究。首先,针对目前汉语语音情感识别在建立汉语语音情感数据库时存在很多困难的问题,对语音情感的基础理论以及建立汉语语音情感数据库的原则进行了详细的阐述。然后,为了减少语音信号本身对识别效果的影响,提出了基于GA-SVM的语音端点检测方法并对汉语语音的情感特征进行了统计分析,形成了一个30维的特征向量。针对目前单一的HMM和人工神经网络模型存在的缺陷,提出了将HMM和人工神经网络混合模型应用于汉语语音情感状态的分类识别。该模型首先由HMM产生情感语音信号的最佳状态序列,然后利用时间规整算法对同一状态的特征参数进行规整得到等维的特征向量,并将它作为人工神经网络的输入进行语音情感状态识别。该算法充分利用了HMM极强的动态时序建模能力以及人工神经网络强大的分类能力。最后,以Matlab2012a为工作平台进行编程仿真。实现了HMM和人工神经网络两种模型的结合。并将混合模型分别与HMM和人工神经网络模型进行对比。实验结果表明,HMM和人工神经网络混合模型提高了汉语语音情感识别系统的识别准确率。此外,混合模型在不同信噪比的条件下也体现出了它的优势。(本文来源于《湖南师范大学》期刊2015-05-01)
叶勇[7](2015)在《汉语语音识别系统中关键词检测技术的研究》一文中研究指出语音识别技术是实现计算机与人之间进行语言交流的关键技术之一,语音识别技术在交互方面具有极高的应用价值。随着关键词检测、语音合成、声纹识别等技术的进步,人们对语音技术的需求逐渐加深,语音识别产品正在走进我们的工作生活,逐渐深入到各个领域。本文主要是对汉语语音识别系统中关键词技术进行研究,通过两类不同的实际应用场景对关键词检测技术进行验证,主要的工作成果如下:1、针对智能电话客服的应用深入研究了基于垃圾模型(Garbage Model)关键词检测技术。完成了端点检测技术的改进、垃圾语料建模选取、以及确定垃圾模型和关键词模型网络权重值,再此基础上与人合作实现了关键词检测引擎,通过对接国内某电脑生产商维修预约客服电话系统,实现对关键词检测技术的验证,该系统中典型的关键词有硬盘问题、开机故障、系统崩溃等。通过话术引导、合理增加关键词长度或者合并关键词显着提高关键词检出率。2、面向语音文档检索应用需求,系统研究了基于音节网络(Syllable)的关键词检测技术,完成了对保险业和旅游业的的声学模型的训练,引入语言学知识提高关键词识别效果。借助保险业和旅游业的客服录音记录进行测试表明:可依据预先设定的关键词实现语音文档检索功能。(本文来源于《北京邮电大学》期刊2015-01-01)
宋瑞[8](2014)在《基于声学特征分析的汉语语音情绪识别系统》一文中研究指出语音是人与人之间最基本、最有效、最重要的信息传递形式。在信息化社会高度发展的今天,怎样利用好语音信息是一个至关重要、蕴含着无限价值的课题。几十年来,国内外的语音识别、说话人识别、语音合成等领域进行了相当多的研究和尝试,并取得了很多的实质性进展,切实地改变了每个人的生活。而针对包含在语音信号中的情绪信息的分析研究却相对来说建树不多。情绪信息是语音中非常重要的一种信息资源。与以识别出说话人内容为目的的语音识别技术不同,情绪识别技术关注的是说话人的说话方式,是更深层次的潜藏在表面语句中的语气和态度,可以认为是语音信号中的高阶信息。实际上,在人与人通过说话交流的过程中,完全相同的两句话,可能会因为说话人的情绪不同,造成语音的语调、振幅或者说话重音不同,继而承载表现出完全不同的意思。然而,在传统的语音识别领域,情绪信息被当作是个体之间的差异性丢掉了,因此损失了非常有价值的信息。本文主要研究基于声学特征的语音情绪自动识别系统的设计与实现。主要介绍内容包括:情绪识别领域的背景和前人工作、发声系统和汉语语音学基本知识、声学特征的提取算法、情绪特征的选取和降维、模式识别的模型选择、整个系统架构设计和模块介绍、以及最后的系统测试。本文对情绪识别领域进行了较深入的研究,并完成了对系统的设计和实现,达到了较好的识别效果,对今后对该领域的研究有一定参考价值。(本文来源于《北京邮电大学》期刊2014-12-30)
祝嘉声[9](2014)在《基于DNN的汉语语音识别声学模型的研究》一文中研究指出在传统的语音识别声学模型建模方法中,高斯混合模型(Guasian mixture model,GMM)一直占主导地位。然而,在实际应用场景中,汉语连续语音识别系统的识别效果并不理想。另一方面,人工神经网络在早期也用于声学模型建模,但在实际应用中其效果不及高斯混合模型。深度学习是近年来受到研究学者广泛关注的新兴机器学习技术,该技术主要探讨深度神经网络(Deep neural network,DNN)的建模与学习问题,对复杂问题具有很强的建模能力。深度神经网络指的是具有多层隐藏层的表示非线性关系的神经网络结构,该结构已被成功应用到与语音,文本和图像数据相关的问题。本课题首先结合叁元文法语言模型建立了一个上下文相关的高斯混合模型——隐马尔可夫模型汉语连续语音识别基准系统,重点分析了模型训练过程中涉及的相关问题。另外本文还构建了两个使用了深度神经网络的汉语连续语音识别系统。其中一个系统基于深度神经网络——隐马尔可夫模型结构,在该系统中,使用深度神经网络描述给定语音信号观测特征时隐马尔可夫模型中不可观测状态的分布模型。在训练该系统的声学模型时,利用一种迭代贪婪训练算法进行训练,使用该算法能利用大量的无标签训练语料,并且可以使用预处理方法初始化深度神经网络中的权重,以帮助目标函数的优化,降低泛化误差。另外一个为基于深度神经网络的Tandem语音识别系统,该技术利用深度神经网络对语音数据作特征提取,并将新的特征向量作为汉语连续语音识别系统的输入特征向量。实验结果显示,基于深度神经网络的语音识别系统取得了较好的识别率,优于传统的依赖于上下文相关技术的GMM-HMM模型,但同时训练时间也相应增加。深度神经网络可以利用连续多帧的高维语音特征向量及语音数据的内在模式进一步提高识别率。(本文来源于《哈尔滨工业大学》期刊2014-12-01)
白俊贤,米川[10](2014)在《基于声韵母的汉语语音识别》一文中研究指出随着大词汇量连续语音识别技术的发展,越来越多的研究人员选取声韵母作为识别单元。在基于声韵母的汉语连续语音识别中,声韵母基元的准确分割是非常重要的一步。结合汉语发音声学特性,提出了基于声母分割方法和基于段间距离方法相结合的策略。实验结果表明:该方法达到了准确分割的目的。(本文来源于《通信电源技术》期刊2014年06期)
汉语语音识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
以傅立叶变换理论为基础的常用时频分析方法继承了傅立叶分析方法在处理非平稳非线性信号时的不足,比如Radon变换、小波变换只适用于调频信号和自相似信号的处理;Wigner-Ville分布总是会受到交叉项的影响;STFT和Gabor变换适用于具有短时平稳特性的信号。此外,这些传统的时频分析方法自适应性较差,根据Heisenberg不确定原理,其时域分辨率和频域分辨率往往不能同时达到较高的程度。Huang等提出的HHT方法以其自适应性良好并且能够精确地描述出非平稳信号频率随时间的变化规律的优点,得到了广泛的关注和应用。HHT时频分析方法包括经验模态分解(EMD)和希尔伯特谱分析(HSA)两个步骤。其中,EMD过程首先自适应地把待处理信号分解为一系列有限个数的特征模态函数(IMF),这使得在接下来的HSA中用到的瞬时频率的概念具有实际物理意义;HSA把信号的能量表示在时频联合平面上,在每一个具体时刻和瞬时频率都有确定的信号函数幅值,精度比傅立叶语谱图更高。语音信号是典型的非平稳信号,结合HHT方法的优势特点,本文提出一种基于HHT方法的特征提取算法,用于汉语语音信号的特征提取和分类识别。首先,应用EMD算法对汉语语音信号进行处理;然后从全部IMF分量中选取前两个进行希尔伯特谱分析,得到汉语语音信号的Hilbert语谱图;我们把所得到的各个汉语语音信号的Hilbert语谱图作为其各自语音信号的可视化表达,从Hilbert语谱图的图像矩阵中提取特征向量;最后对所获取的特征向量的识别能力进行统计分析和方差检验,并应用C-SVC二分类支持向量机模型对汉语语音信号进行分类预测。实验结果表明本文所提出的方法是有效的并且在小词汇库内具有相当的稳定性:24个汉语拼音韵母的识别率可达90%以上;10个二字汉语词汇的识别率可达98%以上;40个二字汉语词汇的识别率可达94%以上。另外,实验显示在对语音信号迭加噪声的情况下,本文给出的方法仍能够保持较高的识别率,具备一定抗噪能力。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
汉语语音识别论文参考文献
[1].栾效阳.基于BPE和Transformer的汉语语音识别技术研究[D].哈尔滨工业大学.2019
[2].龙天洋.HHT时频分析方法在汉语语音整体识别中的应用研究[D].东北师范大学.2018
[3].王扬.汉语语音关键词识别算法的研究与实现[D].武汉理工大学.2017
[4].杨阳.基于HMM和BP神经网络的汉语语音识别系统研究[D].东北大学.2016
[5].银珠.百度汉语语音识别获重大突破[J].计算机与网络.2015
[6].曹鹏霞.基于HMM和人工神经网络混合模型的汉语语音情感识别[D].湖南师范大学.2015
[7].叶勇.汉语语音识别系统中关键词检测技术的研究[D].北京邮电大学.2015
[8].宋瑞.基于声学特征分析的汉语语音情绪识别系统[D].北京邮电大学.2014
[9].祝嘉声.基于DNN的汉语语音识别声学模型的研究[D].哈尔滨工业大学.2014
[10].白俊贤,米川.基于声韵母的汉语语音识别[J].通信电源技术.2014
标签:语音识别; 字节对编码; CTC; Transformer;