一、汉语文语转换系统中可训练韵律模型的研究(论文文献综述)
刘英男[1](2020)在《基于深度学习的梅尔声谱图预测方法的TTS实现》文中研究指明语音合成是通过机械的、电子的等方式产生人造语音的技术,在当今人工智能发展的浪潮中又表现出了新的高度。在语音合成的三个层次中,文语转换(Text-To-Speech,TTS)是现代主要发展研究的方向,其主要是采用文本文字叙述的表达方式通过一系列方法产生人类发出的声音。波形拼接法与统计参数法是两个在该领域比较流行的合成方法。这些方法都存在工作量大,合成的语音自然度低等缺陷。本论文围绕基于深度学习方法的预测语音合成所需的中间声学特征,旨在研究高效且生成语音质量较好的技术算法,后采用声码器的形式构建完整的合成系统。该TTS系统包含两个主要模块:文本到声学特征的预测模型块和将声学特征转换为语音的声码器模块。在TTS前端根据文本文字预测其对应的声学特征的研究中,本文以序列到序列(Sequence to Sequence,Seq2Seq)的深度学习网络模型为基础,采用更低层次的梅尔声谱图作为声学特征的表达形式,简化了Tacotron利用端到端模型预测生成梅尔声谱图的网络模型,利用卷积神经网络(Convolutional Neural Network,CNN)、注意力机制和循环神经网络(Recurrent Neural Network,RNN)的网络堆叠形式,在简化模型结构的同时,也将文字、词语、韵律等声学特征信息融合在一起,丰富了合成语音的细节。将前端预测生成的梅尔声谱图恢复成为语音时域波形的研究中,本文采用了WaveNet模型作为还原语音所需的后端声码器。因其自回归的深层网络的生成特性,预测速度慢,无法成为实时的语音合成工具被广为诟病,后又采用基于逆自回归流的并行WaveNet技术,其改进的独特之处是可以将声学特征快速转换为对应的语音时域波形,达到了实时的水准,提高了模型训练与加载的效率,输出语音的自然度更高。
王天琦[2](2019)在《基于IPv6的TTS语音云服务应用的研究与实现》文中研究说明近年来,随着物联网、云计算、大数据等技术的发展,TTS语音合成技术得到了广泛的应用,越来越多的人感受到了 TTS语音合成技术给人们带来的便利,基于IPv6协议下TTS语音云服务应用,也成为了人们对于跨平台TTS语音传输流音频标准的完善,响应时间效率的提高,IPv6协议下应用的扩展等的新的需求。因此,系统结合国内外研究现状,利用现有的成熟的TTS语音技术,开发了一套基于IPv6的TTS语音云服务系统,通过IPv6传输协议将其部署到云服务器上实现并行计算,对现有TTS服务涉及的问题进行研究,利用云服务机制在IPv6协议环境下通过相关线程池技术来解决作业调度的转换效率问题,通过测试页面展示达到的具体效果,可以满足用户对TTS语音服务页面播放的需求,为实现IPv6环境下为用户提供TTS云服务的推广做出贡献。本文主要对基于IPv6的TTS语音云服务系统进行了研究和设计实现,系统分为客户端和服务器端两个端口。客户端采用B/S的系统架构模式,以适应用户通过浏览器进行网页访问的需求,主要完成页面解析,HTML语言过滤,文本信息提取,在线语音播报等功能;服务器端则主要完成了语音任务和转换服务器在IPv4/IPv6协议下的开发及部署,并经过TTS文语转换技术的比较决定采用基于微软Speech SDK的TTS语音合成技术,以此来实现服务器端接收文本信息,任务分配调度,语音合成等功能。客户端与服务器端分工协作,既保证了系统整体性又提高了用户的体验。文章最后对本次研究开发的系统进行了测试,结果符合预期效果。
祖漪清,高丽,王祖燕,黄维,吴朗[3](2017)在《用语言复制的方法记录濒危语言——锡伯语案例》文中认为作者在文中提出了一种新的濒危语言记录方式——濒危语言的"复制"。语言复制指还原一个语言的全貌。通过技术手段向文语转换系统中输入任意文本后,可以获得这个语言的语音输出,从而实现复制该语言。在濒危语言锡伯语上进行的文语转换研究案例中,我们系统地建立了锡伯语标准口语的音素体系,完成了包括音变预测在内的文语转换系统,实现了将任意锡伯文输入文本转换成合成锡伯语语音。锡伯语的案例说明语言保护工程应该利用现代技术手段进行语言记录。
朱菁[4](2013)在《具有表现力的汉语文语转换》文中认为具有表现力的文语转换系统有着广阔的应用前景。本课题着重于研究韵律和语调对普通话语音表现力的影响以及这两者在汉语语音合成中的应用。其中,韵律特征主要从重音,停顿以及语速三方面进行描述。通常,一句话中着重强调的词语即是重音,语音合成时,重音可以通过增大语音的幅度和提高语音的基频实现控制。停顿则是指词间或句间的间歇,合成时,可以在语音参数的相应位置插入零值实现。语速是指朗读文本的速度,一般由说话者的个人风格以及文本思想内容共同决定,语速的调节分为减慢和加快,减慢是通过在语音参数一定的位置复制粘贴相邻帧的语音参数实现,加快则是通过删除特定帧参数实现。由于汉语是有调语言,所以语调对于汉语的语音合成也具有重要的意义。本课题研究的语调主要是指语句音高的变化,根据音高的不同走势,可将语调分为四种调型:升调,降调,平调以及曲折调。研究时,首先建立有调语音的语音库,然后采用STRAIGHT算法分析有调语音库的基音频率,再用多项式函数对归一化后的语音基频曲线进行拟合,建立每一种调型的基频模型。这里采用了三种方法进行语调建模:均值模型,单高斯模型以及混合高斯模型。通过建立的语调模型可以实现将一种语调转换成另一种语调。本系统中,语音合成模块也是采用STRAIGHT算法,对经过韵律及语调调整后的参数进行拼接合成。从实验结果来看,在汉语文语转换系统中,采用本课题提出的方法加入韵律和语调控制模块,可以灵活地调节语音的韵律特征,实现语调之间的转换,合成出的声音自然度较高,语音质量较好,明显地增强了语音的表现力。
傅雪[5](2011)在《基于SOM网络的语音基频模式提取研究》文中指出随着社会的发展,计算机与人们的生活已密不可分,如何才能方便地与计算机进行交流成为人们需要解决的一个重要问题。语言是人类最方便的交流方式,因此人们希望能够采用语言与计算机直接进行交流,也就是实现人机之间真正的语声通讯。作为这一要求的计算机自然语言输出部分,文语转换系统近几年来发展的非常迅速,涌现出了大量的新技术。韵律模型在文语转换系统中是必不可少的。它将文本分析和语音生成联系起来,起着一个重要的桥梁作用。好的韵律模型,使之能够更加贴近自然语言中的各种韵律现象,是高自然度文语转换系统中的重要组成部分。而基频模式的提取是研究韵律规则的基础。因此,本文对如何提取基频模式进行了深入的研究。主要研究成果如下:1.为了获取用于聚类的基频序列,对语音数据进行了一系列的预处理工作,有音节切分、基频标注、长度规整、滑动平均和零均值化等工作。2.研究了两种常用的聚类算法:K均值法和ISODATA法。在此基础上,考虑到SOM网络独特的无监督、自组织和本身具有的聚类功能,提出采用SOM算法作为基频模式提取的聚类算法,克服了其他算法的一些不足之处。3.以一个特定语音库作为实验数据,用SOM算法对预处理后的基频序列聚类,得到15种典型的基频模式,并给出相应的基频曲线。在提取基频模式后,需要通过决策树的方法挖掘出具体的韵律规则,来指导语音的合成。这将是下一步要进行的工作。
梁青青[6](2010)在《兰州方言的声学特征分析和语音合成的研究》文中研究指明语音是人们交互最为方便快捷的方式,人们的语音交流中也夹杂了丰富的方言。因此,方言的转换与合成不但能够提高人机语音交互的和谐性和多样性,而且也能够提高人机对话过程的效率,成为了人机交互领域的一个重要研究课题。为了实现方言语音的转换,需要建立方言语音的韵律模型。本文建立了兰州方言语料库,对比分析了普通话和兰州方言的声学特征差异,建立了普通话到兰州方言转换的韵律模型,实现了普通话到兰州方言的转换和兰州方言的语音合成。论文工作对于揭示普通话与兰州方言之间的联系与区别、实现方言语音的合成具有重要的理论意义和应用价值。论文的主要工作和创新如下:1、设计了兰州方言的语料库。通过分析对比普通话和兰州方言的声、韵、调特点,结合《方言调查字表》设计了科学的文本语料库,并录制了普通话和兰州方言金城片平行的语音语料库,对语料库进行了细致的切分和韵律标注。该语料库包含:单音节字1280个,二字组词2000个,语句500句,负载句18句。其中,单音节字涵盖了四个声调的所有声韵母搭配;二字组词由四个声调以及轻声的20种组合;语句包含了兰州方言常用口语和摘录自人民日报的语句;负载句为“X说X这个X”。2、对普通话和兰州方言进行了声学特征对比分析。通过标注的基频和韵律边界,分析对比了普通话和兰州方言的单字、二字组、语句的基频和时长关系,利用模型分析法对比了模型参数的变化,对于时长,得到不同声调的时长和不同停顿级别的停顿时长关系,对比了二者的频谱质心和元音三角形。通过实验验证了普通话和兰州方言的声调调值规律和时长关系,找出了二者转换的规律。3、提出了基于五度字调模型的方言转换方法。利用五度字调模型产生兰州方言的基频曲线,通过修改普通话的基频曲线和时长,实现了普通话到兰州方言的转换。利用五度字调模型建立了单字和双字基频模型,并建立了基频补偿模型,实现基频的映射;利用统计方法建立了时长和停顿时长模型。实验结果表明,单字和双字转换的MOS评测得分在4.5分以上,语句的得分也在3.5分以上。4、利用单字拼接的方法实现了兰州方言的语音合成。利用SVR算法对语句的基频进行回归预测,得到在连续语句中不同语境下字的基频关键点和时长,利用该预测结果对单字拼接的语音进行基频和时长修正,得到较为自然的拼接合成的兰州方言。MOS评测结果为3.6,表明合成结果具有较高的自然度。
周涛[7](2010)在《中文语音合成系统中的文本正则化和韵律结构预测方法的研究》文中认为随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。TTS (Text-To-Speech)中文语音合成技术,又称为文语转换技术,是将文本转换成为语音的一项核心CTI技术。可以通过输入文本,让计算机像人一样说出具有高自然度和智能的语音。这项技术已经被广泛应用于电信服务,嵌入式移动设备和娱乐增值服务等各个方面。对合成系统输出语音音质的评价是多方面的,但是主要体现在输出语音的可懂度和自然度上。当前,TTS系统的输出语音的可懂度主要体现在前端文本处理的模块上,现在技术已经达到了不错的水平,但是在处理中文文本的非标准词上还有所欠缺,尤其是阿拉伯数字串,各种非标准符号等。而语音的自然度则重点体现在韵律结构预测模块中,当前中文语音合成输出语音的整体自然度方面还有待提高,其根本问题就是不能对自然语流中的韵律进行有效的模拟。韵律处理的研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律建模。本文主要研究了中文语音合成系统前端的文本正则化模块和韵律结构预测模块,希望通过对以上两个模块的研究与改进来提高合成语音的可懂度和自然度。TTS系统的输入是无限制的文本,从文本中只确定读音是远远不够的。为了提高语音的可懂度和自然度,还需要从文本中提取更多的与文本和韵律相关的信息。研究表明,TTS系统如果能够对各种非标准词作出正确的识别,将对合成语音的可懂度有很大的帮助;同时,引入韵律层级结构可以显着提高合成语音的质量,特别是合成语音的自然度。如何提高文本正则化和韵律结构预测的正确率是本文研究的重点。本文从中文语言的特点出发,分析和研究了中文文本中经常出现的非标准词,对其中的日期、电话号码、机构名称以及网络用语等进行了分析归类,对这些读音不能通过正常拼音规则得到的非标准词的读音生成方式进行了重点研究。对传统的中文文本正则化的方法进行了总数和比较,指出了传统中文文本正则化方法的优缺点,然后重点研究了基于最大熵模型的文本正则化方法,并应用于实际的中文语音合成系统中。同时,本文从汉语的声学特点和韵律特征出发,分析和研究了汉语的韵律特征、停顿、重音以及韵律边界之间的关系,分析并对比了汉语韵律层级结构,同时分析了韵律边界的声学特征。对传统的韵律结构预测的方法进行了综述和比较,指出传统韵律结构预测方法的优缺点,然后重点研究了基于条件随机场模型的韵律结构预测方法,并应用于实际的中文语音合成系统中。在基于最大熵模型的韵律结构预测系统的研究中,在理论上,本文详细阐述了最大熵模型模型的定义,条件分布以及参数估计。在应用上,本文重点研究了最大熵模型的特征模板,并讨论了窗长选取和动态特征的作用等问题。在基于条件随机场的韵律结构预测系统的研究中,理论上,本文详细阐述了条件随机场的定义,条件分布以及参数估计。在应用上,本文重点研究了条件随机场的特征模板,并讨论了窗长的选取,复合特征的作用等问题。并与传统的文本正则化和韵律结构预测方法进行了性能上比较和分析,在性能上有显着的提高。
王亮[8](2010)在《汉语文语转换系统中韵律调节算法的研究与实现》文中研究指明文语转换技术是一种应用广泛的语音技术。目前,以波形合成为基础的文语转换技术已经可以合成清晰度、可懂度较好的语音,然而在合成语音的自然度方面仍需进一步提高。韵律调节是改善合成语音自然度最有效的手段之一。本文的主要工作是围绕汉语文语转换系统的韵律调节技术进行的。本文对相关的算法进行研究,并开发一种汉语普通话文语转换系统。本文首先对韵律理论和汉语的语音特点进行了分析,并对文语转换系统现有的技术路线进行了讨论,并在此基础上提出了一种基于韵律规则的波形合成法。接下来,本文对PSOLA、Fujisaki基频曲线预测算法、音节与停顿时长预测算法等韵律调节的关键算法进行了深入的研究,并在对Fujisaki模型进行部分修改的基础上,提出了一种充分考虑语音库中语音基频特性的语调曲线预测算法,这种方法能够比较准确的模拟句子的语调曲线趋势,同时对合成基元频率特性的修改较小。然后,本文从系统构成的角度介绍了系统中各个模块的功能和设计方案;同时,本文介绍了构建语音库的方法,为了提高合成语音的自然度,本文同时构建了音节语音库和汉语中高频词语音库。最后,本文从程序实现的角度介绍了代码中主要函数的功能和输入输出,并对程序设计时需要考虑的关键问题进行了分析。另外,本文还运用平均意见分的方法对开发的汉语文语转换系统的性能进行了评估,测试结果表明系统合成的语音具有比较好的自然度。
舒昌[9](2009)在《基于AMR-WB的参数语音合成技术》文中研究指明随着计算机技术和信息技术的飞速发展,语音合成技术已成为广大科研工作者关注的热点。线性预测(LPC)参数合成法以其数据率低、复杂度低、成本低、简单直观等特点在语音合成中受到特别的重视。但是由于原有模型所提取的参数过于简单,使得在合成阶段很难得到高质量的合成语音。自适应多速率的宽带语音编码技术(AMR-WB)是一种高品质的数字宽带语音编码系统,采用代数码激励线性预测(ACELP)技术,将传统的200-3400Hz的带宽扩展到50-7000Hz,在参数提取阶段运用闭环和开环相结合的方法计算基音延时,运用自适应码本和固定码本结合的方式还原激励,使合成的语音效果显着提高,该技术为改善LPC参数语音合成效果提供了解决思路。本文在深入研究AMR-WB编解码算法原理的基础上,设计出基于AMR-WB的汉语文语转换实验系统。在参数提取阶段,输入带宽7k、采样频率16kHz、采样精度16位的语音信号,相对于传统LPC算法的输入信号具有更高的语音精度。算法运用闭环搜索和开环搜索相结合的方法来计算基音周期,运用自适应码本和固定码本结合的方式还原激励,弥补传统LPC算法的不足,使合成的语音效果显着提高。为了提高参数提取工作的效率,本文制作了PCM编码转化程序。在合成阶段,根据文语转换系统的需要,考虑汉字和标点符号的输入形式,设计出能够根据控制命令得到女声或男声的输出结果,并用一段空白语音来体现标点符号信息的合成程序。利用MATLAB软件对合成结果进行仿真,结果表明,合成语音很好地体现了语音样本的幅频特性,具有较高的合成质量;通过算法复杂度分析,证明本文所采用的改进算法是符合要求的。因此,AMR-WB作为改善LPC参数语音合成效果的改进算法是切实可行的。
武文娟[10](2009)在《面向机务CBT的一种实用文语转换系统研究》文中研究表明机务CBT开发工具是一种具备一定智能化的多媒体课件制作工具,它以多媒体数据库为支持,使用户可以定制不同风格的多媒体课件。本文研究的文语转换技术作为其中的一部分,以自建的领域专有词汇库和改进的韵律调节方法为基础,提供了将文字信息按照语音处理规则转换为声音信号的功能。该技术在机务CBT工具中的成功应用,扩展了课件的交互性,使人机界面更加人性化。本文研究了语音端点检测的方法,这是在有噪声情况下,对语音音节进行准确切分的基础,也是对基音进行检测及标记的前提。本文提出了一种基于临界带矢量距离的端点检测的新方法,与传统的方法相比,其具有更好的鲁棒性及正确率。本文还研究了一种基于词字库相结合的文语转换方法,与目前只基于字库的文语转换方法不同,此方法以词库为主、字库为辅,之后采用TD—PSOLA算法对输出语音进行韵律调节以提高其自然度。与传统的基于字库及复杂韵律模型的系统相比,基于上述方法实现的文语转换系统,具有实用性好、易于实现的优点,并且在可懂度和自然度方面都达到了实用要求,也为文语转换技术的后续研究奠定了一个良好的基础。
二、汉语文语转换系统中可训练韵律模型的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语文语转换系统中可训练韵律模型的研究(论文提纲范文)
(1)基于深度学习的梅尔声谱图预测方法的TTS实现(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.1.1 课题研究背景 |
1.1.2 研究目的及意义 |
1.2 国内外研究现状与技术应用 |
1.2.1 语音合成技术的发展历史及现状 |
1.2.2 语音合成技术的关键技术及发展方向 |
1.3 本文重难点 |
1.4 本文的组织结构 |
第2章 传统语音合成技术原理及应用 |
2.1 基于波形拼接的语音合成方法 |
2.1.1 文本分析 |
2.1.2 韵律处理 |
2.1.3 TD-PSOLA算法 |
2.2 基于统计参数的语音合成方法 |
2.2.1 基于HMM统计参数的语音合成方法 |
2.2.2 HMM训练模块 |
2.2.3 HMM训练流程 |
2.3 基于深度学习的语音合成方法 |
2.3.1 端到端的语音合成方法-Tacotron |
2.3.2 利用卷积序列学习将文本转化为语音-Deep Voice3 |
2.3.3 快速高保真的语音合成方法-Parallel Wave Net |
2.4 本章小结 |
第3章 基于深度学习的梅尔声谱图预测方法 |
3.1 词向量嵌入 |
3.1.1 连续词袋模型-CBOW |
3.1.2 跳字模型-Skip-gram |
3.2 CNN在自然语言处理中的应用 |
3.3 长短期记忆网络-LSTM |
3.4 编码器-解码器框架 |
3.5 注意力机制 |
3.6 声码器-Wave Net |
3.7 本章小结 |
第4章 TTS算法研究测试数据及性能分析 |
4.1 网络模型参数配置 |
4.1.1 网络模型参数设定及流程 |
4.1.2 研究测试数据及环境 |
4.2 研究测试内容及性能分析项目 |
4.2.1 研究测试内容 |
4.2.2 性能分析项目 |
4.3 实验结果分析 |
4.3.1 主观意见得分MOS |
4.3.2 客观语音质量评估PESQ |
4.3.3 训练与合成时间 |
4.4 本章小结 |
结论 |
参考文献 |
致谢 |
攻读硕士学位期间的学术成果 |
(2)基于IPv6的TTS语音云服务应用的研究与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题研究背景 |
1.2 课题研究背景及意义 |
1.2.1 课题研究背景 |
1.2.2 课题研究意义 |
1.3 国内外研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 论文主要研究内容 |
1.5 论文结构安排 |
第二章 相关理论与关键技术 |
2.1 TTS文语转换系统 |
2.1.1 文本分析 |
2.1.2 韵律处理 |
2.1.3 声学处理 |
2.2 IPv6下一代互联网协议 |
2.2.1 IPv6地址体系结构 |
2.2.2 IPv6首部 |
2.2.3 ICMPV6 |
2.3 线程池技术 |
2.3.1 线程池的工作流程 |
2.3.2 线程池模式 |
2.4 TTS文语转换系统评测标准 |
2.5 相关工具介绍 |
2.6 本章小结 |
第三章 基于IPv6的TTS文语转换系统模型的研究 |
3.1 IPv4与IPv6网络区别与过渡技术 |
3.1.1 IPv4与IPv6网络区别 |
3.1.2 从IPv4到IPv6的过渡技术 |
3.2 文语转换系统SDK的选择 |
3.2.1 Microsoft Speech SDK |
3.2.2 ISpVoice接口的成员函数 |
3.3 浏览器统一页面播报的设计 |
3.3.1. 页面解析 |
3.3.2. 文本信息的采集 |
3.3.3. 流媒体播放器构建 |
3.4 作业调度模型的构建 |
3.4.1 线程池技术的选择 |
3.4.2 基于线程池模式领导者/追随者模型的改进 |
3.4.3 改进线程池数据结构设计 |
3.5 TTS文语转换数据安全的研究 |
3.5.1 地址访问格式的设定 |
3.5.2 GUID在TTS文语转换系统中的应用 |
3.5.3 服务器安全字的部署 |
3.6 实验过程与分析 |
3.7 本章小结 |
第四章 系统需求分析 |
4.1 系统可行性分析 |
4.1.1 技术可行性分析 |
4.1.2 操作可行性分析 |
4.1.3 经济可行性分析 |
4.2 系统功能性分析 |
4.2.1 任务概述 |
4.2.2 功能概述 |
4.3 系统非功能性需求分析 |
4.3.1 UI设计目标 |
4.3.2 运行设计目标 |
4.4 系统开发环境 |
4.5 本章小结 |
第五章 系统设计与实现 |
5.1 系统设计 |
5.2 系统工作流程 |
5.3 系统实体联系 |
5.4 系统核心功能模块的实现 |
5.4.1 语音转换云服务任务服务器的实现 |
5.4.2 语音转换云服务转换服务器的实现 |
5.4.3 语音转换云服务页面调用的实现 |
5.5 IPv6下的TTS语音云服务系统测试 |
5.5.1 系统功能测试 |
5.5.2 测试结果分析 |
5.6 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历 |
(3)用语言复制的方法记录濒危语言——锡伯语案例(论文提纲范文)
1. 引言 |
1.1 濒危语言研究现状 |
1.2 研究锡伯语缘起工信部项目 |
1.3 锡伯语语言概况及使用现状 |
1.4 锡伯语语音系统开发中遇到的难题及工作调整 |
1.5 文语转换技术对濒危语言处理的意义 |
2. 语言复制在锡伯语上的尝试——锡伯语文语转换系统的建立 |
2.1 录音脚本设计及录音 |
2.2 语音数据标注 |
2.3 锡伯语文本分析 |
2.3.1 文本规整 |
2.3.2 字音转换 |
2.3.3 基本韵律分析 |
2.4 锡伯语语音合成声学模型训练 |
2.5 锡伯语文语转换系统集成及评测 |
3. 语言复制的概念及其实现框架 |
3.1 语言复制的概念 |
3.2 语言复制的实现框架 |
4. 讨论 |
4.1 濒危语言处理的困境 |
4.2 有文字的濒危语言处理 |
4.3 没有文字的濒危语言处理 |
4.4 口语和书面语的区别问题 |
(4)具有表现力的汉语文语转换(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 文语转换 |
1.2 文语转换的意义及应用 |
1.3 国内外研究概况 |
1.4 课题的主要研究内容 |
1.5 论文的结构安排 |
第二章 文语转换基础理论 |
2.1 语音信号基础知识 |
2.1.1 语音信号的产生 |
2.1.2 语音的个性特征 |
2.2 文语转换基本原理 |
2.2.1 文语转换系统组成 |
2.2.2 文语系统各模块分析 |
2.3 GMM 模型 |
2.3.1 GMM 模型的基本概念 |
2.3.2 GMM 模型的训练方法 |
2.4 STRAIGHT 语音分析合成算法 |
2.4.1 去除周期影响的谱估计 |
2.4.2 精确的基频轨迹提取 |
2.4.3 语音重构 |
2.5 文语转换的评价标准 |
2.5.1 主观评价标准 |
2.5.2 客观评价标准 |
第三章 具有表现力的文语转换系统的实现 |
3.1 系统总体设计 |
3.2 语音库 |
3.3 文本分析 |
3.4 韵律分析 |
3.4.1 重音分析 |
3.4.2 停顿分析 |
3.4.3 语速分析 |
3.5 韵律转换 |
3.5.1 重音转换 |
3.5.2 停顿转换 |
3.5.3 语速转换 |
3.6 语调分析 |
3.7 语调转换 |
3.7.1 均值模型(MM) |
3.7.2 单高斯模型(SGM) |
3.7.3 高斯混合模型(GMM) |
3.8 语音合成模块 |
第四章 实验结果与分析 |
4.1 总体框架 |
4.2 韵律转换结果分析 |
4.2.1 重音 |
4.2.2 停顿 |
4.2.3 语速 |
4.3 语调转换结果分析 |
4.3.1 三种模型转换结果对比分析 |
4.3.2 语谱图对比分析 |
4.3.3 ABX 测试 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读学位期间公开发表的论文 |
致谢 |
(5)基于SOM网络的语音基频模式提取研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 引言 |
1.2 文语转换技术的研究与发展 |
1.2.1 文语转换技术的历史和现状 |
1.2.2 文语转换技术的发展方向 |
1.2.3 基频模型概述 |
1.3 本文研究内容及论文结构 |
1.3.1 本文研究内容 |
1.3.2 论文结构 |
第二章 文语转换技术相关理论 |
2.1 语音信号处理 |
2.1.1 发音机制 |
2.1.2 数学产生模型 |
2.2 语音学相关概念 |
2.2.1 语音的组成结构 |
2.2.2 物理特性 |
2.2.3 韵律特征 |
2.3 文语转换系统的结构 |
2.3.1 文本分析 |
2.3.2 韵律控制 |
2.3.3 语音合成 |
2.4 本章小结 |
第三章 提取基频模式的聚类算法 |
3.1 引言 |
3.2 聚类的概念 |
3.3 相似性度量 |
3.4 主要聚类算法 |
3.5 自组织特征映射网络算法 |
3.5.1 网络模型 |
3.5.2 学习算法 |
3.5.3 仿真实验 |
3.6 本章小结 |
第四章 基频模式的提取 |
4.1 实验数据 |
4.2 预处理技术 |
4.2.1 基频提取 |
4.2.2 音节切分和基频标注 |
4.2.3 长度规整 |
4.2.4 滑动平均 |
4.2.5 零均值化 |
4.3 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
攻读硕士期间的研究成果 |
(6)兰州方言的声学特征分析和语音合成的研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景 |
1.2 语音转换技术及方言合成研究现状 |
1.2.1 对兰银官话的研究现状 |
1.2.2 语音分析与变换 |
1.3 研究意义 |
1.4 本论文结构 |
1.5 本章小结 |
第2章 TTS 的基本概念和方法 |
2.1 文语转换系统(TTS)的基本概念 |
2.2 文语转换技术发展现状 |
2.3 文语转换系统的基本原理 |
2.4 文语转换系统的基本方法介绍 |
2.4.1 发音器官参数语音合成 |
2.4.2 声道模型参数语音合成 |
2.4.3 波形编码语音合成方法 |
2.4.4 基于多样本的语音合成方法 |
2.5 语音合成技术展望 |
2.6 本章小结 |
第3章 文本语料库的设计和语音语料库的录制 |
3.1 兰州方言的特点 |
3.1.1 声母特点 |
3.1.2 韵母特点 |
3.1.3 声调特点 |
3.2 文本语料的设计和语音语料的录制 |
3.2.1 文本语料的设计 |
3.2.2 韵律边界的自动预测 |
3.2.3 语音语料的录制 |
3.3 语音语料的切分与标注 |
3.3.1 音节边界的半自动标注 |
3.3.2 峰值点的半自动标注 |
3.3.2.1 基于瞬时频率的基频提取 |
3.3.2.2 峰值点标注 |
3.4 本章小结 |
第4章 兰州方言的实验语音学分析 |
4.1 五度值分析 |
4.1.1 单字基频分析 |
4.1.2 双字基频分析 |
4.1.3 负载句分析 |
4.2 基于音高目标模型的分析 |
4.2.1 单字模型分析 |
4.2.2 双字模型基频对比 |
4.3 时长分析 |
4.3.1 单字时长对比 |
4.3.2 双字时长对比 |
4.3.3 负载句时长对比 |
4.3.4 语句的时长和停顿时长的对比 |
4.4 声学元音图分析 |
4.5 频谱质心的分析 |
4.5.1 单字的频谱质心 |
4.5.2 双字的频谱质心 |
4.5.3 负载句的频谱质心 |
4.5.4 句子的频谱质心 |
4.6 本章小结 |
第5章 单字、双字模型及其转换 |
5.1 基于五度字调模型的基频模型 |
5.2 基于统计的时长转换模型 |
5.2.1 单字时长关系对比 |
5.2.2 双字时长对比 |
5.2.3 时长转换模型 |
5.3 实验 |
5.3.1 转换结果 |
5.3.2 转换结果的主观评测 |
5.4 本章小结 |
第6章 语句模型及其转换 |
6.1 语句转换流程 |
6.2 语句基频转换模型 |
6.3 语句的时长和停顿时长模型 |
6.4 声学参数的修改方法 |
6.5 语句转换结果 |
6.6 本章小结 |
第7章 基于单字拼接的方言合成系统 |
7.1 支持向量机回归SVR(Support Vector Regression)的基本原理 |
7.2 利用SVR 建立特征参数转换模型 |
7.3 基于单字的拼接合成 |
7.4 实验结果 |
7.5 本章小结 |
第8章 总结与展望 |
8.1 论文工作总结 |
8.2 进一步的工作展望 |
参考文献 |
攻读硕士学位期间的科研成果 |
致谢 |
(7)中文语音合成系统中的文本正则化和韵律结构预测方法的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 中文语音合成技术 |
1.2.1 文本处理 |
1.2.2 韵律处理 |
1.2.3 语音合成 |
1.3 语音合成发展方向 |
1.4 本文研究的内容和意义 |
1.4.1 本文研究的内容 |
1.4.2 本文研究的意义 |
1.5 论文内容安排 |
第二章 文本正则化分析 |
2.1 中文文本分析 |
2.2 非标准词 |
2.2.1 阿拉伯数字 |
2.2.2 各种符号 |
2.2.3 其他非标准词 |
2.3 非标准词分类 |
2.4 非标准词正则化 |
2.4.1 非标准词识别 |
2.4.2 非标准词消岐 |
2.4.3 中文读音生成 |
2.5 文本正则化方法综述 |
第三章 韵律结构预测分析 |
3.1 中文的韵律结构 |
3.2 中文的韵律结构特征 |
3.3 中文的韵律层次结构 |
3.3.1 韵律词 |
3.3.2 韵律短语 |
3.3.3 语调短语 |
3.4 韵律的声学特性 |
3.4.1 重音 |
3.4.2 语调 |
3.4.3 停顿 |
3.5 中文韵律结构预测 |
3.6 韵律结构预测方法综述 |
第四章 基于最大熵模型的文本正则化 |
4.1 最大熵模型 |
4.1.1 最大熵原理 |
4.1.2 算法定义 |
4.1.3 约束条件 |
4.1.4 参数估计 |
4.1.5 类型选取 |
4.1.6 特征模版 |
4.2 实验方法 |
4.2.1 语料准备 |
4.2.2 实验工具 |
4.2.3 实验设计 |
4.2.4 评测标准 |
4.3 实验结果 |
4.3.1 结果分析 |
4.3.2 错误分析 |
第五章 基于条件随机场模型的韵律结构预测 |
5.1 条件随机场 |
5.1.1 算法定义 |
5.1.2 条件分布 |
5.1.3 参数估计 |
5.1.4 参数优化 |
5.1.5 特征选取 |
5.1.6 特征格式 |
5.2 错误驱动的规则学习方法 |
5.2.1 方法定义 |
5.2.2 特征选取 |
5.2.3 模板设计 |
5.2.4 规则设计 |
5.3 实验方法 |
5.3.1 预料准备 |
5.3.2 实验工具 |
5.3.3 实验设计 |
5.3.4 评测标准 |
5.4 实验结果 |
5.4.1 结果分析 |
5.4.2 错误分析 |
第六章 总结与展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
(8)汉语文语转换系统中韵律调节算法的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
缩略语表 |
目录 |
第一章 绪论 |
1.1 语音合成与文语转换概述 |
1.2 文语转换研究发展历史 |
1.3 多语种文语转换研究现状 |
1.4 汉语文语转换现有的韵律控制方法 |
1.5 汉语文语转换韵律调节方法的研究意义 |
1.6 本文的研究背景 |
1.7 本文内容安排 |
第二章 相关韵律理论与文语转换系统的基本技术路线 |
2.1 概述 |
2.2 本文涉及到的韵律理论 |
2.2.1 语音特征的分类 |
2.2.2 声学物理量与听觉心理量 |
2.3 汉语普通话语音特点分析 |
2.3.1 汉语普通话的基本特点 |
2.3.2 汉语音节的结构与声调 |
2.3.3 汉语普通话中的协同发音现象 |
2.4 文语转换系统的基本技术路线 |
2.4.1 参数合成法 |
2.4.2 波形合成法 |
2.4.3 规则合成法 |
2.4.4 合成方法的比较与技术方案的选取 |
2.5 小结 |
第三章 汉语韵律调节若干关键算法的分析与讨论 |
3.1 概述 |
3.2 语音超音段参数调节算法 |
3.2.1 语音超音段参数调节算法概述 |
3.2.2 TD-PSOLA 算法介绍 |
3.2.3 TD-PSOLA 算法仿真与结果分析 |
3.3 Fujisaki 韵律模型与语调预测算法 |
3.3.1 韵律预测模型概述 |
3.3.2 Fujisaki 模型 |
3.3.3 修改的Fujisaki 模型 |
3.3.4 实验设计与实验结果 |
3.4 音节与停顿时长预测算法 |
3.4.1 准确预测音节与停顿时长的重要意义 |
3.4.2 一种基于规则的音节时长预测算法 |
3.4.3 汉语中停顿的规则 |
3.5 小结 |
第四章 汉语文语转换系统的总体设计 |
4.1 汉语文语转换系统的设计思路 |
4.2 语音库的构建 |
4.3 文本正则化模块 |
4.4 分词模块 |
4.5 韵律预测模块 |
4.6 语音超音段参数调整模块 |
4.7 拼接模块 |
4.8 小结 |
第五章 汉语文语转换系统的程序设计与结果评估 |
5.1 概述 |
5.2 汉语文语转换系统的程序设计 |
5.2.1 分词函数 |
5.2.2 韵律预测函数 |
5.2.3 TD-PSOLA 算法函数 |
5.2.4 wav 文件的拼接函数 |
5.2.5 wav 文件的播放函数 |
5.2.6 其它基本函数 |
5.3 TD-PSOLA 模块的重点分析 |
5.3.1 TD-PSOLA 算法函数的用法 |
5.3.2 TD-PSOLA 算法函数用于情感参数的调节 |
5.4 汉语文语转换系统的性能评估 |
5.5 小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
(9)基于AMR-WB的参数语音合成技术(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 本课题研究目的和意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 国内外研究现状 |
1.2.2 发展趋势 |
1.3 本课题主要研究内容 |
第2章 语音合成概述 |
2.1 语音合成系统 |
2.1.1 文本分析模块 |
2.1.2 韵律控制模块 |
2.1.3 语音合成模块 |
2.2 主要语音合成技术介绍 |
2.2.1 共振峰合成法 |
2.2.2 线性预测参数合成法 |
2.2.3 基音同步叠加法 |
2.3 本章小结 |
第3章 AMR-WB 语音编码标准 |
3.1 AMR-WB 编码器 |
3.1.1 预处理 |
3.1.2 LPC 分析 |
3.1.3 开环基音分析 |
3.1.4 自适应码本的搜索 |
3.1.5 代数码本的结构和搜索 |
3.2 AMR-WB 解码器 |
3.2.1 参数解码和语音合成 |
3.2.2 高通滤波、放大和插值 |
3.2.3 高频带信号处理 |
3.3 本章小结 |
第4章 基于AMR-WB 的参数提取和语音合成 |
4.1 传统LPC 参数语音合成存在问题 |
4.2 AMR-WB 语音合成 |
4.2.1 参数提取 |
4.2.2 合成语音 |
4.3 合成结果验证 |
4.4 算法复杂度分析 |
4.5 本章小结 |
第5章 汉语文语转换实验系统的实现 |
5.1 软件开发平台 |
5.2 合成系统程序的设计 |
5.2.1 参数提取模块 |
5.2.2 合成语音模块 |
5.3 语音库文件的制作 |
5.3.1 录制和降噪 |
5.3.2 WAV 到PCM 的转换 |
5.3.3 参数文件的生成 |
5.4 实验验证 |
5.5 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(10)面向机务CBT的一种实用文语转换系统研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 论文研究背景与意义 |
1.2 文语转换 |
1.2.1 国外文语转换技术研究现状 |
1.2.2 国内研究现状 |
1.2.3 文语转换技术的发展前景 |
1.3 课题研究内容 |
1.4 论文的组织结构 |
第二章 汉语文语转换技术理论 |
2.1 文语转换体统的组成 |
2.2 基音提取 |
2.2.1 语音信号的数字处理 |
2.2.2 基音的提取方法简介 |
第三章 端点检测 |
3.1 引言 |
3.2 常用端点检测方法 |
3.2.1 基于短时平均幅度和过零率的检测方法 |
3.2.2 基于倒谱距离的端点检测 |
3.2.3 基于谱熵的端点检测 |
3.3 基于临界带矢量特征距离的端点检测 |
3.3.1 临界带特征矢量方法的提出 |
3.3.2 临界带特征矢量算法的过程 |
3.3.3 实验结果及性能分析 |
第四章 基于词库与字库相结合的文语转换 |
4.1 语音库建设 |
4.1.1 词库建设 |
4.1.2 字库建设 |
4.2 检索机制 |
4.2.1 词语的检索 |
4.2.2 字的检索 |
4.2.3 词字库结合的方法 |
第五章 利用PSOLA 算法调节韵律 |
5.1 PSOLA 波形拼接算法 |
5.1.1 对语音合成单元设置同步标记 |
5.1.2 基音同步修改 |
5.1.3 基音同步叠加法合成 |
5.2 韵律控制 |
5.2.1 汉语的韵律 |
5.2.2 韵律调节 |
5.2.3 小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
四、汉语文语转换系统中可训练韵律模型的研究(论文参考文献)
- [1]基于深度学习的梅尔声谱图预测方法的TTS实现[D]. 刘英男. 黑龙江大学, 2020(04)
- [2]基于IPv6的TTS语音云服务应用的研究与实现[D]. 王天琦. 宁夏大学, 2019(02)
- [3]用语言复制的方法记录濒危语言——锡伯语案例[J]. 祖漪清,高丽,王祖燕,黄维,吴朗. 中国语音学报, 2017(01)
- [4]具有表现力的汉语文语转换[D]. 朱菁. 苏州大学, 2013(11)
- [5]基于SOM网络的语音基频模式提取研究[D]. 傅雪. 南京邮电大学, 2011(04)
- [6]兰州方言的声学特征分析和语音合成的研究[D]. 梁青青. 西北师范大学, 2010(06)
- [7]中文语音合成系统中的文本正则化和韵律结构预测方法的研究[D]. 周涛. 北京邮电大学, 2010(03)
- [8]汉语文语转换系统中韵律调节算法的研究与实现[D]. 王亮. 上海交通大学, 2010(11)
- [9]基于AMR-WB的参数语音合成技术[D]. 舒昌. 哈尔滨理工大学, 2009(03)
- [10]面向机务CBT的一种实用文语转换系统研究[D]. 武文娟. 南京航空航天大学, 2009(S2)