导读:本文包含了情感声学特征论文开题报告文献综述及选题提纲参考文献,主要关键词:声学特征,变异分析,情感,共振峰
情感声学特征论文文献综述
任杰,郭卉,姜囡[1](2019)在《不同情感的语音声学特征分析》一文中研究指出针对说话人情感因素对语音特征的影响进行研究分析,选择同一个人在生气、害怕、高兴、中性、惊讶、悲伤六种情感下语音的共振峰频率特征、共振峰走向特征、音节的过渡特征、基频曲线特征以及振幅曲线特征,分析比对不同情感的语音声学特征的相似性和差异性。分析结果表明,同一说话人在不同情感下的语音声学特征的共振峰走向特征相似度高,共振峰频率、基频曲线及振幅曲线特征存在非本质差异,是个体自身的差异。对不同情感的语音进行声学特征分析可以为语音情感识别奠定基础。(本文来源于《光电技术应用》期刊2019年05期)
任国凤[2](2019)在《融合运动学和声学特征的语音情感识别研究》一文中研究指出随着人工智能技术的迅猛发展,人们对人机交互技术提出了更高的要求,希望具有识别人类情感能力的智能产品能够为人机交互用户提供流畅的人机接口。因此,语音情感识别成为了人工智能领域的一个研究热点。为了使计算机可以清晰地感知人类情感并与人类顺畅地交流,必须充分利用语音、面部表情和发音器官运动数据等信号分析和研究语音的情感。另外,情感语音中的发音器官运动学研究成果可以应用于言语康复训练和计算机辅助语言学习中,研究运动学特征向声学特征的转换有助于开展情感语音的产生、识别和合成等方面的研究。综上所述,研究融合运动学和声学特征的语音情感识别对深入研究情感语音的发音机理和人机交互技术具有重大的实际意义和应用价值。本文主要围绕融合运动学和声学特征的语音情感识别系统展开研究,具体内容包括融合运动学和声学特征的双模态情感语音数据集的设计、情感语音中运动学和声学特征的提取及分析、运动学向声学特征的转换系统研究、特征融合及情感识别研究等。首先,本文设计了融合运动学和声学特征的表演型汉语普通话双模态情感语音数据集;其次,对情感语音作运动学特征和声学特征的提取及分析,并对二者的相关性进行研究;再次,提出了基于PSO-LSSVM的运动学-声学特征转换算法,实现了由运动学特征向第二共振峰及12维MFCC特征转换的运算;最后,提出了基于DBM的混合多模态融合方法,并将融合特征应用于情感识别研究中。主要研究内容及创新成果如下所述:(1)设计了包含声学数据和运动学数据的汉语普通话双模态情感语音数据集。本文对融合运动学数据和声学数据的已有常见语音库从建立方法和数据内容的角度进行了对比分析,采用表演法录制了包含四种情感(生气、高兴、伤心和中性)的汉语普通话情感语音集。进而,利用主观和客观评价方法相结合的综合模糊评价模型对声学数据进行评价并筛选,同时根据RMSE对运动学数据进行筛选,最终得到有效的,符合人们日常交流习惯的,包含单元音、双音节词和句子的汉语普通话双模态情感语音数据集,应用于后续的研究中。(2)突破传统的单音节限制,研究了基于运动学-声学特征的双音节词级和句子级情感语音。本文结合声调语言特点,分别以双音节词和包含完整语义的句子为研究对象,分析双模模态情感语音中的运动学特征和声学特征受情感变化的影响,并对运动学特征和声学特征之间的相关性进行分析。在对运动学数据进行特征提取前,对运动学数据进行基于普氏变换的说话人归一,归一后的数据可以消除不同说话人的生理区别。经过研究发现,音节越多情感对运动学特征的影响越显着,比声学特征受情感的影响更显着。同时,随着音节数量的增多,发现舌根和左右嘴角的运动速度受情感影响更加显着。句子级和双音节词级情感语音的运动学-声学特征分析可以证明多音节比单音节或者元音拥有更丰富的情感信息,音节数量越多,情感对运动学特征的影响就越显着。同时,研究表明舌和唇的运动速度与声学的共振峰、基频和振幅等特征间存在强烈的相关性,而且情感的表现越强烈,运动学和声学特征之间的相关性就越强。(3)基于PSO-LSSVM算法提出了双模态情感语音中的运动学-声学特征转换模型。结合运动学-声学特征分析结果,分别应用GMM模型和PSO-LSSVM算法实现了由运动学特征分别向第二共振峰和12维MFCC的转换,并对转换模型进行了理论分析和公式推导。将转换生成的特征与实际的声学特征进行对比,实验结果证明转换精度较高。(4)提出了基于DBM的混合多模态融合方法,并将其应用于情感识别中。本文研究了语音情感识别中的混合融合方法,并对其进行理论分析和公式推导,利用随机森林和支持向量机实现了情感的识别。实验结果表明,混合融合后的识别结果明显优于单一模态情感识别的结果,也优于对声学特征和运动学特征作特征级融合后的识别结果;同时,对K-近邻、支持向量机和随机森林分类器的识别结果进行对比发现,采用随机森林作为识别器的识别效果要优于支持向量机和K-近邻的识别效果。(本文来源于《太原理工大学》期刊2019-06-01)
金琴,陈师哲,李锡荣,杨刚,许洁萍[3](2015)在《基于声学特征的语言情感识别》一文中研究指出语音情感识别是语音处理领域中一个具有挑战性和广泛应用前景的研究课题。探索了语音情感识别中的关键问题之一:生成情感识别的有效的特征表示。从4个角度生成了语音信号中的情感特征表示:(1)低层次的声学特征,包括能量、基频、声音质量、频谱等相关的特征,以及基于这些低层次特征的统计特征;(2)倒谱声学特征根据情感相关的高斯混合模型进行距离转化而得出的特征;(3)声学特征依据声学词典进行转化而得出的特征;(4)声学特征转化为高斯超向量的特征。通过实验比较了各类特征在情感识别上的独立性能,并且尝试了将不同的特征进行融合,最后比较了不同的声学特征在几个不同语言的情感数据集上的效果(包括IEMOCAP英语情感语料库、CASIA汉语情感语料库和Berlin德语情感语料库)。在IEMOCAP数据集上,系统的正确识别率达到了71.9%,超越了之前在此数据集上报告的最好结果。(本文来源于《计算机科学》期刊2015年09期)
徐欣,李雅,许小颖,陶建华[4](2014)在《情感语音识别的区别性声学特征选择》一文中研究指出目前越来越多的研究关注语音信号中的情感内容,但大多数研究集中于分类器上,较少有研究对情感语音识别中的声学特征做筛选,缺乏对情感的精细建模。本文以高兴和悲伤两种基本情感为例,通过全方位特征分析的方法挑选了33种声学特征组成情感语音的声学特征集,而后根据识别实验从中选择出能够有效识别高兴和悲伤情感的声学特征组成最终较佳的声学特征集,进一步验证说明特征选择的重要性。情感语音识别实验的结果表明:用最终选出的特征集建立的情感识别模型较其他特征集可以获得更高的识别准确率,并且组成的特征集数据小,能够降低模型运行的复杂程度。本文还分析了每个声学特征的重要性等级。(本文来源于《第十一届中国语音学学术会议(PCC2014)论文集》期刊2014-08-08)
宗源[5](2014)在《语音信号的声学特征分析与情感识别研究》一文中研究指出本文研究了语音信号的声学特征分析和情感信息处理,在基音检测和语音情感识别两个方面做了一些研究工作。论文的主要内容如下:1.给出了一个基于经验模式分解(EMD)的自相关函数(ACF)基音检测改进算法。传统ACF是一个经典的常用基音检测算法,尽管其性能较好,但是在实际使用过程中容易因受到多种因素的干扰而出现倍频错误。该改进算法巧妙地利用经验模式分解将基音信息有效地与这些干扰因素进行分离,其检测性能能够明显提升。2.给出了一个基于趋势分析的平均幅度差函数(AMDF)基音检测算法的改进框架。AMDF有着比ACF更小的计算量,同时保持着较高的精度,但是因其存在下降趋势而易造成检测错误。本文首先介绍了一个基于EMD的AMDF改进算法(EMD-based AMDF),接着在深入分析已有经典改进算法和EMD-based AMDF算法的基础上,提出了一个基于趋势分析的改进框架,该改进框架能够有效地克服AMDF的检测错误。此外,在该框架下我们给出了一个更为快速的基于最小二乘法的改进算法。3.对语音情感识别进行了初步的研究。为了解决使用全局特征进行语音情感识别时丢失了情感特征的局部信息的问题,给出了一个基于主成分分析的全局特征和局部特征融合的方法用于语音情感识别并在柏林情感库上验证了本文方法的性能。(本文来源于《南京师范大学》期刊2014-03-15)
阿依提拉·米吉提,艾斯卡尔·肉孜,艾斯卡尔·艾木都拉[6](2013)在《维吾尔语音情感声学特征提取与建模研究》一文中研究指出在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个情感特征和中性向其它情感的转换特征进行了建模。实验结果表明,所提取情感特征能准确的区分各个情感类型,为实现中性语音转换成各种目标情感语音奠定了基础。(本文来源于《通信技术》期刊2013年11期)
白李娟,赵小蕾,毛启容,吴宝凤[7](2013)在《基于声学上下文的语音情感特征提取与分析》一文中研究指出针对语句之间的情感存在相互关联的特性,本文从声学角度提出了上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征共四类268维语音情感上下文特征以及这四类情感特征的提取方法,该方法是从当前情感语句与其前面若干句的合并句中提取声学特征,建立上下文特征模型,以此辅助传统特征所建模型来提高识别率.最后,将该方法应用于语音情感识别,实验结果表明,加入新的上下文语音情感特征后,六类典型情感的平均识别率为82.78%,比原有特征模型的平均识别率提高了约8.89%.(本文来源于《小型微型计算机系统》期刊2013年06期)
曾光菊[8](2012)在《普通话语音情感声学特征数据库的建立》一文中研究指出语音情感识别的研究对于增强计算机的智能化和人性化,开发新型人机环境,以及提高语音识别系统的性能等方面,均有着非常重要的现实意义。本研究的目的是深入分析语音信号中的声学特征与情感之间的关系,建立了一个语音情感识别数据库,为进一步探索新的语音情感识别方法做准备。本文结合四川省教育厅基础应用研究课题(2008RQ002)项目“基于粗集理论的普通话语音情感识别”这一个课题展开关于语音情感识别的研究;阐述了语音情感识别国内外的研究近况、目前常用的语音情感识别方法及国内外具有代表性的情感语音数据库;分析了语音信号的声学特征及其提取方法;关于情感特征分析与选取、语音情感建模等理论进行了相关讨论。最后由提取的30个声学特征属性,建立了一个语音情感数据库。本文主要工作如下:由于普通话情感语音研究刚刚起步,有关建立情感语音数据库的技术、经验和方法都较少。为了研究的需要本文建立了一个普通话情感语音数据库,用录音法共采集1600句情感语音,分为愤怒、害怕、高兴、惊讶、悲伤和平静六个情感类别。之后经过多位专家反复听取,去掉其中情感状态不清晰及语音表达不明确的语音549句,最后剩余实际有效语音1051句。然后再用cool edit pro v2.1和praat等软件对每一句语音进行初期处理并获取语音的各个声学特征的详细数据,再然后用神经网络中的BP神经网络对初始特征进行化简即特征提取,最后得到有效特征为30个。再用所得到的数据表1051*30,基于SQL Server2000系统中的企业管理器中的第叁方软件建立了一个语音数据库。数据库存储了各情感语音的基频、能量、时长和共振峰等声学特征。为普通话语音情感识别研究提供了一个良好的实验样本数据平台。(本文来源于《电子科技大学》期刊2012-06-12)
蒋丹宁,蔡莲红[9](2006)在《基于语音声学特征的情感信息识别》一文中研究指出为提高情感语音识别的正确率,研究了声学参数的统计特征和时序特征在区分情感中的作用,并提出了一种将两者相融合的情感识别方法。在提取出基本的韵律参数和频谱参数后,首先利用PNN(probab ilistic neura l netw ork)和HMM(h idden m arkov m ode l)分别对声学参数的统计特征和时序特征进行处理。计算它们各自属于每类情感的概率,获得采用加法规则和乘法规则融合统计特征和时序特征的识别结果。实验结果表明:各组特征在区分情感方面的侧重不尽相同,通过特征融合,平均识别正确率相较单独采用统计特征或时序特征均有提高,在最好情况下达到了92.9%。这说明了该方法的有效性。(本文来源于《清华大学学报(自然科学版)》期刊2006年01期)
情感声学特征论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着人工智能技术的迅猛发展,人们对人机交互技术提出了更高的要求,希望具有识别人类情感能力的智能产品能够为人机交互用户提供流畅的人机接口。因此,语音情感识别成为了人工智能领域的一个研究热点。为了使计算机可以清晰地感知人类情感并与人类顺畅地交流,必须充分利用语音、面部表情和发音器官运动数据等信号分析和研究语音的情感。另外,情感语音中的发音器官运动学研究成果可以应用于言语康复训练和计算机辅助语言学习中,研究运动学特征向声学特征的转换有助于开展情感语音的产生、识别和合成等方面的研究。综上所述,研究融合运动学和声学特征的语音情感识别对深入研究情感语音的发音机理和人机交互技术具有重大的实际意义和应用价值。本文主要围绕融合运动学和声学特征的语音情感识别系统展开研究,具体内容包括融合运动学和声学特征的双模态情感语音数据集的设计、情感语音中运动学和声学特征的提取及分析、运动学向声学特征的转换系统研究、特征融合及情感识别研究等。首先,本文设计了融合运动学和声学特征的表演型汉语普通话双模态情感语音数据集;其次,对情感语音作运动学特征和声学特征的提取及分析,并对二者的相关性进行研究;再次,提出了基于PSO-LSSVM的运动学-声学特征转换算法,实现了由运动学特征向第二共振峰及12维MFCC特征转换的运算;最后,提出了基于DBM的混合多模态融合方法,并将融合特征应用于情感识别研究中。主要研究内容及创新成果如下所述:(1)设计了包含声学数据和运动学数据的汉语普通话双模态情感语音数据集。本文对融合运动学数据和声学数据的已有常见语音库从建立方法和数据内容的角度进行了对比分析,采用表演法录制了包含四种情感(生气、高兴、伤心和中性)的汉语普通话情感语音集。进而,利用主观和客观评价方法相结合的综合模糊评价模型对声学数据进行评价并筛选,同时根据RMSE对运动学数据进行筛选,最终得到有效的,符合人们日常交流习惯的,包含单元音、双音节词和句子的汉语普通话双模态情感语音数据集,应用于后续的研究中。(2)突破传统的单音节限制,研究了基于运动学-声学特征的双音节词级和句子级情感语音。本文结合声调语言特点,分别以双音节词和包含完整语义的句子为研究对象,分析双模模态情感语音中的运动学特征和声学特征受情感变化的影响,并对运动学特征和声学特征之间的相关性进行分析。在对运动学数据进行特征提取前,对运动学数据进行基于普氏变换的说话人归一,归一后的数据可以消除不同说话人的生理区别。经过研究发现,音节越多情感对运动学特征的影响越显着,比声学特征受情感的影响更显着。同时,随着音节数量的增多,发现舌根和左右嘴角的运动速度受情感影响更加显着。句子级和双音节词级情感语音的运动学-声学特征分析可以证明多音节比单音节或者元音拥有更丰富的情感信息,音节数量越多,情感对运动学特征的影响就越显着。同时,研究表明舌和唇的运动速度与声学的共振峰、基频和振幅等特征间存在强烈的相关性,而且情感的表现越强烈,运动学和声学特征之间的相关性就越强。(3)基于PSO-LSSVM算法提出了双模态情感语音中的运动学-声学特征转换模型。结合运动学-声学特征分析结果,分别应用GMM模型和PSO-LSSVM算法实现了由运动学特征分别向第二共振峰和12维MFCC的转换,并对转换模型进行了理论分析和公式推导。将转换生成的特征与实际的声学特征进行对比,实验结果证明转换精度较高。(4)提出了基于DBM的混合多模态融合方法,并将其应用于情感识别中。本文研究了语音情感识别中的混合融合方法,并对其进行理论分析和公式推导,利用随机森林和支持向量机实现了情感的识别。实验结果表明,混合融合后的识别结果明显优于单一模态情感识别的结果,也优于对声学特征和运动学特征作特征级融合后的识别结果;同时,对K-近邻、支持向量机和随机森林分类器的识别结果进行对比发现,采用随机森林作为识别器的识别效果要优于支持向量机和K-近邻的识别效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
情感声学特征论文参考文献
[1].任杰,郭卉,姜囡.不同情感的语音声学特征分析[J].光电技术应用.2019
[2].任国凤.融合运动学和声学特征的语音情感识别研究[D].太原理工大学.2019
[3].金琴,陈师哲,李锡荣,杨刚,许洁萍.基于声学特征的语言情感识别[J].计算机科学.2015
[4].徐欣,李雅,许小颖,陶建华.情感语音识别的区别性声学特征选择[C].第十一届中国语音学学术会议(PCC2014)论文集.2014
[5].宗源.语音信号的声学特征分析与情感识别研究[D].南京师范大学.2014
[6].阿依提拉·米吉提,艾斯卡尔·肉孜,艾斯卡尔·艾木都拉.维吾尔语音情感声学特征提取与建模研究[J].通信技术.2013
[7].白李娟,赵小蕾,毛启容,吴宝凤.基于声学上下文的语音情感特征提取与分析[J].小型微型计算机系统.2013
[8].曾光菊.普通话语音情感声学特征数据库的建立[D].电子科技大学.2012
[9].蒋丹宁,蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报(自然科学版).2006