导读:本文包含了说话人检测论文开题报告文献综述及选题提纲参考文献,主要关键词:语音变形,欺骗检测,GMM超向量,自动说话人识别
说话人检测论文文献综述
陈园允[1](2019)在《变形欺骗性语音的检测算法研究及对其鲁棒的说话人识别系统实现》一文中研究指出已有研究及实践均证明语音变形(Voice Transformation,VT)、语音转换(Voice Conversion,VC)、语音合成(Speech Synthesis,SS)及重播语音等欺骗性语音能有效地欺骗自动说话人识别系统,给社会安全带来严重的危害。目前已有的研究主要集中于对VC、SS及重播语音的检测,而对VT相关的安全问题研究相对不足。然而,相较实现成本较高且算法尚未完全成熟的VC及SS等操作,VT已有的算法能在改变说话人声音的同时高度保持语音的自然性,同时实现方式及成本便捷低廉,已集成在很多语音处理工具中,并在众多的案件中作为犯罪手段。因此,研究VT欺骗性语音的安全问题具有重要意义。为此,本文研究VT欺骗性语音的检测算法,并实现对VT欺骗鲁棒的说话人识别系统。本文主要的工作如下:1.提出一种基于高斯混合模型-通用背景模型超向量的VT语音检测算法。该算法利用MFCC在UBM下自适应得出的GMM-UBM超向量作为学习特征,并利用支持向量机作为分类方法。实验结果表明,该算法的识别率能达到98.62%。同时,当测试语音时长较短时,该算法能保持高识别率。2.利用Visual Studio2013的MFC框架实现对VT欺骗性语音鲁棒的说话人识别系统。该系统的防欺骗模块基于本文所提算法及实验室团队已有算法,该模块分特征提取模块、模型训练模块及检测识别模块叁个子模块。该模块集成在基于GMM的SR系统中。经调试,该系统能有效地识别VT欺骗性语音,保证说话人识别正常的漏检率。该系统在设计上兼具简洁性和实用性,并具有很好的人机交互方式,运行时既有功能操作界面又有控制台窗口,方便了用户在系统运行时得到实时的反馈。综上,本文对VT欺骗性语音的检测进行了理论算法的研究及实用系统的开发,对欺骗性语音相关的安全问题研究有重要的理论及现实价值。(本文来源于《广东技术师范大学》期刊2019-06-01)
徐涌钞[2](2018)在《基于高频和瓶颈特征的说话人验证系统重放攻击检测方法》一文中研究指出当今时代,生物学身份验证的应用领域越来越广泛,然而相关研究表明:生物学验证技术比较容易遭受恶意欺诈攻击。虽然对电子欺诈检测的研究已经取得了一些研究进展,但这个问题仍有诸多难点尚未攻克,生物学身份验证系统依然很容易受到欺诈攻击的影响。说话人验证系统作为一种典型的生物学验证系统,其可靠性和安全性都需要欺诈检测技术来确保。近年来,重放攻击检测技术已成为说话人识别电子欺诈检测领域的研究热点,该领域急需新的研究方法来解决重放攻击电子欺诈检测这一问题。为提升重放攻击检测方法的性能,本文将对基于声学信号处理的检测方法以及基于深度学习的检测方法进行较为深入的探索。在基于声学信号处理的检测方法中,本文首先从信号传播的角度对重放攻击特性进行理论分析,论证了高频特征用于重放攻击检测的可行性,进而通过提取高频声学特征以及多种特征处理方法进行说话人验证中的重放攻击电子欺诈检测研究,进而提高重放攻击检测的性能。在基于深度学习的检测方法中,本文将通过构建深度神经网络来提取瓶颈特征(Bottleneck Feature)并应用集成学习方法分类来进行重放攻击欺诈检测研究。本文对重放攻击特性进行了深入研究,并针对重放攻击检测问题对逆梅尔倒谱系数(Inverted Mel Frequency Cepstral Coefficient,IMFCC)[1]进行了改进,提出了修正逆梅尔倒谱系数(Correction Inverted Mel Frequency Cepstral Coefficient,CIMFCC),所进行的改进也包括布莱克曼窗函数以及均值方差归一化的应用。实验表明,CIMFCC是一种可以有效检测欺诈语音的声学特征,基于CIMFCC的检测方法相较于基线系统等错误率(Equal Error Rate,EER)[2]相对下降达51.06%。为解决改善声学信号处理方法中高频区分性信息损失问题,本文提出了基于深度学习的瓶颈特征,将卷积深度神经网络(Convolutional Deep Neural Network,CDNN)作为捕捉频谱高频区分性信息的特征提取方法,瓶颈特征由CDNN中的瓶颈层生成,瓶颈层将与分类相关的信息强制转换为一个低维度的表示,即瓶颈特征可视为输入特征的低维度非线性表示,同时实验表明,瓶颈特征对欺诈检测问题是一种更为有效的检测特征。以瓶颈特征为基础的模型在评估集上表现出了最好的检测性能EER为8.40%,同时实验表明,集成学习模型要比简单的机器学习模型更为适合解决重放攻击检测问题。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
杨登舟,刘加,夏善红[3](2018)在《基于计算听觉场景分析的说话人转换检测》一文中研究指出在短时语音说话人快速转变的说话人转换检测中,用于训练说话人模型的连续语音较短导致模型不稳健,致使说话人转换检测的性能较差。为此,提出一种新的说话人转换检测方法。借鉴人耳听觉处理机制将语音信号分解为多个子带,可以得到准确的浊、清音边界,实现对零散清、浊音子段的拼接。利用贝叶斯信息准则判决语音子段间的疑似转换点,并运用音高特征做区间验证。实验结果表明,该方法在平均语音子段时长为1.34 s的极短语音条件下,可使说话人转换检测的等错率降至23.2%,F1值达到70%。(本文来源于《计算机工程》期刊2018年02期)
王萌,王福龙[4](2016)在《基于端点检测和高斯滤波器组的MFCC说话人识别》一文中研究指出在上下文无关的说话人识别应用中,针对传统MFCC特征参数在语音预处理方面不足以及叁角滤波器组的缺陷,提出一种改进的MFCC特征参数提取方法.一方面在传统算法上加入端点检测,去除与说话人语音特征无关的静音段;另一方面用高斯滤波器组(Gaussian shaped filters GF)代替叁角滤波器组进行频率到Mel频率的转换,提高识别准确率.说话人识别模型使用流行的高斯混合模型(GMM).实验结果显示,高斯滤波器组的引入相比于传统叁角滤波器组识别率有4.45%的提升,本文改进后的MFCC特征参数相比于传统方法识别率也提升了6.43%,能更好的代表说话人的语音特征.(本文来源于《计算机系统应用》期刊2016年10期)
杨登舟,徐嘉明,刘加,夏善红[5](2016)在《说话人日志中可靠静音模型语音活动检测方法》一文中研究指出为了解决传统语音活动检测(VAD)技术分离出的语音段掺杂静音以及帧间频繁跳动产生短语音碎片的问题,提出在说话人日志中能够高效稳定地完成语音活动检测的方法.该方法利用可靠静音模型对语音的区分度高这个特性,通过循环迭代收敛得到稳定划分.建立静音和语音模型,通过帧间连续性原理进行不确定性解码得到帧类属信息,开展低能量短时间语音碎片后处理完成语音活动检测.在富标注说话人日志数据集上测试,实验结果表明,由于对静音模型的描述更加可靠,采用该方法可以减少帧间跳动,减少静音模型对语音的吸收误判,性能比基于子带熵顺序统计滤波(SE-OSF)方法提高明显.(本文来源于《浙江大学学报(工学版)》期刊2016年01期)
贺前华,潘伟锵,胡永健,朱铮宇,李艳雄[6](2015)在《说话人认证录音回放检测方法综述》一文中研究指出基于生物特征的身份认证已得到学术界及企业的高度重视,指纹、人脸识别应用已非常普遍,但对于非现场身份认证,语音相对其他生物特征,具有用户接受程度高、拾音设备简单、随时随地可用、数据量小、计算复杂度低等优势,因此基于声纹的身份认证系统应用越来越广泛。另一方面,由于录音回放攻击简单易行,不需要任何专业知识,且随着廉价、高质量的录音/播放装置的日益增多,回放录音与原始音的相似度越来越高,已成为声纹认证系统最主要的攻击手段之一,因此如何识别录音回放等攻击成为说话人认证系统必须面对的问题。本文对录音回放检测方法进入了全面的介绍,通过对各种方法的分析,表明其研究尚处于起步阶段,但需求日益旺盛。(本文来源于《数据采集与处理》期刊2015年02期)
赵小蕾,赵慧青[7](2015)在《说话人功能性副语音自动检测算法》一文中研究指出功能性副语音如笑声、哭声、叹息声等的研究在情感识别领域中越来越受到关注,开始被作为识别说话人情感重要的信息之一。然而在应用与研究中功能性副语音能否被自动检出是前提。针对这一需求,根据音频分割算法提出了基于定长分段的功能性副语音自动检测算法以及基于距离与贝叶斯的功能性副语音自动检测算法。并提出了结合静音帧语音分割点确认算法对分割点进一步确认,而且通过实验验证了该算法是有效的。通过实验对比两种检测算法的优劣,实验结果表明:基于定长分段自动检测算法较好,检测率达到70%,较基于距离与贝叶斯的检测算法高出5%。(本文来源于《智能计算机与应用》期刊2015年01期)
顾秀秀,赵玉晓,张二华[8](2014)在《端点检测对说话人识别的影响》一文中研究指出由于在说话人识别研究中发现,语音信号包括静音段、辅音段和浊音段,说话人的个性特征主要蕴含在浊音段中,静音段与辅音段参与识别会明显降低说话人的识别率。同时大量的实验证明,使用端点检测去掉静音段和辅音段后识别率有明显的提升,针对这种情况,指出了端点检测后的语音,其特征分布将会更加符合高斯分布。实验结果表明,端点检测越精确,其识别效果也就越好。(本文来源于《计算机与数字工程》期刊2014年06期)
吴伟,李艳雄,王梓里,陈祝允[9](2015)在《基于语速差异的新闻发布会中首要说话人检测》一文中研究指出新闻发布会中,首要说话人(例如政府要员)通常要即兴回答事先准备好的问题。因而首要说话人语速一般很慢,而其他说话人(例如、翻译等)语速则相对较快。基于两者的语速差异,采用一个滑动窗从连续语音流中截取语音段,再估计各音段语速得到一条语速曲线,然后寻找语速曲线中的局部最小值进而得到两类说话人的改变点,最后将语速低于门限且在两相邻改变点之间的语音段判为首要说话人语音,从而实现首要说话人检测。实验结果表明,与传统方法相比,基于语速差异的方法获得了更好的性能。(本文来源于《计算机工程与应用》期刊2015年04期)
高娅[10](2013)在《说话人转变检测的研究与实现》一文中研究指出现代IT技术的发展越来越快,获取各类音频文档的方法也都相继出现,而数据量则呈现快速增长的趋势,管理音频文档将会越来越困难,因而对音频文档中说话人转变的检测越来越重要,说话人转变的检测主要包括说话人分割和说话人聚类两个部分。近年来很多研究者开始对音频分割与聚类技术进行了研究[1],利用这技术来管理多媒体语音文档,其中对会议语音的分割和聚类困难最大。基于说话人的不同而对音频文档进行分割与聚类,关键是找出不同说话人之间话音的不同,将含有多个人说话的语音段,根据不同转变点分割成多个片段,且每个片段只含有一个说话人,分割完成后将同一说话人的片段进行标记,采用说话人聚类技术将分割好的语音按照说话人的不同进行重新组合。本文提到的说话人转变检测的方法主要由叁个部分组成即特征值提取、说话人分割和说话人聚类。本文对于每一部分都做了详细的介绍,并通过实验比较了不同方法的优缺点,具体内容如下:1)特征提取部分。提取语音序列的LPC倒谱系数和梅尔频率倒谱系数作为说话人的特征参数,通过实验发现MFCC比LPCC性能好。2)说话人分割部分。本文使用的是基于可信度变化趋势和改进BIC的混合说话人转变点的检测方法,利用可信度变化趋势解决了BIC由于数据累积造成的累积错误,而BIC又可以解决由于可信度参数百分比beta选取设定的不合适而造成的误差,实验结果表明使用混合算法比单独使用这两种算法性能分别提高了10%和5.8%。3)说话人聚类。本文使用的是基于等级的分层说话人聚类,介绍了基于基音周期和共振峰频率的性别识别聚类以及基于自适应GMM模型的说话人识别聚类的过程,实验的结果表明此系统适用于说话人人数比较少的场合进行说话人的分割与聚类,例如在电话对话中或者在小型的会议中。(本文来源于《南京邮电大学》期刊2013-03-01)
说话人检测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
当今时代,生物学身份验证的应用领域越来越广泛,然而相关研究表明:生物学验证技术比较容易遭受恶意欺诈攻击。虽然对电子欺诈检测的研究已经取得了一些研究进展,但这个问题仍有诸多难点尚未攻克,生物学身份验证系统依然很容易受到欺诈攻击的影响。说话人验证系统作为一种典型的生物学验证系统,其可靠性和安全性都需要欺诈检测技术来确保。近年来,重放攻击检测技术已成为说话人识别电子欺诈检测领域的研究热点,该领域急需新的研究方法来解决重放攻击电子欺诈检测这一问题。为提升重放攻击检测方法的性能,本文将对基于声学信号处理的检测方法以及基于深度学习的检测方法进行较为深入的探索。在基于声学信号处理的检测方法中,本文首先从信号传播的角度对重放攻击特性进行理论分析,论证了高频特征用于重放攻击检测的可行性,进而通过提取高频声学特征以及多种特征处理方法进行说话人验证中的重放攻击电子欺诈检测研究,进而提高重放攻击检测的性能。在基于深度学习的检测方法中,本文将通过构建深度神经网络来提取瓶颈特征(Bottleneck Feature)并应用集成学习方法分类来进行重放攻击欺诈检测研究。本文对重放攻击特性进行了深入研究,并针对重放攻击检测问题对逆梅尔倒谱系数(Inverted Mel Frequency Cepstral Coefficient,IMFCC)[1]进行了改进,提出了修正逆梅尔倒谱系数(Correction Inverted Mel Frequency Cepstral Coefficient,CIMFCC),所进行的改进也包括布莱克曼窗函数以及均值方差归一化的应用。实验表明,CIMFCC是一种可以有效检测欺诈语音的声学特征,基于CIMFCC的检测方法相较于基线系统等错误率(Equal Error Rate,EER)[2]相对下降达51.06%。为解决改善声学信号处理方法中高频区分性信息损失问题,本文提出了基于深度学习的瓶颈特征,将卷积深度神经网络(Convolutional Deep Neural Network,CDNN)作为捕捉频谱高频区分性信息的特征提取方法,瓶颈特征由CDNN中的瓶颈层生成,瓶颈层将与分类相关的信息强制转换为一个低维度的表示,即瓶颈特征可视为输入特征的低维度非线性表示,同时实验表明,瓶颈特征对欺诈检测问题是一种更为有效的检测特征。以瓶颈特征为基础的模型在评估集上表现出了最好的检测性能EER为8.40%,同时实验表明,集成学习模型要比简单的机器学习模型更为适合解决重放攻击检测问题。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
说话人检测论文参考文献
[1].陈园允.变形欺骗性语音的检测算法研究及对其鲁棒的说话人识别系统实现[D].广东技术师范大学.2019
[2].徐涌钞.基于高频和瓶颈特征的说话人验证系统重放攻击检测方法[D].哈尔滨工业大学.2018
[3].杨登舟,刘加,夏善红.基于计算听觉场景分析的说话人转换检测[J].计算机工程.2018
[4].王萌,王福龙.基于端点检测和高斯滤波器组的MFCC说话人识别[J].计算机系统应用.2016
[5].杨登舟,徐嘉明,刘加,夏善红.说话人日志中可靠静音模型语音活动检测方法[J].浙江大学学报(工学版).2016
[6].贺前华,潘伟锵,胡永健,朱铮宇,李艳雄.说话人认证录音回放检测方法综述[J].数据采集与处理.2015
[7].赵小蕾,赵慧青.说话人功能性副语音自动检测算法[J].智能计算机与应用.2015
[8].顾秀秀,赵玉晓,张二华.端点检测对说话人识别的影响[J].计算机与数字工程.2014
[9].吴伟,李艳雄,王梓里,陈祝允.基于语速差异的新闻发布会中首要说话人检测[J].计算机工程与应用.2015
[10].高娅.说话人转变检测的研究与实现[D].南京邮电大学.2013