哼唱识别论文-郭琛

哼唱识别论文-郭琛

导读:本文包含了哼唱识别论文开题报告文献综述及选题提纲参考文献,主要关键词:哼唱识别,深度学习,音乐信息提取,人工神经网络

哼唱识别论文文献综述

郭琛[1](2018)在《基于深度学习的哼唱音频乐谱识别技术研究》一文中研究指出哼唱识别是当前音乐信息提取研究中的一大热点,其目标是根据用户的哼唱,识别出用户哼唱的歌曲。由于其交互形式友好,在移动设备上使用便利,相关技术在音乐检索、音乐推荐等领域具有广阔的应用前景。本文针对哼唱音频信号自动识别问题,研究了深度学习研究中常用方法和手段,将深度学习方法应用到哼唱识别中,结合传统音频信号处理方法,提出了一种基于深度学习框架的识别方法,设计了一个哼唱音频识别深度学习框架,实现对人声哼唱的音乐信号进行识别。本文还基于此实现了一个具有实用价值、可扩展性强的哼唱音频乐谱识别系统,通过实验验证了所提出的基于深度学习的哼唱识别算法的可行性。论文的研究工作主要包括:(1)研究了哼唱音频数据处理方法,包括音频滤波、预加重、加窗分帧、音符起始点检测、音频信号特征表示等方法,对比了不同方法之间的区别和优缺点,针对深度学习数据集的要求选取了合适的方法进行深入研究和实践。(2)深入研究了当前深度学习研究的理论基础与常用方法,包括常用神经网络的设计与训练方法,应用广泛的各类神经网络结构的原理与优缺点等。基于此设计了一个卷积循环神经网络模型,结合卷积神经网络在局部特征提取和循环神经网络在归纳序列数据特征方面的优势,提高哼唱音频信号识别的准确率。(3)利用开源深度学习平台与工具,对所提出的神经网络模型进行了实验与论证。通过在测试数据集上进行训练和测试,反复调整模型,得到了效果较好的模型参数。并通过在测试数据集上的评估测试,验证了所提出的神经网络模型的可行性和有效性,并对模型性能进行了分析和评估。(4)基于所提出的深度学习框架,利用服务端和移动端开发技术,设计实现了一个哼唱音频乐谱识别原型系统,包括服务端的音频识别服务、移动端的音频录制、音频上传等功能模块。(本文来源于《武汉大学》期刊2018-05-01)

刘志强[2](2009)在《基于DTW的哼唱识别系统的研制》一文中研究指出在音乐旋律特征相似度匹配理论和DTW算法基础上,提出了一种基于哼唱片段的相似度匹配算法,减少了对歌曲库进行精确匹配(DTW)的歌曲匹配数量并利用不同匹配路径进行精确匹配的性能进行分析和对于基于内容的音乐精确匹配算法,提出了用于加快检索速度的加速方法。设计实现了一个基于内容的音乐哼唱检索系统。经过实验验证该系统对于小规模数据库哼唱歌曲片段的检索具有较高的准确性,对进一步的深入研究具有推动和借鉴意义。(本文来源于《信息与电脑(理论版)》期刊2009年12期)

曹文晓,刘轶,郑方,蒋丹宁,秦勇[3](2009)在《用于哼唱识别精确匹配的线性伸缩动态规划算法》一文中研究指出提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子,对每一句子进行线性伸缩匹配,同时在句子层次进行动态规划获得最优路径。该算法更有效地利用了哼唱语音的分段特性并克服了动态规划在长路径搜索时可能丢失全局最优路径的缺点。在含5 223首M ID I的数据库上同等条件下该算法正确率分别比线性伸缩、动态规划及递归匹配方法提高10.5%、6.0%和2.8%。该算法具有更高的准确率和更小的时间复杂度,是一种更有效的精确匹配算法。(本文来源于《清华大学学报(自然科学版)》期刊2009年S1期)

侯珏,刘轶,郑方,蒋丹宁,秦勇[4](2009)在《基于VP树结构的多层匹配算法在哼唱识别中的应用》一文中研究指出哼唱识别是音频检索的一个重要应用,其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。该文提出了新的数据库构造方法,将音频歌曲集用手工标注方法提取主旋律并且按自然演唱停顿方式进行分段,采用段落结构而不是整首歌作为索引。同时,提出了一种基于VP树的搜索结构以及相应的多级搜索算法,在快速匹配层采用粗搜索算法,在精确匹配层采用基于动态时间规整算法。实验证明,在对检出率影响不大的前提下,识别速度提高了40%以上。(本文来源于《清华大学学报(自然科学版)》期刊2009年S1期)

侯珏,刘轶,郑方,蒋丹宁,秦勇[5](2009)在《基于VP树结构的多层匹配算法在哼唱识别中的应用》一文中研究指出哼唱识别是音频检索的一个重要应用,其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法,将音频歌曲集用手工标注方法提取主旋律并且按自然演唱停顿方式进行分段,采用段落结构而不是整首歌作为索引。同时,提出了一种基于VP树的搜索结构以及相应的多级搜索算法,在快速匹配层采用粗搜索算法,在精确匹配层采用基于动态时间规整算法。实验证明,在对检出率影响不大的前提下,识别速度提高了40%以上。(本文来源于《第十届全国人机语音通讯学术会议(NCMMSC2009)论文摘要集》期刊2009-08-14)

曹文晓,刘轶,郑方,蒋丹宁,秦勇[6](2009)在《用于哼唱识别精确匹配的线性伸缩动态规划算法》一文中研究指出本文提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子,对每一句子线性伸缩匹配同时在句子层次进行动态规划获得最优路径。该算法更有效利用了哼唱语音的分段特性并克服了动态规划在长路径时可能丢失全局最优路径的缺点。在5223首歌曲数据库上同等条件下该算法正确率相比线性伸缩、动态规划及递归匹配分别提高10.5%、6.0%和2.8%。该算法具有更高准确率和更小时间复杂度,是一种更有效的精确匹配算法。(本文来源于《第十届全国人机语音通讯学术会议(NCMMSC2009)论文摘要集》期刊2009-08-14)

李晨[7](2008)在《结合语音识别技术的音乐哼唱检索研究》一文中研究指出随着计算机科学技术的飞速发展,人们不再满足于单一的检索方式。哼唱检索(QBH:Query By Humming)作为一种全新的检索方式,可以帮助用户通过哼唱旋律的片断,在大规模的音乐数据库中找到想要的乐曲。歌谱是音乐的高级特征,若能准确识别出歌谱信息,则检出率会得到很大提高。如何快速而精确地从哼唱信号中识别出音符序列是一个具有挑战性的课题。本文将语音识别的技术应用到音乐检索当中,实现音乐的高级特征识别,为大规模QBH系统走向实用化提供了关键性技术,并开展了以下研究工作:(1)对整个语音识别系统理论进行了全面分析,通过分析语音识别的特点和哼唱检索的难点,给出了结合语音识别技术的哼唱检索系统的处理方案。(2)总结了在语音识别建模中广泛应用的隐马尔可夫模型的基础理论。并且给出了DTW和HMM两种经典算法的比较,说明了HMM模型的优势。(3)采用了基于统计模型的哼唱旋律模型算法进行语音识别。算法将每个音符(以及静音)分别视为一个单词。阐述了在HMM模型的基础上,对声学模型和语言模型的训练数据和训练过程。(4)在训练声学模型时发现,即使采用基频算法,也无法避免在基频估计以及清浊判定的过程中引入错误,从而对系统性能产生负面影响;针对这一问题,对特征提取做了研究。最终在声学模型方面,采用了高阶倒谱系数作为特征,提高了鲁棒性。同时,训练采用了调无关的四元语言模型以体现不同音符序列在歌曲中分布的先验概率。(5)设计了一个应用语音识别技术的音乐哼唱检索系统。通过实验,从音符识别错误率和哼唱查询系统整体性能的角度给出评测结果,并与另一个先进旋律识别系统进行了比较。实验证明,该系统对环境噪声有较好的鲁棒性,同时在干净数据上的性能具有很好的效果,具有较高的检索精度。本研究工作得到国家自然科学基金“基于Web的音频识别与检索关键技术研究(基金编号:60673100)”的资助。(本文来源于《西北大学》期刊2008-06-30)

陈旭[8](2008)在《基于内容的音频哼唱识别及检索系统》一文中研究指出在这个音视频数字化的时代,数字影视、数字音乐、数字动漫等多媒体已经大量的进入我们的生活。在数据库中,多媒体文件(例如歌曲)都是用它们的名字、作者、歌手等等来索引的,然而,人们对歌曲旋律的印象往往比名字、作者、歌手等等更深。随着多媒体数据库越来越庞大,数据的文字索引(名称、作者等)越来越多,人们不可能完全记住。因此,内涵式查询就突显出了其重要性与必要性。本文介绍了关于数字音频的哼唱识别系统的开发以及相关理论研究工作,详细讨论了在音频哼唱识别中的各部分的关键技术,并且实现了可用于演示的音频哼唱识别系统DEMO。在整个研发过程中,我们总共在两个平台上进行:PC平台和Altera公司的DE2嵌入式平台。我们首先分别在PC上和DE2验证板上实现了基于20首歌的哼唱识别,进行了充分的实验和参数调整,实现了关于特征提取、噪声去除、特征值识别等课题,最终在DE2板子上得出了比较高的识别率和较好的运行时间。接下来主要在PC上研发,基于30多首不到的音乐建立一个有效的部分哼唱识别系统,同时对基础音的归一化算法、改进的DTW算法进行了研究。我们基于“首尾靠近”的先验条件,创造性地提出了利用正反两次DTW进行部分匹配的识别算法,并对该算法的时间复杂度、有效性、兼容性进行了深入的分析和研究。得到比较令人满意的结果:PC平台上52首乐段利用部分匹配算法可以达到85%左右的搜索成功率,相比较不支持部分匹配的48%的识别率是有了很大进步。而且正反DTW方法在时间复杂度上并没有太大的损失,运行时间仅仅是整体匹配方法的约1.5倍,同时它还保留了对整体匹配优秀的兼容性,完全满足实际的要求。(本文来源于《上海交通大学》期刊2008-02-15)

蒋丹宁,秦勇,刘文,刘义[9](2007)在《基于统计模型的哼唱旋律识别算法》一文中研究指出本文提出了一种基于统计模型的哼唱旋律识别算法。与传统的非统计算法相比,本文所提出的算法借用连续语音识别中的统计框架及模型,具有较好的鲁棒性。在声学模型方面,采用了高阶倒谱系数作为特征,避免了清浊判定及基频估计错误对系统性能的负面影响。同时,训练了调无关的四元模型以反映音乐先验知识。旋律识别结果最终通过Viterbi解码算法获得。论文分别从音符识别错误率和哼唱查询系统整体性能的角度给出了算法评测结果,并与其他叁个先进的旋律识别系统进行了比较。实验表明,本文所提出的算法在含噪条件下具有最好的鲁棒性,同时在干净数据上的性能接近所有比较系统中的最好结果。(本文来源于《第九届全国人机语音通讯学术会议论文集》期刊2007-10-01)

哼唱识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在音乐旋律特征相似度匹配理论和DTW算法基础上,提出了一种基于哼唱片段的相似度匹配算法,减少了对歌曲库进行精确匹配(DTW)的歌曲匹配数量并利用不同匹配路径进行精确匹配的性能进行分析和对于基于内容的音乐精确匹配算法,提出了用于加快检索速度的加速方法。设计实现了一个基于内容的音乐哼唱检索系统。经过实验验证该系统对于小规模数据库哼唱歌曲片段的检索具有较高的准确性,对进一步的深入研究具有推动和借鉴意义。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

哼唱识别论文参考文献

[1].郭琛.基于深度学习的哼唱音频乐谱识别技术研究[D].武汉大学.2018

[2].刘志强.基于DTW的哼唱识别系统的研制[J].信息与电脑(理论版).2009

[3].曹文晓,刘轶,郑方,蒋丹宁,秦勇.用于哼唱识别精确匹配的线性伸缩动态规划算法[J].清华大学学报(自然科学版).2009

[4].侯珏,刘轶,郑方,蒋丹宁,秦勇.基于VP树结构的多层匹配算法在哼唱识别中的应用[J].清华大学学报(自然科学版).2009

[5].侯珏,刘轶,郑方,蒋丹宁,秦勇.基于VP树结构的多层匹配算法在哼唱识别中的应用[C].第十届全国人机语音通讯学术会议(NCMMSC2009)论文摘要集.2009

[6].曹文晓,刘轶,郑方,蒋丹宁,秦勇.用于哼唱识别精确匹配的线性伸缩动态规划算法[C].第十届全国人机语音通讯学术会议(NCMMSC2009)论文摘要集.2009

[7].李晨.结合语音识别技术的音乐哼唱检索研究[D].西北大学.2008

[8].陈旭.基于内容的音频哼唱识别及检索系统[D].上海交通大学.2008

[9].蒋丹宁,秦勇,刘文,刘义.基于统计模型的哼唱旋律识别算法[C].第九届全国人机语音通讯学术会议论文集.2007

标签:;  ;  ;  ;  

哼唱识别论文-郭琛
下载Doc文档

猜你喜欢