您好、欢迎来到现金彩票网!
当前位置:21点 > 自动切分 >

基于DPP的自动音符切分识别研究

发布时间:2019-06-10 12:07 来源:未知 编辑:admin

  :基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。本文首先根据音级轮廓特征(PCP),对音乐进行特征提取,将帧集通过行列式点过程(DPP)进行建模,最后根据最大后验概率估计(MAP)选出帧子集,从而实现音符的分割。DPP将复杂的概率计算转换为简单的行列式计算,减少了计算量。在钢琴音乐片段多音符的的识别中,得到了67.3%的正确率,解决了多音符的切分识别难题。

  摘要:基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。本文首先根据音级轮廓特征(PCP),对音乐进行特征提取,将帧集通过行列式点过程(DPP)进行建模,最后根据最大后验概率估计(MAP)选出帧子集,从而实现音符的分割。DPP将复杂的概率计算转换为简单的行列式计算,减少了计算量。在钢琴音乐片段多音符的的识别中,得到了67.3%的正确率,解决了多音符的切分识别难题。

  对音符进行识别是音乐信号分析处理领域中重要的研究内容。音符识别技术在音乐数据库的建立、管理和索引中具有重要的应用价值,如何准确地进行音符分割是检索系统中较困难的问题[1]。音符识别技术可以便捷地实现乐谱的计算机录入,在音乐内容检索、计算机辅助钢琴教学、音乐作品数字化等领域具有广阔的应用前景。随着计算机多媒体技术、数字信号处理技术等不断发展,越来越多的音乐作品进入数字化的轨道,基于计算机的音乐识别、乐谱跟踪、音乐分类等一系列课题也被越来越多的学者关注。现有音符分割的方法大多是依据能量分割。文献[2]提出了使用声音的频谱参数,利用计算音符的自相似性进行音符分割。文献[3]凭借能量特征确定哼唱的起点和终点,通过设定动态门限的方法实现音符分割。近些年,国内学者的研究主要集中在和弦的识别以及单音符的识别上,对于多音符的识别较为欠缺。本文将运用DPP识别模型,对多音符进行分割识别。

  行列式点过程模型(DPP)在图片分割、文本摘要和商品推荐系统中都有成功的应用。DPP将复杂的概率计算转换成简单的行列式的计算,减少了计算量,提高了运行速度,并且很好地解决了负相关的问题[4]。本文首先将音乐信号进行PCP特征提取,在识别阶段运用DPP进行建模,并用300段标记好的训练集对模型参数进行训练,从而完成音符的自动分割识别。

  音级轮廓特征(PCP)是音乐信息检索中广泛使用的一种信号特征。PCP将频谱重建为音级谱,将音乐信号能量映射到12个音级上。

  第2步:频谱映射,强XSTFT(k,n)映射为一个十二维的向量p(k),每维表征了一个半音级的强度。映射公式为:

  第3步:将各个音级相对应的频率点的频率值进行累加,得到每个时间片段的各个PCP分量的值,公式如下:

  其中p=0,1,…,11。PCP通过一个12维的向量来表示一个音级,它反映了音符在每一个12半音音程中半音阶刻度下的相对强度[5]。

  行列式点过程(DPP)是一种概率模型,它通过核矩阵的行列式来给出每一个子集的概率

  的值越大代表i和j越不可能同时发生,因此DPP适用于对突出差异性的集合进行建模。从图1可以看到,相比于独立抽样,DPP抽样的点集覆盖的信息更广,全局性更好[7]。

  K矩阵定义了一种边缘概率,为了方便对真实数据进行建模,通常采用L矩阵集来代替K,L定义了每一种子集概率,为最优化提供了一个方便的表述。一个通过正定矩阵L定义的DPP如下:

  图2为DPP的几何描述,每一帧都由一个向量表示。图a向量所围成的面积即为帧i和帧j的联合概率;图b增加了帧j的Q值,联合概率也增加了;图c提高了帧i和帧j的相似度,联合概率相应地减小。

  通过在条件行列式点过程模型中加入参数,来实现有监督的学习模型。对于训练集

  ,输入集合X为音乐每一个音符的一帧组成的点集,y(X)为该音乐内所有备选的点集。所以在参数θ下,给定的输入集X,输出集Y的条件概率如下:

  只要保证相似度特征矩阵是正定的,相似度特征向量φi(X)可任由期望的测量值构成,也可以是无限维度的。我们用对数线性模型计算Q值:

  最优化L是基于一致性假设的。如果训练数据准确地参数θ* 满足条件行列式点过程分布,那么当

  。当然现实中的数据不可能准确地遵循任何确切的模型,但是最大似然近似依然能够较好地矫正DPP产生合理的概率估计,因为使L最大相当于令训练数据的对数损耗最小。

  我们需要用学习到的参数θ来预测测试集X,得到最终的点集Y。一种方法是从DPP条件分布中抽样,这将需要立方的时间复杂度[9],本文将采用最大后验估计(MAP)来进行预测。在约束条件下的YMAP定义如下:

  其中cost(i)为帧i的能量,B为总能量的门限值,计算YMAP是NP困难问题[10],我们这里做两个近似。第一,我们通过抽样获得大量的子集Y,然后通过约束条件选择可能性最大的一个;第二,注意到公式(11)为一个子模块,我们可以用一个简单的贪婪算法来近似它。对于单调子模块问题,这种算法有合理的近似保证[11-12]。

  本文的实验环境为安装有Matlab2010A 的PC 机,在356首符合条件的钢琴曲片段中,随机选出300个音乐片段作为训练样本数据,其余的56个片段作为测试数据。训练、测试音乐片段的平均时间长度为6.8s,平均多音音符15个。从训练模型库中可以看出经过300个音乐片段训练后得到的多音音符基本覆盖了钢琴88个单音所构成的多音符组合。表1是几种多音符系统的识别率(多音符中单音符数超过3)。

  本课题所研究的基于DPP的多音符识别系统其识别率提高了近5%。与时频域、统计法等识别相比,基于DPP的模式识别法虽然需要对样本进行先期训练,但是由于DPP对多音符特征转换较为精确的建模,为多音符的正确识别奠定了基础。在模型建立过程中,对于相近多音符的建模是本课题识别率较低的原因之一。比如,对于多音符A1C2F2 和A1C3F3,在特征提取过程中,二者相差的只是C2和C3两音符上的频率带能量差,而根据钢琴十二平均律的物理特性,二者成倍频关系,这就为PCP特征提取带来极大的困难。

  本文介绍了利用DPP模型对钢琴曲进行多音符自动分割识别的初步研究结果。在运用PCP特征的的基础上,音符识别率达到了67.2%。但是,根据实验中出现的问题,本系统还存在诸多需进一步研究改进的地方。首先,在对多音符的建模时,由于相近多音符的特征差异小,导致模型近似,出现误识别,这就需要采用新的多音符特征;其次,DPP模型趋向于选择差异性大的子集,所以对于短时有内大量重复旋律的音乐,DPP的分割正确率并不理想。但是,DPP将复杂的概率计算转换成简单的行列式计算,在计算速度上大大优于MRF[13],在对海量音乐进行分割识别时,DPP的优势将更加明显。

  [2]曹建红.基于哼唱的音乐检索技术研究[D].南京:南京理工大学,2009

  [5]王峰. 美尔音级轮廓特征在音乐和弦识别算法中的应用研究[D]. 太原: 太原理工大学, 2010

  本文来源于中国科技核心期刊《电子产品世界》2016年第4期第28页,欢迎您写论文时引用,并注明出处。

http://mamitamala.com/zidongqiefen/48.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有