基于音频比对的声纹识别技术
第26卷第4期 佛山科学技术学院学报(自然科学版)
2008年7月 Jou rnal of Fo shan U n iversity (N atu ral Science Editi on )
文章编号:100820171(2008) 0420001205. 26N o . 4V o l . 2008Ju l
基于音频比对的声纹识别技术
王 东, 陈俊龙, 张鸿贤
(佛山科学技术学院计算机系, 广东佛山528000)
摘要:为了克服声纹识别技术在应用中存在识别率低、、。通过大量实验分析, 建立了一系列声纹识别的音频特征模型, 。与传统的声纹识别技术相比, 声纹识别的准确率提高了20%。
关键词:声纹识别; 音频特征; 中图分类号:TN 912. :A
, 声纹识别技术逐渐成为了研究热点。声纹识别属于生物特征识别技术, 是一种根据语音波形所反映的说话人生理和行为特征的语音参数的技术。声纹识别系统主要包括两部分:特征提取和模式匹配。特征提取的任务是选取惟一能表现说话人身份的有效且稳定可靠的特征, 并以此作为身份验证的依据; 而模式匹配的任务是把提取的音频特征与训练时提取的音频特征进行相似性匹配。
1 基本的声学特征
在对音频进行采样的过程中, 需要从采样的样本数据中提取表征说话人惟一特征的音频特征参数, 即能代表原始音频中主要信息的参数[1, 2]。
1. 1 短时能量
音频短时能量体现了音频信号的幅值随时间的变化情况, 其主要作用是区分话音成分和非话音成分, 即用来区分“有说话区”和“无说话区”, 也可以用作语音端点检测。音频信号的短时能量定义为
E n =N N -1i ∑i =m [S n (i ) Ξ(n -m ) ]2, Ξ(i ) =1, 0≤i ≤N -10, o ther w ise , (1)
式(1) 中, m =0~(N -1) , 如果Ξi 的起点不是从i =0, 而是某个整数m , 那么相应的能量求和范围为m ~(N -1) 。
1. 2 短时过零率
过零率定义为单位时间内的过零次数, 其应用主要包括两类:一类是用于粗略描述信号的频谱特性, 另一类是用于判别一段音频信号中是否有语音。由于一般的过零率定义计算得到的值易受干扰, 因此对其计算模型作出如下改进:设一个门限T , 将过零的含义修改为超过正负门限, 可得下式
∞
Z n =
m =-∞∑ sgn [x (n ) -T ]
-sgn [x n -1-T ] + sgn [x (n ) +T ]-sgn [x n -1+T ]Ξn -m 。(2)
1. 3 质心和均方根
质心反映音频帧内信号的基本频率带。
收稿日期:2008203226
作者简介:王 东(19702) , 男, 黑龙江甘南人, 佛山科学技术学院讲师。
2佛山科学技术学院学报(自然科学版) 第26卷
K 32
2j 32j j M j =∑S
t =1(t ) K , C i =∑jM ∑M j =1j =1。(3)
均方根用于衡量音频信号的强弱。
32
R i =∑M j =12j 32。(4)
1. 4 M el 倒谱系数
人的听觉系统是一个特殊的非线性系统, 它响应不同频率信号的灵敏度是不同的, 基本上是一个对数关系。M el 倒谱系数充分利用人的听觉系统这种特殊的感知特性, 从而比较有效地表征人的音频特征。为计算M el 倒谱系数, 首先应计算音频的频域信息, 对音频帧进行快速傅立叶变换, 将时域信息x i (n ) (n ∈[1, …,N um ]) 转换为频域信息y i (n ) (n ∈[0, …,N um -1]) ,
N um -1
y i (n ) =∑e
n =0-j nk N um x i (n +1) , k 0, …(5)
式(5) 中j 为虚数单位1kH z ) , 并按“1kH z 以下以线性的形式计算11个频率点, 1kH z 12个频率点”的原则确定出24个频点的频率f i (i ∈[1, …, 24])
f
f
f
f
f 12=20H z =1000H z =f =i -11+11f H z 。(6) 1324f 14=…=24=22000H z
根据上式的计算结果, 代入下式, 即可计算出对应的M el 频率
F i =6ln 600+(600) 2+1, (7)
计算M el 倒谱系数:利用24个三角带通虑波器分别与傅立叶变换得到的频域信息y i (n ) (n ∈[0, …, N um -1]) 求卷积, 得到每个频率点的对数能量p i (n ) (n ∈[1, …, 24]
) , 根据该频点能量进行余弦变换(DCT ) 即可得到M el 倒谱系数
24) (8) M FCC i =∑p i (k ) co s (k - d ∈[1, 2, …, 12]。2k =1
式(8) 中, d 代表取M el
倒谱系数的个数(本文取前12个) 。
2 音频特征建立过程
按照图1所示过程建立语音特征[3]。
图1 原始音频数据处理流程
2. 1 音频数据预处理
无论采用哪一种采样频率都会产生数据量过大的问题。因此, 在提取音频特征之前, 必须对原始音频数据进行H aar 小波变换以压缩音频信息。H aar 小波函数定义为
1, 当0≤x
(9) Ω(x ) =-1, 当1 2≤x
0 其他
第4
期 王 东等:基于音频比对的声纹识别技术3设有一段有N 个数据的原始音频为X ={x 1+x 2+…+x N }(N m od2=0) , 用H aar 小波变换为
(10) x i =, i =1, 2, …, N 4, j =4 (i -1) +1, 2
把原始音频数据压缩后, 对音频数据进行细化, 即做分帧处理:设一个音频序列的采样频率为f s , 实
(1000 32) , 每个音频的数验采用22050H z , 采样位数为W s , 每个子带的数据个数为K =f s W s 20
据个数为N um =K 32, x n (n ∈[1, …,N um ]) 为帧音频数据集, s i (j ) (j ∈[1, …, 32]) 为第i 帧第j 子带的音频数据集。
2. 2 音频帧的划分
对于音频信号处理, 可假定为短时平稳, 即在10~20m s 内, 其频谱特性和一些物理特征是稳定不变的, 然后采用平稳过程分析方法进行处理。对音频数据进行特征提取前, 首先把音频数据进行分帧处理。把每20m s 采集的音频数据作为一帧, 相邻两帧之间重叠10m s , ; 然后, 把每帧的数据平均分成32个子带。音频帧的划分如图2所示
。
图2 音频帧划分示意图
2. 3 语音端点检测
在对音频数据进行特征提取前, 先把特征有效音频序列分离出来。而新的音频序列都是包含了惟一可代表说话人的主要特征, 即进行语音端点检测。根据式(1) 计算短时能量, 得到音频的短时能量E n , 然后根据式(2) 计算得到音频的短时过零率Z n 。至此可根据短时能量判断一个字的末点。
通常情况下, 短时平均幅度值降低到该音节中最大短时平均幅度的1 16左右, 就可以认为该音节已经结束了。而语音的开端, 其短时能量的大小与背景噪声的短时能量相差不大, 为了能够正确地找到音节的起点, 本文采用双门限前端检测, 其方法如下:语音开始以后会出现能量较大的浊音, 设一个较高的门限T h 用以确定语音已经开始, 再取一个比T h 稍小的门限T l , 用以确定真正的起点N 1和结束点N 2。判断清音与无话的差别, 是采用另一个较低的门限T 1, 求越过该门限的“过零率”。只要T 1取得合适, 如图(3) 所示。为了下文所述的模式匹配计算方便, 对每段有效音频只取固定的音频帧数[3
24]。
图3 语音端点检测示意图
2. 4 提取特征参数
有了上述的基础, 就可以对经过上述处理的音频序列进行音频特征参数的提取。首先根据质心和均方根的定义及式(3) 和(4) , 计算得到每个音频帧的质心C i 和均方根R i 。然后根据式(5) 对每一个音频正进行快速傅立叶变换, 把时域信息转化为频域信息。并按照式(6) 计算出24个频率点f i (i ∈[1, …, 24]) , 把f i (i ∈[1, …, 24]) 代入式(7) 得到24个频率点分别对应的M el 频率。最后利用24个三角带通虑波器分别与傅立叶变换得到的频域信息y i (n ) (n ∈[0, …,N um -1]) 求卷积, 得到每个频率点的对数能量p i (n ) (n ∈[1, …, 24]) , 把每一个音频帧的对数能量p i (n ) (n ∈[1, …, 24]) 代入式(8) , 进行余弦变换(DCT ) 即可得到M el 倒谱系数。到此, 对每个音频帧都提取了包括:短时能量、短时过零率、质心、
4佛山科学技术学院学报(自然科学版) 第26卷均方根以及M el 倒谱系数的音频特征参数。
3 音频特征匹对模型
对待检测音频特征的匹对模型如图4所示
。
图4 音频特征匹对模型
3. 1 建立特征模型
在提取特征参数的过程中, 已经得到了一系列能表征人的身份的音频特征参数。对于每一个音频帧, 根据音频特征参数:1个质心、1个均方根以及12个M el 倒谱系数, 14维的特征模型。把质心C i 和均方根R i 作为一个特征向量V =(C i , R i ) , 把特征向量V i 12个M el 倒谱系数构成的特征向量作为另一个样本向量。
3. 2 模式匹配
在音频帧所提取的14, 把每个音频帧的12个M el 12个补偿倒谱系数作为另一个样本向量。。夹角越小, 表示相似度越高, 反之, 相似度越低3. 3 质心和均方根比对__首先把被测音频中每个音频帧的特征向量V i (k ) 与样本向量V i 中心音频帧的位置一一对应起来, 然后把V i k 和代入式(11) 计算出夹角Η。对计算出i 的余弦值co s Ηi , 然后利用反三角函数计算出夹角Ηi 的值
的所有的Η, 判定Η≤Εi 求出平均值Η1是否成立, 如果成立, 则表明被测音频与样本音频相似, 否则不相似[5]。
co s Ηi =
2___() C i +R i 2(k ) (k ) (k ) , (k ) (11) (C i ) 2+(R i ) 2
式(11) 中, C i 表示样本音频中的第i 帧的质心, C i (k ) 表示被测音频第i 帧的质心; R i 表示样本音频中的第i 帧的均方根, R i (k ) 表示被测音频中第i 帧的均方根, Ε。1是经过大量实验确定的一个阀值
3. 4 M el 倒谱系数比对
利用倒谱平均消去法, 计算补偿倒谱系数。首先把倒谱系数的期望定为零, 那么就有[5]
N (12) A v i (j ) =∑M FCC i (j ) j ∈[1, …, 音频帧数], M FCC i (j ) =M FCC i (J ) -A v i , N j =1
式(12) 中, N 为倒谱系数的个数, A v i 为第i 个帧的倒谱系数的平均值, M FCC i (j ) 为补偿后的倒谱系数。把上述计算得到的每一个音频帧补偿后的倒谱系数作为一个12维向量[5]
M i =(M FCC i (1) ,M FCC i (2) , …,M FCC i (12) ) , _(13)
首先把被测音频中每个音频帧的特征向量M
后把M _(k ) i _(k ) i 与样本向量M i 中心音频帧的位置一一对应起来, 然_和M i 代入式(14) 计算出夹角Υi 的余弦值co s Υi , 然后利用反三角函数计算出夹角Υi 的值并求出_
平均值Υ, 判定Υ≤Ε2(Ε2是经过大量实验确定的一个阀值) 是否成立, 如果成立, 则表明被测音频与样本
[5]音频相似, 否则不相似。
co s Υi =
(M FCC i (1) ) +…+(M FCC i (12) ) 22(14) (M FCC ′(M FCC ′i (1) ) +…+i (12) ) 22
4 总结与展望
通过对音频特征的筛选以及对提取音频特征方法的改进, 在较理想的环境下, 能把声纹识别的准确
第4期 王 东等:基于音频比对的声纹识别技术5率提升到60%左右。由于在提取音频特征前对噪音的过滤效果还没达到预期的目标, 音频特征还没有建立足够多, 以及硬件设备精良等问题对本识别率都造成了一定的影响。在后续工作中, 应继续完善音频特征模型, 改进匹配算法, 力求把声纹识别的准确率逐步提高, 进而把声纹识别技术应用到实际中。参考文献:
[1] 郭兴吉. 基于特征的音频比对技术[J ]. 河南师范大学学报, 2006, 34(2) :35238.
[2] 张万里, 刘桥. M el 频率倒谱系数提取及其在声纹识别中的作用[J ]. 贵州大学学报, 2005, 22(2) :2072210.
[3] 易克初. 语音信号处理[M ]. 北京:国防工业出版社, 2000.
[4] 姚天认. 数字语音处理[M ]. 武汉:华中科技大学出版社, 2002.
[5] 同济大学应用数学系. 线性代数[M ]. 4版. 北京:高等教育出版社, 2006.
Vo ice -pr i n t technology ba tch i ng
W AN long , ZHAN G Hong 2x ian
t of Compu ter , Fo shan U n iversity , Fo shan 528000, Ch ina )
Abstract :In o rder to overcom e som e sho rtages w h ile u sing vo ice 2p rin t recogn iti on techno logy , such as low recogn iti on rate , in stab ility an un recogn ized sp eech and so on . T h rough a lo t of exp eri m en tal has been done to recogn ize a series of vo ice featu res m odel fo r vo ice 2p rin t recogn iti on . A s a resu lt , the w idely 2u sed m atch ing algo rithm is i m p roved to increase the recogn iti on rate of vo ice 2p rin t by 20p ercen t com
p are w ith the traditi onal vo ice 2p rin t techno logy .
Key words :vo ice 2p rin t recogn iti on ; vo ice featu re ; featu re m odel ; m atch ing algo rithm